Studie: KI-Modelle können sich durch ihren eigenen Müll selbst zerstören

Eine neue Studie trübt die Hoffnungen, die in generative KI gesetzt werden. Durch zu viele KI-Inhalte im Internet könnten die Modelle verlernen, was hochwertiger Content ist.

/artikel/ki-modelle-koennen-sich-selbst-zerstoeren

✨ AI Kontextualisierung

Obwohl die Tech-Welt seit Jahren vor KI warnt, sind ihre Fähigkeiten erst letztes Jahr in den Fokus einer breiteren Öffentlichkeit gerückt: Generative KI ermöglicht es, mit wenigen Klicks kreative KI-Leistungen schnell verfügbar zu machen. Konkret heißt das: KI-Chatbots wie ChatGPT forumlieren auf Befehl eloquente Texte, können programmieren und verschiedene sprachliche Tasks im Nu erledigen. Bilderzeugungs-Tools wie Stable Diffusion oder Midjourney erzeugen auf Knopfdruck fotorealisitische Bilder.

Studie warnt vor Qualitätsverlust

Viele Unternehmen haben es plötzlich sehr eilig: Schnellstmöglich wollen sie KI-Lösungen in ihre Produkte implementieren, wie jüngst Mark Zuckerberg für Meta verkündete. Die Hoffnungen und Erwartungen, die in KI-Modelle gesetzt werden, sind riesig.

Die Studie eines britisch-kanadischen Forscherteams, die vor kurzem im Open-Access-Journal arXiv erschienen ist, könnte den KI-Hype jedoch etwas trüben. Sie kommt zu dem Ergebnis, dass KI-Modelle nachhaltig geschädigt werden können, wenn sie mit KI-generierten Inhalten trainieren. Denn laut den Studienautor:innen, seien die KI-Modelle derzeit vor allem deshalb so stark, weil sie mit menschengemachten Inhalten trainiert sind.

Internet als KI-Mülldeponie

„Wir waren überrascht zu sehen, wie schnell ein Modell wieder zusammenbricht. Die Modelle können die meisten Originaldaten, aus denen sie ursprünglich gelernt haben, schnell vergessen“, meinte der am Projekt beteiligte Forscher Ilia Shumailov gegenüber VentureBeat. In einem Blog-Artikel warnt Ross Anderson, ein weiterer beiteiligter Forscher: „So wie wir die Ozeane mit Plastik vermüllt und die Atmosphäre mit Kohlendioxid gefüllt haben, sind wir nun dabei, das Internet mit Blabla zu füllen. Dadurch wird es schwieriger, neuere Modelle durch Webscraping zu trainieren“.

Das Problem: Je mehr KI-Inhalte im Internet kursieren, desto weniger seien menschliche Inhalte für die KI-Modelle zum Lernen verfügbar. Anderson zufolge hätten Unternehmen, die das Internet bereits gescraped haben, bzw. die den Zugang zu menschengemachten Inhalten kontrollierten, nun immense Vorteile: „Wir sehen bereits jetzt, dass KI-Startups das Internet Archive nach historischen Daten durchsuchen“. Denn bereits jetzt sei das Netz bereits mit KI-generiertem „Müll“ kontaminiert.

Problem mit blauen Katzen

Shumailov skizziert das Problem gegenüber VentureBeat folgendermaßen: Menschengemachte Dokumente, egal ob Bilder, Texte, Musik oder andere kreative Leistungen, würden die Welt umfassender beschreiben und auch unwahrscheinlichere Fälle abbilden. KI-Modelle hingegen wählen Daten nach Wahrscheinlichkeitskriterien aus: Werden bestimmte Daten häufiger vorgefunden als andere, werden die unwahrscheinlicheren eher verworfen.

Gut zu beschreiben sei dies anhand eines Datensets aus Katzenbildern. Wird ein KI-Modell mit Bildern von 10 blauen Katzen und 90 gelben Katzen trainiert, erkennt die KI, dass gelbe Katzen mit höherer Wahrscheinlichkeit „richtig“ sind. In der Folge produziert die KI selbst grünstichige Katzenbilder, wenn sie Katzen mit blauem Fell darstellen soll. Im Laufe der Zeit produziere sie überhaupt keine blauen Katzen mehr, sondern nur mehr gelbe.

Das Beispiel zeige laut Shumailov, dass die KI-Modelle Probleme mit unwahrscheinlicheren Daten hätten. Im Laufe der Zeit würden die Modelle somit versagen, meint der Forscher. Darüber hinaus entstünden dadurch zahlreiche Probleme, etwa Diskriminierung aufgrund bestimmter Minderheiten-Eigenschaften.

Deine ungelesenen Artikel:

Martin Pacher

07.07.2026

„Sprungbrett statt Schutzwall“: Sieben Leitbetriebe starten Initiative für digitale Souveränität

Sieben österreichische Leitbetriebe wollen Europas technologische Unabhängigkeit vorantreiben – nicht als Abschottung, sondern als Standortchance. Heute wurde in Wien die „Initiative Digitale Souveränität" vorgestellt. Ihr konkretester Vorschlag: ein Gütesiegel für digitale Souveränität in der öffentlichen Beschaffung.

/artikel/sprungbrett-statt-schutzwall-sieben-leitbetriebe-starten-initiative-fuer-digitale-souveraenitaet

Martin Pacher

07.07.2026

„Sprungbrett statt Schutzwall“: Sieben Leitbetriebe starten Initiative für digitale Souveränität

/artikel/sprungbrett-statt-schutzwall-sieben-leitbetriebe-starten-initiative-fuer-digitale-souveraenitaet

Bei Energie und bei Verteidigung hat Europa spät und teuer gelernt, was strategische Abhängigkeit kostet. Im Digitalen – bei Betriebssystemen, Cloud und Künstlicher Intelligenz – ist die Abhängigkeit von wenigen außereuropäischen Anbietern mindestens genauso groß. Genau dort will eine neue Allianz heimischer Leitbetriebe gegensteuern.

Getragen wird die „Initiative Digitale Souveränität“ von A1 Telekom, Anexia, Erste Bank, Keba Group, Spar ICS, Umdasch Group und der Vienna Insurance Group – sieben Unternehmen aus sieben Branchen. Gemeinsam wollen sie Initiativen und Pilotprojekte vorantreiben, um den Digitalstandort Österreich und Europa zu stärken, mit besonderem Fokus auf den Schutz kritischer Infrastruktur.

Die Stoßrichtung ist dabei ausdrücklich keine defensive. „Digitale Souveränität bedeutet nicht Abschottung, sondern Wahlfreiheit und europäische Alternativen — besonders bei kritischen Daten“, sagte A1-Deputy-CEO Thomas Arnoldner. Souveränität sei kein Schutzwall, sondern ein Sprungbrett – und man müsse sie aufbauen, bevor man sie brauche.

Vorschlag: ein Gütesiegel für die öffentliche Beschaffung

Der konkreteste Vorschlag steht im Positionspapier selbst: ein „Gütesiegel für Souveränität“ für die öffentliche Beschaffung. Es soll verlässliche Qualitätsstandards im Cloud-Bereich sichtbar machen, Transparenz schaffen und sogenanntem „Sovereign-Washing“ vorbeugen – also dem bloßen Etikett „souverän“ ohne echte Substanz. Zugleich soll digitale Souveränität in den Bewertungskriterien öffentlicher Vergaben verankert werden; für besonders sensible Daten aus Verwaltung, Gesundheit oder Bildung schlägt die Initiative europäische beziehungsweise österreichische „Souveränitätszonen“ vor.

Foto: A1 Telekom Austria/APA-Fotoservice/Martin Hörmandinger

Keba-CEO Christoph Knogler führte den Gedanken bei der Pressekonferenz aus Industriesicht aus: Ein solches Siegel müsse nachvollziehbar ausweisen, wo Daten gespeichert und verarbeitet werden, wer die Infrastruktur betreibt und in welchem Rechtsraum das geschieht. Berücksichtige die öffentliche Hand Souveränität bei ihren Vergaben, sei das kein bürokratisches Zusatzmerkmal, sondern ein Qualitätskriterium. Zusätzlich warb Knogler dafür, nicht jede Anwendung in der Cloud zu betreiben: On-Device- und On-Edge-KI könnten sensible Daten direkt an Gerät oder Maschine verarbeiten.

Hinter der Debatte steht ein juristischer Kern. Auf Nachfrage aus dem Publikum verwiesen die Initiatoren auf den US Cloud Act als zentrales Problem bei der Frage, welchem Rechtsraum in Europa verarbeitete Daten unterliegen. Fertige Kriterien für das Gütesiegel gebe es noch nicht – die Arbeit laufe auf europäischer wie nationaler Ebene.

Anexia-CEO Alexander Windbichler brachte einen regulatorischen Vergleich ins Spiel: Wie einst im Telekom- und Energiemarkt die Netze geöffnet wurden, ohne Produkte vorzuschreiben, könnte im Cloud-Bereich eine klare Trennung zwischen Software und Betrieb – samt offener Schnittstellen – für fairen Wettbewerb sorgen.

Toll dass du so interessiert bist!
Hinterlasse uns bitte ein Feedback über den Button am linken Bildschirmrand.
Und klicke hier um die ganze Welt von der brutkasten zu entdecken.

brutkasten Newsletter

Aktuelle Nachrichten zu Startups, den neuesten Innovationen und politischen Entscheidungen zur Digitalisierung direkt in dein Postfach. Wähle aus unserer breiten Palette an Newslettern den passenden für dich.

Montag, Mittwoch und Freitag