Studie: KI-Modelle können sich durch ihren eigenen Müll selbst zerstören

Eine neue Studie trübt die Hoffnungen, die in generative KI gesetzt werden. Durch zu viele KI-Inhalte im Internet könnten die Modelle verlernen, was hochwertiger Content ist.

/artikel/ki-modelle-koennen-sich-selbst-zerstoeren

✨ AI Kontextualisierung

Obwohl die Tech-Welt seit Jahren vor KI warnt, sind ihre Fähigkeiten erst letztes Jahr in den Fokus einer breiteren Öffentlichkeit gerückt: Generative KI ermöglicht es, mit wenigen Klicks kreative KI-Leistungen schnell verfügbar zu machen. Konkret heißt das: KI-Chatbots wie ChatGPT forumlieren auf Befehl eloquente Texte, können programmieren und verschiedene sprachliche Tasks im Nu erledigen. Bilderzeugungs-Tools wie Stable Diffusion oder Midjourney erzeugen auf Knopfdruck fotorealisitische Bilder.

Studie warnt vor Qualitätsverlust

Viele Unternehmen haben es plötzlich sehr eilig: Schnellstmöglich wollen sie KI-Lösungen in ihre Produkte implementieren, wie jüngst Mark Zuckerberg für Meta verkündete. Die Hoffnungen und Erwartungen, die in KI-Modelle gesetzt werden, sind riesig.

Die Studie eines britisch-kanadischen Forscherteams, die vor kurzem im Open-Access-Journal arXiv erschienen ist, könnte den KI-Hype jedoch etwas trüben. Sie kommt zu dem Ergebnis, dass KI-Modelle nachhaltig geschädigt werden können, wenn sie mit KI-generierten Inhalten trainieren. Denn laut den Studienautor:innen, seien die KI-Modelle derzeit vor allem deshalb so stark, weil sie mit menschengemachten Inhalten trainiert sind.

Internet als KI-Mülldeponie

“Wir waren überrascht zu sehen, wie schnell ein Modell wieder zusammenbricht. Die Modelle können die meisten Originaldaten, aus denen sie ursprünglich gelernt haben, schnell vergessen”, meinte der am Projekt beteiligte Forscher Ilia Shumailov gegenüber VentureBeat. In einem Blog-Artikel warnt Ross Anderson, ein weiterer beiteiligter Forscher: “So wie wir die Ozeane mit Plastik vermüllt und die Atmosphäre mit Kohlendioxid gefüllt haben, sind wir nun dabei, das Internet mit Blabla zu füllen. Dadurch wird es schwieriger, neuere Modelle durch Webscraping zu trainieren”.

Das Problem: Je mehr KI-Inhalte im Internet kursieren, desto weniger seien menschliche Inhalte für die KI-Modelle zum Lernen verfügbar. Anderson zufolge hätten Unternehmen, die das Internet bereits gescraped haben, bzw. die den Zugang zu menschengemachten Inhalten kontrollierten, nun immense Vorteile: “Wir sehen bereits jetzt, dass KI-Startups das Internet Archive nach historischen Daten durchsuchen”. Denn bereits jetzt sei das Netz bereits mit KI-generiertem “Müll” kontaminiert.

Problem mit blauen Katzen

Shumailov skizziert das Problem gegenüber VentureBeat folgendermaßen: Menschengemachte Dokumente, egal ob Bilder, Texte, Musik oder andere kreative Leistungen, würden die Welt umfassender beschreiben und auch unwahrscheinlichere Fälle abbilden. KI-Modelle hingegen wählen Daten nach Wahrscheinlichkeitskriterien aus: Werden bestimmte Daten häufiger vorgefunden als andere, werden die unwahrscheinlicheren eher verworfen.

Gut zu beschreiben sei dies anhand eines Datensets aus Katzenbildern. Wird ein KI-Modell mit Bildern von 10 blauen Katzen und 90 gelben Katzen trainiert, erkennt die KI, dass gelbe Katzen mit höherer Wahrscheinlichkeit “richtig” sind. In der Folge produziert die KI selbst grünstichige Katzenbilder, wenn sie Katzen mit blauem Fell darstellen soll. Im Laufe der Zeit produziere sie überhaupt keine blauen Katzen mehr, sondern nur mehr gelbe.

Das Beispiel zeige laut Shumailov, dass die KI-Modelle Probleme mit unwahrscheinlicheren Daten hätten. Im Laufe der Zeit würden die Modelle somit versagen, meint der Forscher. Darüber hinaus entstünden dadurch zahlreiche Probleme, etwa Diskriminierung aufgrund bestimmter Minderheiten-Eigenschaften.

Deine ungelesenen Artikel:

Vit Le

08.01.2025

Mimo: Wiener Coding-Lern-Startup verzeichnet 32 Mio. User

Seit seiner Gründung im Jahr 2016 hat das Coding-Lern-Startup Mimo über 32 Millionen Nutzer:innen erreicht. Welche großen Ziele das Unternehmen im neuen Jahr anstrebt, verrät CEO Johannes Berger im Gespräch mit brutkasten.

/artikel/mimo-wiener-coding-lern-startup-verzeichnet-32-mio-user

Vit Le

08.01.2025

Mimo: Wiener Coding-Lern-Startup verzeichnet 32 Mio. User

/artikel/mimo-wiener-coding-lern-startup-verzeichnet-32-mio-user

Programmieren lernen mithilfe einer App: Mimo macht es möglich. Das Wiener Startup entwickelte eine App, mit der Nutzer:innen sechs verschiedene Programmiersprachen erlernen können. Bereits ein Jahr nach der Gründung gewann das junge Unternehmen namhafte Investoren wie Hansi Hansmann und die Gründer von Runtastic für sich – brutkasten berichtete. Die Zahl der Nutzer:innen stieg kontinuierlich, allein in den letzten zehn Monaten kamen knapp fünf Millionen weitere „Learners“ hinzu.

Mimo-CEO: „2024 war schlichtweg außergewöhnlich”

Auf LinkedIn verkündete CEO Berger kürzlich den Meilenstein: „Wir haben 2024 mit einem Knall beendet! Bei Mimo haben wir bis Ende 2024 über 30 Millionen Lernende erreicht. Das Jahr 2024 war schlichtweg außergewöhnlich. Allein in diesem Jahr haben wir mehr Lernende willkommen geheißen als jemals zuvor – ein echter Beweis für unsere Mission, das Programmieren für alle zugänglich zu machen“. Im Gespräch mit brutkasten verrät Berger, dass die User:innenanzahl mittlerweile sogar die 32-Millionen-Marke erreicht hat. Außerdem sei Mimo „hoch positiv was den Cashflow betrifft”.

Mimo markiert “die Zukunft des Programmierens”

Erst Ende letzten Jahres launchte die Coding-Plattform ein neues Feature: Mimo macht es möglich, mithilfe eines AI-Assistenten einen Code zu erstellen. “Unsere AI-Integration geht so weit, dass du von der AI einen Code erstellt bekommst, der direkt in dein File geschrieben wird. Wenn du es nicht verstehst, kannst du dir das nachher auch erklären lassen”, erklärt Berger. Damit markiere Mimo “die Zukunft des Programmierens” und übernehme somit eine Vorreiterrolle, schreibt der CEO auf LinkedIn.

2025: Fokus auf AI-Integration

Für das neue Jahr zeigt sich der CEO zuversichtlich: „Ich könnte nicht aufgeregter sein, was 2025 für uns bereithält”. In den letzten Jahren fokussierte sich Mimo primär darauf, „die Lernmaterialien so inklusiv aufzubereiten wie möglich, so verständlich aufzubereiten wie möglich und möglichst viele Nutzer und Nutzerinnen zu erreichen”, sagt Berger gegenüber brutkasten. Nun möchte man die AI-Integration weiter in den Vordergrund rücken. So soll es möglich sein, eine Software zu erstellen, ohne schwierige Programmiersprachen zu beherrschen. „Wir planen, das Programmieren noch zugänglicher zu machen als je zuvor, um noch mehr Menschen zu erreichen und ihnen zu zeigen, dass sie alles bauen können, wovon sie träumen”, so Berger.

Toll dass du so interessiert bist!
Hinterlasse uns bitte ein Feedback über den Button am linken Bildschirmrand.
Und klicke hier um die ganze Welt von der brutkasten zu entdecken.

brutkasten Newsletter

Aktuelle Nachrichten zu Startups, den neuesten Innovationen und politischen Entscheidungen zur Digitalisierung direkt in dein Postfach. Wähle aus unserer breiten Palette an Newslettern den passenden für dich.

Montag, Mittwoch und Freitag