ChatGPT ist wohl das bekannteste AI-Tool und hat mittlerweile über 1,5 Milliarden monatlich aktive Nutzer:innen. Doch wie schafft der Chatbot es, umfassende Informationen in Textform bereitzustellen? Die Anwendung benötigt wie andere KI-Modelle Daten, auf die sie trainiert wird.

Sind zu wenige oder nicht aktuelle Informationen eingespeist, ist der Output nicht aktuell oder inhaltlich mangelhaft. Wie Decrypt berichtet, möchte OpenAI nun seinen Datenstand aufpolieren. Ein neuer Web-Crawling-Bot namens “GPTBot“ wird im Netz Informationen sammeln und ist nun veröffentlicht worden.

Die Datensammlung soll wohl den Fähigkeiten seiner künftigen Anwendungen zugutekommen. Im Moment gilt das Tech-Unternehmen als Vorreiter in Sachen KI. Da man den Begriff „GPT-5“ bereits schützen ließ, ist eine neue Version offenbar auch schon in Aussicht. Das aktuelle Modell GPT-4 ist im März präsentiert worden (brutkasten berichtete). Die Grundlage für das im November gestartete ChatGPT war ursprünglich das Sprachmodell GPT-3.5.

Datenschutz-Bedenken zu Webcrawler

Laut dem US-amerikanischen Tech-Unternehmen sollen kostenpflichtige, sensible und verbotene Inhalte vermieden werden. Zudem soll der GPTBot die gescrapten Daten präventiv scannen, um persönlich identifizierbare Informationen und Texte, die gegen die Richtlinien verstoßen, zu entfernen.

OpenAI hat zudem eine Anleitung veröffentlicht, mit denen Web-Publisher ihre Daten vor der Abspeicherung bewahren können. Um der geäußerten Kritik im Hinblick auf Datenschutz entgegenzukommen, hat man im April ein neues Feature integriert (brutkasten berichtete) und die eigenen Richtlinien aktualisiert.