Als brutkasten mich um eine Einschätzung zum neu gelaunchten AMS-Chatbot “Berufsinfomat” bat, überschlugen sich bereits die Nachrichten. In Branchen-Blogs, Boulevardmedien und Qualitätspresse war schnell klar, was bei diesem KI-Projekt schiefgelaufen war.

Der Bot wurde kritisiert, sexistische Antworten zu liefern und Ungleichheit zu fördern, wie eine Radiosendung empört berichtete. Im Frühstücksfernsehen belächelte man die vielen unpassenden Antworten, und anderswo wurde behauptet, andere Anbieter hätten ein vergleichbares Service in Minuten nachgebaut.

Zudem wurde der hohe Preis von 300.000 Euro für einen als diskriminierend empfundenen Chatbot, der Männer und Frauen unterschiedlich behandle, kritisiert. Viele X-User verglichen dies mit dem „Kaufhaus Österreich“ und sahen es als Verschwendung von Steuergeldern. Ein Digital-Experte im Radio-Live-Interview wirkte bei der Machart des Chatbots uninformiert und wiederholte lediglich gängige Sexismus-Vorwürfe.

Dabei wird kaum über die funktionierenden Teile der Software gesprochen, die jeder selbst testen kann. Auch wird selten erwähnt, dass eine Behörde endlich das tut, was man 2023 von ihr erwarten sollte: sich digital etwas zu trauen. Bei der übermäßigen Welle der Kritik am AMS-Chatbot scheint es nicht nur um die suboptimale Launch-Strategie zu gehen, während andere vergleichbare Projekte kaum Beachtung finden.

Ein Tweet von Martin Thür bringt es auf den Punkt: “Ich habe keinen einzigen kritischen Artikel zum Chatbot der Stadt Wien gefunden. Nicht einmal dessen Kosten sind offengelegt. Mir scheint, nicht nur die KI hat einen Bias.”

Die teilweise überzogene Kritik offenbarte Widersprüche und mangelndes Projektverständnis. Markus Kaiser, ehemaliger Geschäftsführer des BRZ, drückte seine Verwunderung auf LinkedIn aus. Auch scheint es, dass die Medien nicht gründlich recherchieren, warum eine Behörde diese Lösung wählte, und begnügen sich mit oberflächlicher User-Testung. Wer so vorgeht, kann ein jedes Produkt eines generativen Modells in Grund und Boden kritisieren. Es wirkt, als stünde eigentlich ein anderes Thema im Vordergrund: Der Nimbus, dass wir Digitalisierung (im öffentlichen Bereich) einfach nicht können.

In Wahrheit fehlt es auf beiden Seiten am Verständnis, wie solche Projekte eingeführt werden sollen, sowohl auf Betreiber- als auch auf Stakeholder-Seite. Aber zumindest das lässt sich lösen.

Was es für solche Projekte künftig braucht:

BETA-Kultur 2.0

Vor Jahren kam die BETA-Test-Kultur aus dem Silicon Valley zu uns. Produkte wurden zuerst intern, dann ausführlich extern getestet. Diese Kultur ist mittlerweile fast verschwunden, was der digitalen Innovationskultur schadet. Die Entwicklung komplexer Produkte erfordert Offenheit, hohe Fehlertoleranz und eine breit getragene Feedback-Kultur. Wir sollten solche Phasen wieder einführen, besonders im Bereich generativer KI, um ausreichend Userfeedback zu sammeln und unvermeidliche Fehler auszumerzen. Richtig kommuniziert sollte jedem User klar sein, dass der Hinweis “es können fehlerhafte Inhalte produziert werden” ernst gemeint ist.

Bullshit-Verbot bei KI-Themen

Früher gab es ein Bullshit-Eldorado bei Tech-Themen. Heute ist unser Umgang mit Informationen faktischer und verantwortungsvoller. Doch der Druck zur Übertreibung stieg wieder, ausgelöst durch Branchenriesen wie OpenAI und Microsoft. Die Erwartungen, was KI leisten kann, sind durch falsche Versprechungen und Medienberichte überhöht. Der Weg zu belastbaren und sicheren b2b KI-Anwendungen ist in Wahrheit aufwendig und erfordert Expertise und Ressourcen (besonders im öffentlichen Dienst). Aber er lohnt sich.

Mut zu KI-Projekten bei Ämtern und Behörden

Der neue Shitstorm könnte Ämtern und Behörden den Mut nehmen, eigene Innovationsprojekte voranzutreiben. Doch genau dieser ist wichtig. Jedes Amt, jedes Ministerium sollte Startups die Chance geben, ihre Technologie einzusetzen. Dem AMS gebührt Respekt für seinen Mut, insbesondere nach dem davor erlebten Shitstorm zum sogenannten “AMS-Algorithmus”, der aber keine KI war, wie es Medien und NGOs ebenfalls und überwiegend falsch kommunizierten.

Das Problem mit unserer unfair verteilten Fehlertoleranz

Das AMS, wie viele andere in unserer Region, steht vor einer besonderen Herausforderung: Als OpenAI ChatGPT für alle zugänglich wurde und schnell 100 Millionen Nutzer erreichte, herrschte auch bei uns große Euphorie. Die Kritik an den noch offensichtlichen, zahlreichen Schwächen des Systems war dabei fast nicht vorhanden. Man hörte oft: „Ja, es gibt Probleme mit Halluzinationen und dem ‚Reasoning‘, das Datenschutz- und Knowledge-Graph-Problem ist noch nicht gelöst, aber nutzt es trotzdem sofort, sonst seid ihr nicht mehr zu retten.“

Ganz anders ist die Reaktion, wenn ein europäischer oder österreichischer Anbieter einen KI-Service vorstellt und bewirbt. Hier herrscht fast eine Nulltoleranzpolitik. Kritik und eine gewisse Schadenfreude am Scheitern anderer sind dann häufig. Mittlerweile ist allgemein bekannt, dass Trainingsdaten für KI voreingenommen sein können – ein Spiegelbild der menschlichen Entscheidungen, auf denen sie basieren. Diese Voreingenommenheit wird normalerweise durch Tests entdeckt und behoben (wenn es doch nur bei Mitarbeitern und Kunden so einfach wäre). KI-Projekte im Einklang mit Datenschutzvorschriften zu gestalten, ist Neuland und aufwendig, und auch die Sicherheitsaspekte können kostspielig sein.

Wie könnte es mit dem AMS Berufsinfomat weitergehen?

Eine wichtige Lehre ist, die Menschen und diversen Stakeholder besser auf KI-Anwendungen vorzubereiten. Eine ausführliche interne Testung gefolgt von einer kontrollierten, länger angesetzten und begleiteten BETA-Test-Phase, ist ab jetzt ein Muss. Das AMS könnte einen kleinen Schritt zurück machen und das Rollout-Verfahren korrigieren. So könnten sich Stakeholder konstruktiv einbringen. NGOs könnten ihre Bedenken bezüglich Datenschutz, Sexismus, Rassismus und Ungleichheit gefahrlos erforschen und Feedback geben. Die Medien würden sich dann hoffentlich weniger auf die Schwächen konzentrieren und auch die Stärken hervorheben, was das Vertrauen in die Behörden stärkt.

Denn ein Projekt, das offen zugibt, innovativ, aber auch noch fehleranfällig (also BETA) zu sein, wird weniger Ziel von Kritik sein, sondern einladen, unvoreingenommen getestet zu werden