Wie stellt man sicher, dass Künstliche Intelligenz das tut, was sie soll? Sei es im Auto, im Krankenhaus, in der eigenen Wohnung oder in der Fabrik – KI-Anwendungen, die aus sicherheits- oder finanzkritischen Gründen Verlässlichkeit nachweisen müssen, brauchen ein entsprechend stichfestes Gütesiegel. Dieser Aufgabe widmet sich der TÜV Austria seit 2021.

Unter dem Namen “Trusted AI” hat man in Kooperation mit der Johannes Kepler Universität Linz (JKU) und dem Software Competence Center Hagenberg (SCCH) ein Machine-Learning-Zertifizierungsschema entwickelt. Dieses beurteilt KI-Anwendungen und im Gegensatz zu anderen Prüfungsinstituten nicht lediglich die Entwicklungsprozesse. Das Schema beschränkt sich aktuell auf Supervised-Learning-Modelle. Weitere sollen nach und nach folgen.

Die richtige Prüfung für das Zertifikat

Doch wie prüft man? “Es ist wichtig, dass man KI-Anwendungen so trainiert, dass sie zu einem statistischen Maß dort funktionieren, wo man möchte”, erklärt Bernhard Nessler, Research Manager für Deep Learning und Certification beim Software Competence Center Hagenberg, im Gespräch mit brutkasten. Seit vier Jahren ist er an der Konzipierung des Zertifizierungsprozesses beteiligt.

In einem Entwurf eines Positionspapier von Nessler, Sepp Hochreiter (JKU) und Thomas Doms, Sicherheits- und KI-Experte des TÜV Austria, betonen diese die Notwendigkeit der statistischen Prüfung. Man stelle sich ein neues Küchenmesser vor. Wie beim Machine Learning wird es trainiert: An reifen Wassermelonen, Äpfeln, grünem Brokkoli und anderem Gemüse. Ist das Training abgeschlossen, versucht man es zu nutzen. Zwar klappe es bei den genannten Objekten, bei anderen tauchen aber Probleme auf: Es schneidet bei Äpfel der Boskop-Sorte nicht durch, Gurken werden zerquetscht, auch die Anwendung bei unreifen Melonen oder außerhalb der Küche ist nicht einwandfrei möglich.

“Wenn ich die Anwendung trainiert habe, mit etwas zu funktionieren, dann ist sie dafür optimiert”, erklärt Nessler. Wichtig sei zu wissen, wie gut sie bei anderen Fällen arbeitet, die wir erwarten würden. Daher sei die Definition entscheidend für die Beurteilung der Funktionalität, die auch Risiken bzw. Aspekte wie Sicherheit und Fairness umfasst.

Anwendungsweck genau definieren

“Wir können nicht sagen: Das Messer ist zum Gemüse schneiden.” Das wäre laut Nessler zu vage und daraus würden “schlechte und unzuverlässige Modelle” werden, die unvorhersehbar sind. Besser wäre beispielsweise zu fragen, wie zuverlässig funktioniert das Messer, wenn ich in einer europäischen Haushaltsküche Gemüse schneide, das zur Zubereitung einer Mahlzeit vorgesehen und im Supermarkt erhältlich ist.

Alle möglichen Fälle wären unmöglich zu prüfen. Man müsse etwas definieren, wo einzelne Samples gezogen werden können. Also in diesem Fall zufällige Testobjekte in Haushaltsküchen in Europa. “Das macht man dann 10.000 Mal – dann kann ich eine Prozentzahl ermitteln und ein statistisches Maß definieren.” Alle anderen Messmethoden seien eine “Illusion”. Bei Anwendungen wie einem KI-Bildgenerator sei das nicht so tragisch. “Jetzt stelle man sich statt dem Messer aber einen Küchenroboter vor, der den Nutzer:innen schaden kann”, sagt Nessler.

Abgesehen von der Funktionalität, müsse man Nessler nach auch die Definition selbst prüfen. Dabei beachtet man unter anderem auch den ethischen Aspekt. “Wenn eine Anwendung bis auf 2 Prozent bei allen Menschen in Europa funktioniert, aber jene 2 Prozent eine bestimmte Ethnie betreffen, dann haben wir ein Problem mit der Gleichbehandlung.”

Lücke im AI Act

Der AI Act ist das weltweit erste Gesetz für KI-Regulierung. Nessler sieht das Gesetzespaket kritisch: “Es fehlt die echte Prüfung der Funktion nach mathematischen Machine-Learning-Methoden, die seit 40 Jahren wohlbekannt sind.” Den verantwortlichen EU-Beamt:innen mangle es an Verständnis. Zwar habe man Expert:innen zugezogen, allerdings sei es laut Nessler schon allein nicht einfach zu bestimmen, wer tatsächlich die entsprechende Expertise aufweist. Von jenen “absolut höchst gefragten” Wissenschafter:innen gäbe es auch “ganz Wenige”.

Gut abgedeckt sei hingegen die Dokumentation und transparente Einsicht. Nessler befürchtet allerdings, dass dafür von kleineren Startups viel Arbeitszeit und Arbeitskraft gefordert wird, die wiederum beim Nachweis der funktionalen Vertrauenswürdigkeit fehlen könnte.

Langwierige Verbesserungen

Nach dem sich das EU-Parlament am 14. Juni über seine Verhandlungsposition entschieden hat, hat der Trilog unmittelbar begonnen. “Die Grundrichtung und die Grundprinzipien des AI Acts, nämlich der risikobasierte Ansatz, die Anknüpfung an eine KI-Definition und die Ausrichtung auf Elemente von vertrauenswürdige KI werden bleiben. Im Detail können und werden sich sehr wahrscheinlich noch Aspekte und Weichenstellungen im AI Act ändern”, erklärt Jeannette Gorzala, Rechtsanwältin und Vizepräsidentin des Europäischen KI-Forums.

Laut Gorzala wird erwartet, dass der AI Act Ende des Jahres beschlossen wird und etwa 2025 voll anwendbar ist. Danach dürfte es dauern bis etwaige Verbesserungen vorgenommen werden. “Die Effekte und die Umsetzung des AI Acts wird von den europäischen Gesetzgebern für einen Zeitraum von rund 5 Jahren beobachtet, damit wären wir ab Inkrafttreten schon bei 2030.” Wie schnell Anpassungen hänge aber von den angedachten Änderungen ab. “Je umstrittener, desto länger wird der Prozess dauern”, sagt Gorzala.

Große Nachfrage, aber noch keine Zertifikate

Laut Nessler stehen für das TÜV-Austria-Zertifikat schon einige Klienten in der Pipeline. Von Startups oder Produktentwickler:innen, die vor der Gründung stehen bis hin zu größeren Unternehmen aus dem Medizin- und Automobilbereich sowie anderen größeren Industrien. Namen dürfe er noch nicht nennen.

Im TÜV-Austria-Prüfkatalog werden unterschiedliche Ebenen behandelt von der Datenquelle, Zuverlässigkeit bis hin zu ethischen Fragen. Pilotprojekte werden aktuell schon untersucht. Zertifikate wurden bis jetzt noch nicht erteilt. Laut Nessler seien auch viele Anwendungen noch nicht soweit, um ein Zertifikat zu erhalten.