Algorithmen erkennen Sarkasmus, aber sie können vergessen – zwei Themen, denen sich Wissenschaftlerinnen des Software Competence Center Hagenberg in ihren Forschungsarbeiten widmen.
Algorithmen erkennen Sarkasmus, aber sie können vergessen – zwei Themen, denen sich Wissenschaftlerinnen des Software Competence Center Hagenberg in ihren Forschungsarbeiten widmen.
Das Erkennen von Sarkasmus im Web ist sogar für Menschen ein schwieriges Unterfangen – für eine künstliche Intelligenz ist es umso komplizierter. Dabei wäre dies etwa im Onlinehandel wichtig, damit zum Beispiel eine Onlinerezension richtig eingeschätzt werden kann. Bisherige Sarkasmusdetektionen fokussieren sich auf die Erkennung von Sarkasmus auf Satzebene oder für eine spezielle Textphrase. Das Problem dabei ist, dass es oft unmöglich ist, einen einzelnen sarkastischen Satz zu identifizieren, ohne den Kontext zu kennen.
Diesem Thema widmet sich Nicole Schwarz vom Software Competence Center Hagenberg (SCCH) in ihrer Arbeit. „Ich arbeite dabei mit einem Deep Neural Network, das jeweils ein Convolutional Neural Network und ein Long-Short-Term Memory Network umfasst“, so Schwarz. Beide Methoden können Texte effizient klassifizieren, die vom Kontext des jeweiligen Textes abhängen, da beide über Speichereinheiten verfügen, um sich bereits gelernte Wörter aus dem Text merken zu können.
Die Ergebnisse der Arbeit zeigen somit, dass Deep Neural Networks die Genauigkeit simplerer Modelle übertreffen können – allerdings mit einem Wermutstropfen: Gäbe es mehr und bessere Daten, so könnten auch genauere Resultate erzielt werden.
Daten sind zugleich das Thema, dem sich Sabrina Luftensteiner in ihrer Arbeit widmet. Denn Vergessen ist kein menschliches Privileg, wie sie erklärt: Auch bei Maschinen ist das sogenannte „katastrophale Vergessen“ ein Problem.
„Ich erforsche das katastrophale Vergessen, welches beim Online-Learning von neuronalen Netzen auftritt und wodurch gelernte Zusammenhänge in bestehenden Modellen bei der Anpassung mit neuen Daten verdrängt werden“, sagt Luftensteiner. Ein Modell komplett neu zu erstellen ist zum Beispiel in der Industrie aber oft zu aufwendig oder gar nicht möglich – etwa wegen des Überschreitens zeitlicher Limits oder auch, weil hier benötigte Daten fehlen.
In diesem Kontext sind auch zensurierte Daten ein Problem: Diese entstehen zum Beispiel durch physikalische Grenzen von Sensoren (z.B. Hitzesensoren) – sie führen zu einem verfälschten Modell, da die im Training genutzten Daten nicht den realen Daten entsprechen. „Ich habe daher ein Framework entwickelt, welches diese Ansätze einbindet und auf verschiedene Datensätze anwendbar ist. Durch die diversen Konfigurationsmöglichkeiten ist dieses Framework gegen das Vergessen in diversen Bereichen – vor allem aber in der Industrie – anwendbar“, so Luftensteiner.