15.07.2019

Was macht eigentlich ein Data Scientist?

Das Buzzword "Data Science" geistert derzeit durch die Innovationsabteilungen quer über alle Branchen hinweg. Der Job-Titel "Data Scientist" ist einer der häufigsten in einschlägigen Karriere-Plattformen. Doch worum geht es dabei eigentlich? Wir haben mit drei sehr unterschiedlichen Data Scientists gesprochen.
/artikel/was-macht-ein-data-scientist
Was macht eigentlich ein Data Scientist? Wir haben das Sclable-Data Science-Team gefragt
(c) Tobias Fittner: Das Sclable-AI- und Data Science-Team (vlnr.): Sanchit Singh, Ronald Luc, Frank Fichtenmüller, Charles Dietz und Viktor Sandner

“Data Science bezeichnet generell die Extraktion von Wissen aus Daten” – so lautet die verkürzte Definition auf Wikipedia. Daraus lässt sich eines bereits klar ableiten: Der Beruf “Data Scientist” lässt sich nicht auf einzelne spezifische Tätigkeiten eingrenzen. Tatsächlich bietet der Job, der auf einschlägigen Karriere-Plattformen von Unternehmen jeder Größe derzeit stark nachgefragt wird, einen großen Spielraum. Dabei sind ganz unterschiedliche Kompetenzen vonnöten.

+++ Mehr zum Thema Human Ressources +++

“Lauter offene Münder”

Ein Unternehmen, bei dem Data Science zum Kerngeschäft gehört, ist der Business Accelerator Sclable mit Hauptsitz im Wiener weXelerate. Dort unterstützt man seit sieben Jahren Kunden aus der nationalen und internationalen traditionellen Industrie wie Umdasch Group Ventures und ihr Schwesterunternehmen Doka oder Palfinger in Sachen digitale Transformation. Ein entscheidender Faktor ist dabei die Nutzung von Daten, um Prozesse effizienter zu machen. “Du löst dabei etwas, das für dich eine absolute ‘low hanging fruit’ ist. Aber beim Kunden siehst du bei der Präsentation der Ergebnisse lauter offene Münder”, sagt Viktor Sandner, Head of Data Science and Methodology bei Sclable.

“Es gibt keinen Data Science Fullstack Developer”

Die Nische Finden

Sandner kommt eigentlich aus dem Biotech-Bereich. “Ich bin in meiner Forschung mit Excel-Tabellen bald an meine Grenzen gestoßen. Ich habe daher programmieren gelernt und es hat sich plötzlich eine ganze neue Welt offenbart”, erzählt er. So habe er begonnen, nach Daten-Lösungen für die gesamte Branche zu suchen und sei damit zum “Experten mit einem gewissen Extra” geworden – konkret im Bereich Statistik. Denn eines müsse man im breiten Feld der Data Science finden, um zu reüssieren: Eine Nische.

Diverses Data Science-Team

“Es gibt keinen Data Science Fullstack Developer”, sagt auch Sandners Kollege Ronald Luc, Machine Learning Engineer bei Sclable, und ebenfalls ein “Data Scientist”. Man brauche ein diverses Team. Während sich Viktor Sandner mit statistischen Methoden auf die Suche nach teilweise versteckten Korrelationen in großen Datensets macht, ist Lucs Domäne die Vorhersage von Werten mit Hilfe von Deep Learning – teilweise auf Basis von durch seinen Kollegen aufbereiteten Daten. “Manchmal sind aber gar keine Daten vorhanden. Dann erstelle ich mit Hilfe von detaillierten Interviews ein mathematisches Modell zur Vorhersage”, erklärt Luc.

Es braucht nicht immer Deep Learning

Ein weiteres Feld der Data Science deckt bei Sclable Sanchit Singh ab. Der Head of Computer Vision beschäftigt sich mit der Analyse von zwei- und dreidimensionalen Bild-Inhalten. Auch er arbeitet mit Deep Learning – das sei aber nicht zwingend notwendig. “Es lässt sich vieles mit dem klassischen Computer Vision-Ansatz machen, wo auf Basis von mathematischen Modellen Vergleiche durchgeführt werden und Klassifikationen erstellt werden können”, erklärt Singh. Als Beispiel nennt er, der ursprünglich aus dem Medizin-Bereich kommt, die Hautkrebs-Forschung. Dort könnten Bilder von Haut-Anomalien etwa nach dem Abgleich der Parameter Farbe, Form und Symmetrie sehr treffsicher kategorisiert werden. “Das kann z.B. einem Allgemeinmediziner helfen, der selten mit der Krankheit konfrontiert ist, eine erste Verdachtsdiagnose zu stellen”, sagt der Computer Vision-Experte.

Das unvoreingenommene Programm

Deep Learning bringe aber freilich weitere Möglichkeiten. Hier bestünden zwei Ansätze: “Supervised Learning” und “Unsupervised Learning”. “Während ich beim ‘Supervised Learning’ gewisse Informationen einfüttere – in unserem Beispiel etwa die bereits als Hautkrebs klassifizierte Bilder, die dem Programm als Grundlage dienen, ist es beim ‘Unsupervised Learning’ quasi unvoreingenommen und bildet selbstständig Cluster”, erklärt Singh. Dieser Zugang könne unerwartete Zusammenhänge und damit neue Erkenntnisse ans Tageslicht bringen.

Big Data als Fluch und Segen

Voraussetzung für das Gelingen sei gerade beim “Unsupervised Learning”, aber auch in den anderen “Data Science”-Bereichen, das Vorhandensein ausreichender Datenmengen. Und diese können sich für Data Scientists als Fluch und Segen zugleich erweisen. “Wir sprechen hier von Big Data. Je nachdem, um was für Daten es sich handelt, können Datensets aber auch zu groß werden, um sie bearbeiten zu können. Gerade bei Bildern und Videos ist man sehr schnell im Terrabyte-Bereich und muss dann gegebenenfalls ein kleineres Datenset heranziehen oder an großen Computing-Clustern arbeiten”, erklärt Ronald Luc.

Data Scientist – “ein Blick” für Daten

Und das ist nicht die einzige Herausforderung, mit der man als Data Scientist konfrontiert ist. “Kunden haben häufig zwar große Mengen an Daten, wissen aber gar nicht, was sie damit anfangen können und können daher auch keine Ziele für die Analyse definieren”, erzählt Viktor Sandner. In anderen Fällen würden die Ziele nicht mit den verfügbaren Daten zusammenpassen. “Das kann man aber sehr schnell herausfinden. Nach einiger Zeit hat man einen Blick dafür und sieht sofort, ob das Unterfangen erfolgsversprechend ist”.

“Ich lese jeden Tag zum Frühstück ein Paper”

Ausruhen könne man sich darauf aber nicht. Denn die rapide Entwicklung in dem Bereich erfordere ständige Anpassung. “Die gesamte Technologie, die wir verwenden, ändert sich alle paar Monate”, sagt Sanchit Singh. Für Ronald Luc ergibt sich dadurch eine besondere Morgen-Routine: “Ich lese jeden Tag zum Frühstück ein Paper”.

Redaktionstipps
Deine ungelesenen Artikel:
vor 3 Stunden

Neues OpenAI-Modell o3: “Befinden uns auf neuem Terrain”

OpenAI hat ein neues Sprachmodell vorgestellt, das die Diskussionen um Artificial General Intelligence (AGI) wieder anheizt. Was steckt dahinter?
/artikel/openai-modell-o3-artifical-general-intelligence
vor 3 Stunden

Neues OpenAI-Modell o3: “Befinden uns auf neuem Terrain”

OpenAI hat ein neues Sprachmodell vorgestellt, das die Diskussionen um Artificial General Intelligence (AGI) wieder anheizt. Was steckt dahinter?
/artikel/openai-modell-o3-artifical-general-intelligence
Logo von OpenAI
Foto: Adobe Stock

Wenn OpenAI neue Dinge ankündigt, hört die KI-Szene hin. Klar, nicht jede Ankündigung des US-Unternehmens in den vergangenen zwei Jahren hatte dieselbe Tragweite wie jene vom 30. November 2022, als OpenAI den Start eines Chatbots namens ChatGPT verlautbaren ließ. Aber potenziell könnte jede Mitteilung des Unternehmens rund um CEO Sam Altman bahnbrechend sein. Kein Wunder also, dass es für Aufsehen sorgte, als OpenAI Anfang Dezember verlautbarte, zwölf Tage hintereinander neue Dinge vorzustellen.

Schon in der Ankündigung hatte Altman darauf hingewiesen, dass es neben größeren auch kleinere Neuigkeiten sein würden, die OpenAI liefern würde. So kam es dann auch: Zugang zu ChatGPT über WhatsApp oder die Integration in Apple Intelligence waren eher in die zweite Kategorie einzuordnen. Daneben veröffentlichte OpenAI aber auch das neue Modell o1 für ChatGPT – oder Sora, ein Tool zur Videoerstellung.

Den größten Widerhall in der KI-Szene fand allerdings die Ankündigung am letzten der zwölf Tage. Am vergangenen Freitagabend stellte OpenAI sein neues Modell o3 vor. Wichtig dabei: Das Modell ist noch nicht öffentlich zugänglich. OpenAI stellte zunächst einmal nur vor, wie das Modell in unterschiedlichen KI-Benchmarks abschnitt. Aber diese Ergebnisse hatten es in sich.

o3 zeigt starke Performance bei AGI-Benchmark

Vielbeachtet wurde dabei vor allem die Benchmark namens ARC-AGI (Abstraction and Reasoning Corpus for Artificial General Intelligence), bei der zwei Varianten des o3-Modells deutlich bessere Ergebnisse erzielten als die bisher führenden o1-Modelle. Das Ziel von ARC-AGI ist es zu messen, wie sich eine KI im Umgang mit ihr unbekannten Aufgaben schlägt.

Wie die O3-Modelle verglichen mit anderen OpenAI-Modellen abschneiden // Grafik: ARC Prize

Es gibt unterschiedliche Definitionen von AGI. Die meisten davon verstehen AGI aber als ein System, das sämtliche intellektuellen Aufgaben mindestens so gut oder besser als ein Mensch erledigen kann.

Die ARC-AGI-Benchmark wurde von François Chollet konzipiert. Er definiert AGI als ein System, das “in der Lage ist, effizient neue Fähigkeiten zu erwerben und neuartige Probleme zu lösen, für die es trainiert wurde.”

Eine AGI ist also nicht für eine bestimmte Aufgabe trainiert, sondern kann jegliche Aufgaben übernehmen. Es ist weitgehender Konsens in der KI-Szene, dass solche Systeme noch nicht existieren. OpenAI wurde aber beispielsweise explizit mit dem Ziel gegründet, AGI zu erreichen.

Chollet gehört zu den bekanntesten Namen der internationalen KI-Szene. Er hat die bekannte KI-Library Keras entwickelt und seit einigen Jahren für Google tätig. Dem von ChatGPT ausgelösten Hype rund um generative KI steht Chollet seit Anfang an eher kritisch gegenüber, wie beispielsweise auch dieser brutkasten-Bericht wenige Wochen nach Erscheinen von ChatGPT thematisierte.

o3: “Wir befinden uns auf neuem Terrain”

Umso interessanter ist es, was Chollet nun zu den Ergebnissen des o3-Modells bzw. seiner Varianten zu sagen hat. In einem Blogeintrag attestiert er OpenAI, mit dem Modell einen “bedeutenden Sprung nach vorne” erreicht zu haben.

Die Performance des Modells stelle “einen echten Durchbruch” in der Anpassungsfähigkeit und Verallgemeinerung” von KI-Modellen dar”, wenn es darum gehe, wie sich KI-Modelle an neue Aufgaben anpassen könnten. o3 stelle nicht bloß einen “schrittweisen Fortschritt” dar. Vielmehr befinde man sich auf “neuem Terrain”, das “ernsthafte wissenschaftliche Aufmerksamkeit” erfordere.

Aber es ist schon Artificial General Intelligence (AGI)? Hier schränkt Chollet ein: “o3 scheitert immer noch an einigen sehr einfachen Aufgaben, was auf grundlegende Unterschiede zur menschlichen Intelligenz hinweist”. Dennoch befeuerten die Ergebnisse die Diskussion rund um AGI – und manche Stimmen sahen, anderes als Chollet, mit o3 AGI sogar bereits erreicht.

Selbst wenn dem so wäre, wäre es zum jetzigen Zeitpunkt schwer nachzuprüfen: Denn das Modell ist noch nicht veröffentlicht. Forscher:innen im Bereich der KI-Sicherheit können sich für Zugang vormerken lassen. Wann und zu welchen Konditionen das Modell für Endnutzer:innen zugänglich sein wird, ist aktuell noch unklar. Klar ist allerdings schon jetzt, dass die beeindruckenden Ergebnisse bei der ARC-AGI-Benchmark enorme Rechenressourcen erforderten – und dementsprechend teuer waren.

Reasoning-Modelle

Das o3-Modell ist eine verbesserte Version des o1-Modells, welches OpenAI am 4. Dezember veröffentliche und das zuvor bereits in Preview- und Mini-Varianten für ChatGPT-User:innen zugänglich gewesen war. Dieses Modell unterscheidet sich zu dem im Mai 2024 veröffentlichten GPT4o-Modell insofern, als es auf einen “Reasoning”-Ansatz setzt.

OpenAI bezeichnet GPT4o weiterhin als das “vielseitige, hochintelligente Flagship-Modell”, das für die “meisten Aufgaben” die richtige Wahl sei. Die o1-Modelle wiederum referenziert das Unternehmen als “Reasoning-Modelle, die sich bei komplexen, mehrstufigen Aufgaben auszeichnen”.

Enduser:innen von ChatGPT merken dies in der Nutzung vor allem insofern, als sich die o1-Modelle länger Zeit nehmen, Ergebnisse zu produzieren. Diese Modelle “verbringen mehr Zeit mit Nachdenken, bevor sie reagieren”, wie es OpenAI formuliert. In einigen (aber nicht notwendigerweise in allen) Bereichen liefern sie dann deutlich bessere Ergebnisse als die bisherigen Modelle.


Tipp der Redaktion: Die neue brutkasten-Serie “No Hype KI”

No Hype KI
Nach zwei Jahren ChatGPT liefern wir eine Bestandsaufnahme aus der österreichischen Wirtschaft – wo stehen wir wirklich?
Du willst bei "No Hype KI" am Laufenden bleiben?

Trag dich hier ein und du bekommst jede Folge direkt in die Inbox!

Toll dass du so interessiert bist!
Hinterlasse uns bitte ein Feedback über den Button am linken Bildschirmrand.
Und klicke hier um die ganze Welt von der brutkasten zu entdecken.

brutkasten Newsletter

Aktuelle Nachrichten zu Startups, den neuesten Innovationen und politischen Entscheidungen zur Digitalisierung direkt in dein Postfach. Wähle aus unserer breiten Palette an Newslettern den passenden für dich.

Montag, Mittwoch und Freitag

AI Summaries

Was macht eigentlich ein Data Scientist?

AI Kontextualisierung

Welche gesellschaftspolitischen Auswirkungen hat der Inhalt dieses Artikels?

Leider hat die AI für diese Frage in diesem Artikel keine Antwort …

Was macht eigentlich ein Data Scientist?

AI Kontextualisierung

Welche wirtschaftlichen Auswirkungen hat der Inhalt dieses Artikels?

Leider hat die AI für diese Frage in diesem Artikel keine Antwort …

Was macht eigentlich ein Data Scientist?

AI Kontextualisierung

Welche Relevanz hat der Inhalt dieses Artikels für mich als Innovationsmanager:in?

Leider hat die AI für diese Frage in diesem Artikel keine Antwort …

Was macht eigentlich ein Data Scientist?

AI Kontextualisierung

Welche Relevanz hat der Inhalt dieses Artikels für mich als Investor:in?

Leider hat die AI für diese Frage in diesem Artikel keine Antwort …

Was macht eigentlich ein Data Scientist?

AI Kontextualisierung

Welche Relevanz hat der Inhalt dieses Artikels für mich als Politiker:in?

Leider hat die AI für diese Frage in diesem Artikel keine Antwort …

Was macht eigentlich ein Data Scientist?

AI Kontextualisierung

Was könnte das Bigger Picture von den Inhalten dieses Artikels sein?

Leider hat die AI für diese Frage in diesem Artikel keine Antwort …

Was macht eigentlich ein Data Scientist?

AI Kontextualisierung

Wer sind die relevantesten Personen in diesem Artikel?

Leider hat die AI für diese Frage in diesem Artikel keine Antwort …

Was macht eigentlich ein Data Scientist?

AI Kontextualisierung

Wer sind die relevantesten Organisationen in diesem Artikel?

Leider hat die AI für diese Frage in diesem Artikel keine Antwort …

Was macht eigentlich ein Data Scientist?