✨ AI Kontextualisierung
Die KI-Welt wurde vor wenigen Tagen von einer Nachricht erschüttert: DeepSeek, ein chinesisches Open-Source-Sprachmodell, soll mit nur 6 Millionen US-Dollar trainiert worden sein. Ein Betrag, der im Vergleich zu den Milliarden, die für GPT-4 oder Claude-Modelle aufgewendet wurden, verschwindend gering erscheint.
Doch wie konnte das möglich sein? Welche Implikationen hat das für den Markt? Und ist die Panik an der Börse – insbesondere bei Nvidia – gerechtfertigt? Eine Analyse.
Das Rätsel um die niedrigen Kosten.
Eines ist klar: Die genaue Hardware-Infrastruktur, mit der DeepSeek trainiert wurde, ist nicht offengelegt. Aufgrund von US-Exportbeschränkungen ist es auch unwahrscheinlich, dass Nvidia-Hardware in großem Umfang zum Einsatz kam oder dies gegebenenfalls der Medienöffentlichkeit gegenüber je offengelegt wird.
Folgende Hypothesen werden diskutiert und werden teilweise durch publizierte Dokumentationen gestützt:
- Durch innovative Algorithmen könnte die Effizienz des Trainings erheblich verbessert worden sein. Methoden wie Low-Rank Adaptation (LoRA) oder Quantisierung reduzierten demnach den Rechenaufwand, mitunter erheblich.
- DeepSeek könnte zudem von existierenden Modellen gelernt haben. Mittels dem sogenannten “Knowledge Destillation” lassen sich leistungsfähige Modelle mit deutlich geringerem Rechenaufwand trainieren, indem sie aus den Antworten bereits bestehender KIs lernen. Dieser Vorwurf wird noch aus 2-facher Richtung beleuchtet werden, nämlich ob und in welchem Umfang dies stattfand und inwiefern das problematisch sein könnte und künftig zu verhindern wäre.
- Spekuliert wird zudem, dass das Modell mit einer optimierten Architektur arbeiten könnte, die es ermöglicht, mit weniger Rechenleistung eine vergleichbare Leistung zu erzielen.
Doch was in der (fast schon zu) lauten Diskussion fast vollends untergeht: Die Bereitstellung und der Betrieb eines leistungsfähigen Sprachmodells kostet immense Summen, nicht nur das Training. Hosting, API-Anfragen und die globale Skalierung verursachen hohe laufende Kosten.
Dass DeepSeek also mit 6 Millionen Dollar für das Training auskam wird von vielen bezweifelt. Dass der zentrale Betrieb für potentiell hunderte Millionen User dementsprechend kostengünstig sein kann, erst recht. Dem Markt und den Nutzern würde hier mehr Transparenz gut tun.
Reaktionen der Märkte: Nvidia-Absturz übertrieben?
Als die Nachricht von DeepSeek bekannt wurde, erlebte Nvidia einen massiven Kursrückgang. Doch ist dieser in diesem Ausmaß gerechtfertigt? Das hängt auch davon ab, welche Annahmen bei der Hardware-Skalierung börslich eingepreist wurden und die Antwort darauf ist vielschichtig. Für viele scheinen die Nachrichten eines dramatisch effizienter trainierenden LLMs alarmierend gewesen zu sein.
Trotz der potenziellen Effizienzgewinne bleibt aber eines sicher: KI wird weiterhin enorme Mengen an Rechenleistung und Chips benötigen. Zumal die Ziele ja noch lange nicht erreicht sind, strebt man doch nach der “Agent-Revolution” nichts geringeres als AGI-Führerschaft an.
Die steigende Nachfrage nach Hochleistungsrechenzentren, die KI-Modelle hosten und betreiben, bleibt mit Sicherheit bestehen. Und gerade wenn sich Open-Source-Modelle weiter etablieren, könnte der Bedarf an Infrastrukturen steigen, auch hier stehen wir erst ganz am Beginn globaler Markt-Positionierungen.
Warum DeepSeek vorerst erfolgreich ist:
DeepSeek hat eine kluge Strategie verfolgt:
- Das Modell wurde sofort direkt für die Öffentlichkeit freigegeben. Innerhalb weniger Tage erzielte es so millionenfache Installationen und avancierte zur meistgenutzten KI und stieß, zumindest im App Store, sogar ChatGPT vom Thron.
- Open Source ermöglichte zusätzlich eine hohe Verbreitungsgeschwindigkeit. Entwickler weltweit testen das Modell und integrieren es in Anwendungen. Doch um sich langfristig in diesem Markt zu halten braucht es klare Use Cases und – vor allem – Vertrauen (sic!) in die “Integrität” der Modelle und Anbieter.
Wie wird die Antwort auf DeepSeek lauten?
Die etablierten KI-Giganten OpenAI, Google DeepMind und Gemini, Anthropic und Co haben einen Vorteil: Gigantische Infrastrukturen, tiefe Taschen und den Zugang zu Hunderttausenden von Nvidia-Chips. Sie werden sich die Verbesserungsmethoden nun genau ansehen, dort wo sinnvoll integrieren und mit ihrer überlegenen Infrastruktur kombinieren. Damit könnte das Rennen wieder neue Dynamik entfalten, die am Ende aber gut für die Märkte ist, da der Konkurrenz-Druck zu guten Modellen immer weiter steigt.
Die unterschätzte geopolitische Dimension von LLMs
Was wir bei all dem spannenden technologische Implikationen nicht vergessen dürfen: LLMs sind nicht nur Technologie, sie sind auch inhärent politisch. In einem früheren Kommentar schrieb ich einmal: Sie sind das wichtigste und einflussreichste – kulturelle Exportgut, das eine moderne Nation hervorbringen kann.
Jedes große Sprachmodell transportiert – auch – Werte, Weltanschauungen und ethische Grundsätze. Und dazu braucht keiner der Anbieter mit den Finger zu zeigen, denn das gilt für alle. Der geopolitische Druck auf Unternehmen und auch die EU, eigene Modelle zu entwickeln, wird daher umso mehr steigen.
Altmanns Herausforderung: Der Wandel des Narrativs
Für OpenAI und Sam Altman ergibt sich eine neue Herausforderung: Bisher war ein zentrales Argument für Investoren, dass Transformer-Modelle enorme Rechenleistung benötigten und neben der Logik die schiere Übermacht an Rechenleistung für die Qualität generativer Modelle sorgen. Wenn DeepSeek zeigt, dass vergleichbare Modelle mit geringeren Kosten trainiert werden können, wird das OpenAI unter Druck setzen, ihr Finanzierungsmodell neu zu rechtfertigen.
Interessant ist, dass selbst OpenAI-Researcher und Sam Altman die Leistung von DeepSeek auch öffentlich in sozialen Medien anerkennen und das doch sehr zeitnah, noch bevor man sich detailliert mit dem Rivalen beschäftigen konnte. Ob das Narrativ von der notwendigen, exorbitanten Rechenleistung für Top-Modelle aufrechterhalten werden kann, bleibt abzuwarten und besonders spannend. Und einer ist von dieser Markt-Einschätzung besonders betroffen: Branchen-Primus Nvidia.
Fazit und Ausblick für Europa?
Europa hat hier eine Chance. Der europäische Datenmarkt gilt als qualitativ hochwertig. Intelligente, spezialisierte KI-Lösungen, die mit diesen Daten arbeiten, könnten eine neue Exportgeneration smarter Anwendungen hervorbringen.
KI wird immer mehr zu einem Commodity-Gut und Konkurrenz und Diversifikation ist dabei prinzipiell etwas Positives. Ich spreche dazu in meinen Vorträgen seit vielen Jahren. Die Grenzkosten für Intelligenz werden weiter sinken und die generativen Angebote austauschbar werden.
Der wahre Mehrwert von KI für Europa wird in spezialisierten B2B-Anwendungen liegen. Die Zeit, in der das Modell selbst das Alleinstellungsmerkmal war, wird sich bald dem Ende neigen. Der Fokus verschiebt sich zunehmend auf belastbare und sichere Anwendungen, die einen messbaren Mehrwert stiften.