DeepSeek fordert OpenAI mit neuer KI-Technologie heraus
Das chinesische KI-Startup DeepSeek revolutioniert die Branche mit seinem hocheffizienten R1-Modell, das trotz US-Chip-Beschränkungen OpenAI in Mathematik- und Reasoning-Benchmarks übertrifft und dabei auf Open-Source-Strategien und innovative Architektur setzt.

Wir haben beobachtet, dass DeepSeek mit seiner neuesten KI-Technologie OpenAI in mehreren Mathematik- und Reasoning-Benchmarks übertrifft. Tatsächlich hat das chinesische Startup einen bemerkenswerten Durchbruch erzielt: Während führende US-Unternehmen etwa 16.000 spezialisierte Computerchips benötigen, erreicht DeepSeek vergleichbare Ergebnisse mit nur 2.000 Chips. Besonders beeindruckend ist dabei, dass die Entwicklung des Systems lediglich 6 Millionen Dollar an Rechenleistung erforderte - etwa ein Zehntel dessen, was Meta für seine neueste KI-Technologie ausgegeben hat. Darüber hinaus setzt das Unternehmen auf Open-Source-Methoden und fördert damit die kollaborative Innovation in der KI-Entwicklung. Diese Effizienz wurde nicht zuletzt durch die US-Exportkontrollen für fortschrittliche Chips erzwungen, die chinesische Unternehmen zu innovativeren Lösungen gedrängt haben.
DeepSeek revolutioniert KI-Entwicklung mit R1-Modell
Das chinesische KI-Startup DeepSeek hat mit seinem neuen Modell R1 einen bedeutenden technologischen Fortschritt erzielt. Das im Januar 2025 veröffentlichte Modell nutzt eine innovative Mixture-of-Experts (MoE)-Architektur mit beeindruckenden 671 Milliarden Parametern. Allerdings werden für die Vorhersage einzelner Wörter nur eine vergleichsweise kleine Anzahl dieser Parameter aktiv genutzt.Die technische Besonderheit des R1-Modells liegt in seinem zweistufigen Entwicklungsansatz. Zunächst diente das DeepSeek-V3-Modell als Grundlage, dem anschließend fortgeschrittene Reasoning-Fähigkeiten beigebracht wurden. Darüber hinaus verwendet DeepSeek eine als "Group Relative Policy Optimization" (GRPO) bezeichnete Technik, die es ermöglicht, KI-Modelle ohne menschlich vorgegebene Daten zu verfeinern.
In Benchmark-Tests zeigt DeepSeek-R1 bemerkenswerte Leistungen. Auf AIME 2024 erreicht es eine Genauigkeit von 79,8 Prozent, während es bei MATH-500 sogar 97,3 Prozent erzielt. Besonders hervorzuheben ist seine Leistung bei Coding-Aufgaben, wo es 96,3 Prozent der menschlichen Teilnehmer bei Codeforces übertrifft.
Für den Betrieb des Modells sind mehr als 16 GPUs mit jeweils 80 GB Speicher erforderlich. Dennoch arbeitet das System äußerst effizient: Es ist durchschnittlich 2,4-mal schneller und 23-mal kostengünstiger als vergleichbare Modelle. Diese Effizienz wird durch die dynamische Aktivierung erreicht, bei der nur relevante Teile des neuronalen Netzwerks für spezifische Aufgaben aktiviert werden.
Ein weiterer wichtiger Aspekt ist die Open-Source-Strategie von DeepSeek. Das Unternehmen hat nicht nur das Hauptmodell, sondern auch sechs kleinere "destillierte" Versionen unter der MIT-Lizenz veröffentlicht. Diese basieren auf den Modellen Qwen und Llama und wurden mit 800.000 Beispielen trainiert. Dadurch ermöglicht DeepSeek anderen Entwicklern, auf ihrer Arbeit aufzubauen und die Technologie weiterzuentwickeln.
Bemerkenswert ist außerdem, dass DeepSeek viel Zeit und Ressourcen in die Erforschung von "Scaling Laws" investiert hat. Dies ermöglichte dem Team, präzise vorherzusagen, wie Modell und Datensatz skaliert werden müssen, um das maximale Potenzial auszuschöpfen.
Chinesisches Startup überwindet Chip-Beschränkungen
Die US-Exportkontrollen für fortschrittliche KI-Chips haben sich überraschenderweise als Katalysator für Innovationen in der chinesischen Tech-Branche erwiesen. Besonders bemerkenswert ist dabei die Geschichte von DeepSeek, das bereits vor den Handelsbeschränkungen einen bedeutenden Schritt unternahm: Das Unternehmen sicherte sich etwa 10.000 Nvidia A100-Chips, die später unter das Exportverbot fielen.
Diese vorausschauende Strategie wurde durch die massive Unterstützung des chinesischen Hedgefonds High-Flyer ermöglicht. Der Fonds investierte etwa 70% seiner Einnahmen in KI-Forschung und gab allein 1,2 Milliarden Yuan für zwei KI-Supercomputer-Cluster aus. Diese Investition erwies sich als entscheidend für DeepSeeks späteren Erfolg.
Darüber hinaus entwickelte das Unternehmen innovative Techniken zur Optimierung seiner Modelle. Durch den Einsatz der Mixture-of-Experts (MoE)-Architektur und der Multihead Latent Attention (MLA)-Technologie konnte DeepSeek den Rechenaufwand erheblich reduzieren. Diese Architektur aktiviert gezielt nur die für eine spezifische Anfrage relevanten Modellbereiche, anstatt das gesamte Modell zu nutzen.
Die Effizienz dieser Ansätze spiegelt sich in den Betriebskosten wider: DeepSeeks API-Preise liegen 20 bis 40 Mal niedriger als die von OpenAI. Für eine Million Token berechnet DeepSeek beispielsweise 0,52 Euro für Input und 2,09 Euro für Output, während OpenAI 14,31 Euro beziehungsweise 57,25 Euro verlangt.
Dennoch steht das Unternehmen vor weiteren Herausforderungen. Laut CEO Liang Wenfeng ist nicht das Kapital oder Talent der limitierende Faktor, sondern der eingeschränkte Zugang zu fortschrittlichen Chips. Trotzdem gelang es DeepSeek, seine Modelle V3 und R1 mit nur 2.000 Nvidia-Chips der zweiten Generation zu trainieren.
Diese Entwicklung zeigt einen bedeutenden Wandel in der KI-Landschaft: Anstatt sich auf pure Rechenleistung zu verlassen, optimieren chinesische Unternehmen zunehmend ihre Algorithmen und Softwarelösungen. Der Fokus liegt dabei auf der Entwicklung kleinerer, spezialisierter KI-Modelle, die trotz begrenzter Hardware-Ressourcen hocheffizient arbeiten.
Open-Source-Strategie verändert die KI-Landschaft
Die zunehmende Bedeutung von Open-Source-Prinzipien prägt die aktuelle KI-Entwicklung maßgeblich. Chinesische Unternehmen setzen verstärkt auf diese Strategie, wobei Alibaba Cloud bereits über 100 neue Open-Source-KI-Modelle veröffentlicht hat, die 29 Sprachen unterstützen. Darüber hinaus haben auch Startups wie Minimax und 01.AI ihre Modelle der Öffentlichkeit zugänglich gemacht.
Diese Entwicklung spiegelt sich in beeindruckenden Zahlen wider: Laut einer Studie der China Academy of Information and Communications Technology existieren weltweit mittlerweile 1.328 große Sprachmodelle, wovon 36% aus China stammen. Dadurch positioniert sich das Land als zweitgrößter Beitragender zur KI-Entwicklung nach den Vereinigten Staaten.
Besonders bemerkenswert ist die jüngste Zusammenarbeit zwischen Alibaba Cloud und dem Pekinger Startup 01.AI. Gemeinsam haben sie ihre Forschungsteams zusammengelegt und ein "industrielles Large-Model-Labor" gegründet. Diese Kooperation zeigt deutlich den Trend zur Konsolidierung in der chinesischen KI-Branche.
Die Open-Source-Bewegung fördert außerdem die internationale Zusammenarbeit und beschleunigt Innovationen. Durch den offenen Zugang können Entwickler weltweit die Modelle prüfen, anpassen und weiterentwickeln. Dies ermöglicht besonders kleineren Unternehmen und Startups, auf bestehenden Technologien aufzubauen.
Allerdings bringt dieser Ansatz auch Herausforderungen mit sich. Während die Transparenz es ermöglicht, potenzielle Sicherheitslücken schneller zu identifizieren, müssen gleichzeitig strenge Datenschutzrichtlinien eingehalten werden. Zudem unterliegen chinesische KI-Unternehmen nationalen Sicherheitsvorschriften, die beispielsweise Kritik am politischen System untersagen.
Dennoch überwiegen die Vorteile: Die Open-Source-Strategie demokratisiert den Zugang zu KI-Technologien und fördert die globale Zusammenarbeit. Sie ermöglicht es Forschern und Entwicklern, die Modelle transparent zu überprüfen und potenzielle Voreingenommenheiten zu minimieren. Diese kollaborative Herangehensweise könnte entscheidend dazu beitragen, dass KI-Innovationen künftig nicht nur von wenigen großen Technologieunternehmen, sondern von einer breiten, internationalen Entwicklergemeinschaft vorangetrieben werden.
Schlussfolgerung
Zusammenfassend zeigt DeepSeeks beeindruckende Entwicklung einen bedeutsamen Wandel in der globalen KI-Landschaft. Das Unternehmen beweist durch seine effiziente Nutzung von nur 2.000 Computerchips, dass technologische Innovation nicht ausschließlich von Rechenleistung abhängt. Tatsächlich demonstriert der Erfolg des R1-Modells mit seiner Mixture-of-Experts-Architektur, wie chinesische Unternehmen trotz Handelsbeschränkungen neue Wege der KI-Entwicklung erschließen.
Die Kombination aus kosteneffizienter Entwicklung und Open-Source-Strategie schafft dabei eine solide Grundlage für zukünftige Innovationen. Besonders bemerkenswert erscheint die Fähigkeit des Unternehmens, hochwertige KI-Modelle zu einem Bruchteil der üblichen Kosten zu entwickeln. Schließlich unterstreicht DeepSeeks Erfolgsgeschichte das wachsende Potenzial der chinesischen KI-Branche, die durch kreative Lösungen und kollaborative Ansätze neue Maßstäbe setzt.