D-Matrix Corsair: Angriff auf Nvidias HBM-Modell

Der Angriff auf Nvidia beginnt nicht beim Rechenkern. Er beginnt beim Weg dorthin.

D-Matrix behauptet, sein Corsair-Beschleuniger könne KI-Inferenz bis zu zehnmal schneller erledigen als Nvidia-GPUs und dabei fünfmal weniger Energie verbrauchen. Solche Werte sind ohne unabhängige Vergleichsdaten mit Vorsicht zu lesen. Interessanter als die Zahl selbst ist aber die Architektur dahinter: D-Matrix versucht, den Speicherverkehr zu reduzieren, der viele KI-Systeme ausbremst und verteuert.

Das ist ein anderer Angriffspunkt als bei den meisten Nvidia-Herausforderern. Corsair soll nicht die gesamte GPU-Welt ersetzen. Der Chip ist auf Inferenz ausgelegt, also auf das Ausführen bereits trainierter Modelle. Genau dort verschiebt sich der wirtschaftliche Druck der KI-Industrie: Training bleibt teuer und zentralisiert, aber Inferenz läuft dauerhaft, millionenfach, in Rechenzentren, Produkten, Agentensystemen und Unternehmensanwendungen. Wer dort Energie, Latenz und Speicherabhängigkeit senkt, greift nicht nur einen Chipmarkt an. Er greift die Kostenstruktur der KI-Plattformen an.

Der Speicher ist nicht Beiwerk, sondern Engpass

Die gängige Erzählung über KI-Hardware dreht sich oft um Rechenleistung. Mehr Chips, größere Cluster, dichtere Racks. Im Betrieb großer Modelle ist jedoch der Speicherpfad mindestens ebenso wichtig. Viele GPU-Systeme sind auf externen Hochgeschwindigkeitsspeicher angewiesen, vor allem HBM. Dieser Speicher ist schnell, teuer, knapp und in der Lieferkette strategisch relevant.

D-Matrix setzt bei Corsair auf eine In-Memory-Computing-Architektur mit integriertem SRAM. Statt Daten ständig zwischen externem Speicher und Recheneinheiten zu bewegen, wird ein Teil der Arbeit näher am Speicher erledigt. Jede Corsair-PCIe-Karte verfügt laut den vorliegenden Angaben über 4 GB Performance Memory mit einer Bandbreite von 300 TB/s. Gefertigt wird der Chip bei TSMC im 6-nm-Prozess.

Das klingt zunächst nach einem technischen Detail. Für Plattformbetreiber ist es aber eine Beschaffungsfrage. Wenn Inferenz-Workloads weniger stark an HBM hängen, verringert sich die Abhängigkeit von einem besonders umkämpften Teil der KI-Lieferkette. Das macht Corsair nicht automatisch überlegen. SRAM ist schneller und energieärmer im Zugriff, aber teurer und weniger dicht als DRAM. Genau diese Einschränkung entscheidet, wo D-Matrix stark sein kann: nicht bei jeder Modellgröße, nicht bei jedem Workload, sondern dort, wo wiederholbare Inferenz mit niedriger Latenz und kontrollierbarem Energieverbrauch zählt.

D-Matrix verkauft keine allgemeine GPU

Die Plattformstrategie von D-Matrix ist daher enger als der Schlagzeilenvergleich mit Nvidia vermuten lässt. Nvidia bleibt im Training dominierend, auch weil Hardware, Software, Entwicklerwerkzeuge und Rechenzentrumsintegration zusammenwirken. Ein einzelner Beschleuniger kann diese Schicht nicht einfach kopieren.

Corsair zielt auf eine andere Lücke: Inferenz als industrieller Dauerbetrieb. Dort sind die Anforderungen anders als im Training. Modelle werden nicht ständig neu aufgebaut, sondern in Produkten bereitgestellt. Antwortzeiten, Auslastung, Stromkosten und Rack-Dichte werden zu operativen Kennzahlen. Ein Chip, der dort effizienter arbeitet, kann für Cloud-Anbieter und Unternehmen interessanter sein als ein universeller Beschleuniger, der in jeder Benchmark gut aussieht, aber im täglichen Betrieb teuer bleibt.

D-Matrix positioniert Corsair deshalb eher als Baustein heterogener Systeme. GPUs für Training und breite Workloads, spezialisierte Inferenzkarten für wiederkehrende Modellabfragen. Das passt zur Entwicklung der KI-Infrastruktur: Die erste Ausbauphase war von universellen GPU-Clustern geprägt. Die nächste Phase wird stärker danach fragen, welcher Chip für welchen Teil der Wertschöpfung bezahlt wird.

Warum 4 GB nicht klein gedacht sein müssen

Auf dem Papier wirken 4 GB On-Chip-Speicher begrenzt, besonders in einer Industrie, die über Modelle mit Dutzenden oder Hunderten Milliarden Parametern spricht. D-Matrix behauptet dennoch, dass Kunden Modelle mit bis zu 100 Milliarden Parametern sehr schnell in einem einzigen Rack ausführen können. Das zeigt, wie wichtig die Systemarchitektur ist: Nicht die einzelne Karte allein entscheidet, sondern die Art, wie Karten, Speicher, Software und Modellaufteilung zusammenspielen.

Gerade hier liegt die offene Frage. Spezialhardware kann sehr gute Werte erreichen, wenn Workload, Modellformat und Softwarepfad passen. Sie kann aber an Attraktivität verlieren, wenn Integration, Entwicklerwerkzeuge oder Modellkompatibilität zu aufwendig werden. Nvidia verteidigt seine Stellung nicht nur mit Chips, sondern mit dem Ökosystem um sie herum. Für D-Matrix reicht es deshalb nicht, schneller zu sein. Corsair muss in reale Rechenzentrumsabläufe passen.

Die Serienproduktion der Corsair-Plattform läuft den Angaben zufolge seit Juni 2026, Auslieferungen in größeren Mengen beginnen im Sommer 2026. Das ist der Moment, an dem aus Architekturversprechen Infrastrukturpolitik wird: Wer bekommt Karten, wie stabil laufen sie, welche Softwareketten funktionieren, welche Modelle sind wirtschaftlich sinnvoll?

Der Wettbewerb verschiebt sich zur Inferenz

D-Matrix ist nicht allein. Groq und Cerebras verfolgen ebenfalls Ansätze, die stärker auf spezialisierte KI-Ausführung und speichernahe Architekturen setzen. Der gemeinsame Nenner ist klar: Der Markt sucht Alternativen zur Vorstellung, dass jede KI-Aufgabe durch denselben GPU-zentrierten Pfad laufen muss.

Das ist für Nvidia nicht sofort gefährlich im Sinne eines direkten Machtverlusts. Der Konzern bleibt in Training, Software und Beschaffung tief verankert. Aber der Inferenzmarkt ist groß genug, um neben Nvidia eigene Plattformlogiken entstehen zu lassen. Wenn Anbieter wie D-Matrix nachweisen, dass bestimmte Workloads billiger, schneller und energieärmer laufen, entstehen neue Einkaufsmodelle. Hyperscaler, Neocloud-Anbieter und große Unternehmen könnten ihre Infrastruktur stärker aufteilen: GPUs dort, wo Flexibilität zählt; spezialisierte Inferenzbeschleuniger dort, wo der Betrieb kalkulierbar ist.

Der Verlierer wäre dann nicht automatisch Nvidia als Ganzes. Unter Druck gerät vor allem die Annahme, dass HBM-lastige GPU-Systeme der natürliche Standard für jede Form von KI-Berechnung bleiben. Auch Speicherhersteller, deren Wachstum stark am HBM-Bedarf hängt, müssten genauer beobachten, wie viel Inferenz künftig an alternativen Architekturen vorbeiläuft.

Die eigentliche Wette heißt Entkopplung

Die Finanzierung zeigt, dass diese Wette ernst genommen wird. D-Matrix hat insgesamt 450 Millionen US-Dollar Eigenkapital erhalten, darunter eine Serie-C-Runde über 275 Millionen US-Dollar im November 2025 bei einer Bewertung von 2 Milliarden US-Dollar. Investoren bezahlen hier nicht nur einen Chip. Sie bezahlen die Möglichkeit, einen Teil der KI-Infrastruktur aus dem engen Takt von GPU-Verfügbarkeit, HBM-Zuteilung und Strombudgets zu lösen.

Ob Corsair diese Erwartung erfüllt, entscheidet sich nicht an einer einzelnen Leistungsangabe. Entscheidend wird, ob D-Matrix in der Praxis genügend Workloads findet, bei denen SRAM, In-Memory-Computing und Systemdesign den Aufwand rechtfertigen. Für Chatbots, generative Anwendungen und Echtzeit-Agenten kann genau das relevant sein, weil Inferenzkosten mit jeder Nutzung weiterlaufen.

Die Meldung über einen angeblich zehnmal schnelleren Chip ist deshalb nur die sichtbare Spitze. Darunter liegt eine nüchterne Plattformfrage: Wer kontrolliert künftig den kostengünstigen Betrieb von KI-Modellen? Nvidia kontrolliert heute große Teile der Trainings- und Beschleunigerwelt. D-Matrix greift dort an, wo die nächste Rechnung geschrieben wird: bei jeder Antwort, jedem Token, jeder laufenden Anwendung.

D-Matrix greift Nvidias Speicherflaschenhals an

Der Speicher ist nicht Beiwerk, sondern Engpass

D-Matrix verkauft keine allgemeine GPU

Warum 4 GB nicht klein gedacht sein müssen

Der Wettbewerb verschiebt sich zur Inferenz

Die eigentliche Wette heißt Entkopplung

Weitere Artikel in „KI”

Anthropic setzt mit Claude Opus 5 auf mehr Urteilskraft statt nur auf Benchmarks

Hermes im Finanzministerium: KI-Agent als Angriffshelfer

Warum Verlage Google blockieren könnten