Startseite / KI
KI

Tensordyne Napier: Der Angriff auf die Token-Kosten

Tensordyne Napier: Der Angriff auf die Token-Kosten
← Alle Beiträge

Die auffälligste Zahl in Tensordynes Ankündigung ist nicht die Transistorzahl. Auch nicht die 3-nm-Fertigung bei TSMC oder die 144 GB HBM3E pro Chip. Es ist die Behauptung, ein Napier-basiertes System könne bei gleicher Inferenzarbeit 17-mal mehr Tokens pro Watt liefern als ein NVIDIA-GB300-System. Dazu nennt Tensordyne einen 13-mal höheren Durchsatz pro Rack.

Solche Angaben gehören in der KI-Hardware inzwischen zur Grundausstattung jeder Markteinführung. Der Unterschied liegt hier aber im Ansatz. Tensordyne versucht nicht nur, mehr Speicher näher an die Recheneinheiten zu bringen oder die übliche Matrixbeschleunigung weiter zu verdichten. Das Unternehmen setzt auf ein proprietäres Zahlensystem namens Pareto, das auf logarithmischer Arithmetik basiert. Multiplikationen sollen dabei durch Additionen ersetzt werden. Weniger Schaltaufwand, weniger Energie, weniger Chipfläche: So lautet die technische Wette.

Die zentrale Frage ist deshalb nicht, ob Tensordyne NVIDIA kurzfristig gefährdet. Das wäre zu früh. Die interessantere Frage lautet: Wie weit muss KI-Hardware von der gewohnten Gleitkommawelt abrücken, damit Inferenz bezahlbar bleibt?

Der Engpass heißt nicht Training, sondern Betrieb

Der öffentliche Blick auf KI-Infrastruktur hängt noch immer stark am Training großer Modelle. Dort sind die Budgets spektakulär, die Cluster riesig, die Lieferketten angespannt. Für viele Anwendungen entscheidet sich die Ökonomie aber später: beim Ausführen der Modelle, also bei der Inferenz. Jeder Chat, jede Agentenaktion, jede Zusammenfassung, jede Bildanalyse erzeugt laufende Rechenkosten.

Wenn Modelle häufiger genutzt werden, skaliert nicht nur die Nachfrage nach Chips. Es skaliert der Stromverbrauch. Es skaliert die Kühlung. Es skaliert die Notwendigkeit, Rechenzentren so zu planen, dass sie nicht nach wenigen Hardwaregenerationen an thermische und elektrische Grenzen stoßen. Genau hier platziert Tensordyne Napier.

Der einzelne Napier-Chip wird mit 138 Milliarden Transistoren, 2,1 Petaflops dichter FP8-Rechenleistung, 144 GB HBM3E und 256 MB SRAM beschrieben. Das TDN72-Rack mit 288 Napier-Chips soll 608 PFLOPS FP8, 42 TB HBM und einen Verbrauch von 120 kW erreichen. Auffällig ist dabei nicht nur die Rechenangabe, sondern der Hinweis auf vollständige Luftkühlung. In einer Branche, die sich zunehmend mit Flüssigkühlung, dichter Packung und Stromzuführung im Megawattmaßstab beschäftigt, wäre das operativ relevant.

Logarithmen sind kein neuer Trick

Der technische Kern klingt auf den ersten Blick fast altmodisch. Logarithmische Zahlensysteme wurden seit Jahrzehnten untersucht. Ihr Reiz ist bekannt: Multiplikationen lassen sich in Additionen verwandeln, Divisionen entsprechend vereinfachen. Für Rechenwerke kann das attraktiv sein, weil Multiplikatoren teuer sind: Sie benötigen Fläche, Energie und Zeit.

Der Haken war lange die Addition im logarithmischen Raum. Sie ist nicht trivial. Genau an diesem Punkt scheiterten viele frühere Versuche, logarithmische Arithmetik breit in allgemeine Rechenarchitekturen zu bringen. Tensordyne behauptet nun, dieses Additionsproblem in Hardware gelöst zu haben. Das ist die eigentliche technische Behauptung hinter der Effizienzzahl.

Für KI-Inferenz kann ein solcher Ansatz plausibler sein als für allgemeine Prozessoren. Neuronale Netze tolerieren unter bestimmten Bedingungen Näherungen und reduzierte Präzision. FP8, Quantisierung und andere Verfahren zeigen seit Jahren, dass nicht jede Operation mit maximaler numerischer Genauigkeit ausgeführt werden muss. Aber daraus folgt nicht automatisch, dass jedes Modell ohne Reibung auf ein neues Zahlensystem wandert.

Hier liegt der Teil, den keine Ankündigung ersetzen kann: reale Arbeitslasten, Modellportierung, Genauigkeitsverluste, Compiler, Softwareketten, Framework-Integration und Verhalten unter produktiver Last. Ein Chip kann auf dem Papier sehr gut aussehen und trotzdem an der praktischen Einbindung in bestehende KI-Stacks scheitern.

NVIDIA verkauft nicht nur Silizium

Der Vergleich mit NVIDIA Blackwell ist naheliegend, aber gefährlich verkürzend. NVIDIA ist in KI-Rechenzentren nicht nur wegen einzelner Chips dominant. Das Unternehmen kontrolliert einen großen Teil des Software- und Entwicklerpfads: CUDA, Bibliotheken, optimierte Modelle, Systemdesigns, Netzwerkkomponenten, Integrationen mit großen Cloud- und Serverpartnern. Wer dagegen antritt, muss nicht nur bessere Kennzahlen liefern. Er muss Umstiegskosten senken.

Tensordyne ist ein 2017 gegründetes Unternehmen aus Sunnyvale und hat insgesamt 209 Millionen US-Dollar an Finanzierung erhalten. Das ist im Halbleiterbereich substanziell, aber kein Freifahrtschein. Ein KI-Beschleuniger ist kein SaaS-Produkt, das man nach einer schwachen Version schnell nachbessert. Fertigung, Packaging, HBM-Verfügbarkeit, Boarddesign, Rackintegration, Treiber, Compiler und Kundenvalidierung laufen langsam und teuer.

Dazu kommt der Zeitplan. Beta-Programme sind für das erste Quartal 2027 geplant, Systemauslieferungen voraussichtlich bis Ende des zweiten Quartals 2027. Bis dahin werden NVIDIA, AMD und andere Anbieter nicht stehen bleiben. Blackwell ist der heutige Bezugspunkt; der Markt von 2027 wird ein anderer sein.

Warum die Ankündigung trotzdem relevant ist

Die Skepsis gegenüber den Zahlen macht die Richtung nicht irrelevant. Im Gegenteil: Tensordyne beschreibt sehr genau den Druckpunkt der Branche. Wenn KI-Anwendungen breiter laufen sollen, reichen immer größere Beschleuniger allein nicht aus. Die Kosten pro erzeugtem Token werden zur operativen Messgröße. Nicht in Präsentationen, sondern in Stromverträgen, Rackdichten, Auslastungsplänen und Cloud-Margen.

Sollte der logarithmische Ansatz in produktiven Inferenzlasten funktionieren, wären die Gewinner zunächst nicht normale Endnutzer, sondern Betreiber großer Infrastruktur: Hyperscaler, KI-Clouds, Modellanbieter mit hoher Anfragefrequenz. Sie könnten mehr Durchsatz aus derselben elektrischen Hülle holen oder Rechenzentren mit weniger aggressiver Kühlung betreiben. Auch Unternehmen, die eigene KI-Dienste kalkulieren müssen, hätten ein Interesse an niedrigeren laufenden Kosten.

Verlierer wären nicht automatisch alle etablierten Chipanbieter. Aber Architekturen, die vor allem auf klassische Gleitkomma-Beschleunigung und immer dichtere thermische Budgets setzen, würden stärker unter Rechtfertigungsdruck geraten. Auch Anbieter von teurer Kühl- und Rechenzentrumsinfrastruktur müssten damit rechnen, dass Effizienz nicht nur über Gebäude, sondern wieder stärker über Mathematik und Silizium verhandelt wird.

Der Test kommt erst im Rechenzentrum

Tensordyne Napier ist deshalb keine einfache Geschichte vom kleinen Herausforderer gegen NVIDIA. Dafür ist der Abstand zwischen Ankündigung und produktiver Auslieferung zu groß. Die relevanten Daten fehlen noch: unabhängige Benchmarks, Modellkompatibilität, Genauigkeit unter realen Workloads, Softwareverfügbarkeit und Betriebskosten über längere Zeit.

Aber die Ankündigung zeigt, wohin sich der Wettbewerb verschiebt. KI-Hardware wird nicht nur über mehr Recheneinheiten, mehr Speicherbandbreite und größere Racks entschieden. Sie wird zunehmend über die Frage entschieden, welche Mathematik für KI überhaupt noch nötig ist. Wenn ein Modell mit weniger Energie ähnlich brauchbare Ergebnisse liefert, ist das kein akademisches Detail. Es verändert die Kalkulation jeder Plattform, die Milliarden Tokens pro Tag verarbeitet.

Bis 2027 bleibt Tensordynes Napier ein Versprechen mit bemerkenswert konkreten technischen Angaben. Ob daraus ein brauchbares System wird, entscheidet sich nicht in Vergleichstabellen gegen Blackwell, sondern in den Maschinenräumen der Kunden. Dort zählt am Ende nur eine nüchterne Rechnung: Wie viele verwertbare Tokens liefert ein Rack, zu welchen Kosten, mit welcher Stabilität und mit welchem Aufwand für die Softwaremigration?

J

Über den Autor

Jens Könnig

Jens analysiert seit Jahren digitale Märkte, Preisbewegungen und Plattform-Strategien. Als Betreiber mehrerer datengetriebener Systeme wertet er täglich große Mengen an Produkt- und Trenddaten aus. Sein Fokus liegt auf Einordnung statt Hype: Was bedeutet eine Entwicklung wirklich für Nutzer, Preise und Märkte?

Alle Artikel von Jens Könnig →