Bei lokaler KI ist nicht zuerst die Rechenleistung das Problem. Es ist der Speicher. Genauer: der schnelle, knappe, teure Arbeitsspeicher, in dem ein Modell liegen muss, wenn es ohne Cloud reagieren soll. Diese Grenze war lange der unauffällige Gegenpart zur großen KI-Erzählung. Man sprach über Parameter, Beschleuniger, Datenschutz und Latenz. Aber am Ende passte das Modell schlicht nicht in den DRAM eines normalen Geräts.
Apple versucht nun, diese Wand nicht einzureißen, sondern zu umgehen. Die dritte Generation der Apple Foundation Models, vorgestellt auf der WWDC26, enthält mit AFM 3 Core Advanced ein On-Device-Modell mit 20 Milliarden Parametern. Der entscheidende Punkt ist nicht die Zahl selbst. Entscheidend ist, dass die Modellgewichte nicht vollständig im DRAM liegen. Apple legt sie im NAND-Flash ab und lädt pro Anfrage nur einen Teil in den Arbeitsspeicher.
Das klingt nach einem technischen Detail. Ist es aber nicht. Es ist der Moment, in dem lokale KI sichtbar als Speicherarchitektur verhandelt wird. Wer verstehen will, warum bestimmte KI-Funktionen auf manchen Geräten laufen und auf anderen nicht, muss weniger auf Werbevideos schauen und mehr auf DRAM, NAND und die Frage, wie schnell ein System die richtigen Modellteile zur richtigen Zeit bewegen kann.
Der Engpass heißt nicht Modellgröße, sondern Aufenthaltsort
On-Device-KI hatte bisher ein nüchternes Problem: Ein Modell muss während der Ausführung irgendwo wohnen. Bei klassischer Inferenz liegt ein großer Teil der Gewichte im Arbeitsspeicher. Auf Servern ist das eine Kostenfrage. Auf Smartphones ist es eine harte Grenze. Consumer-Geräte haben begrenzten DRAM, der nicht allein der KI gehört. Betriebssystem, Apps, Grafik, Kamera, Hintergrunddienste und maschinelles Lernen konkurrieren um denselben Speicherraum.
Apple Silicon nutzt eine Unified Memory Architecture. CPU, GPU und Neural Engine greifen auf denselben gemeinsamen Speicher zu. Das vermeidet unnötige Kopien und kann Inferenz beschleunigen. Es ändert aber nicht die Grundrechnung: Was gleichzeitig benötigt wird, muss in den schnellen Speicher passen. Die Neural Engine kann nur dann nützlich sein, wenn Daten und Modellteile verfügbar sind.
AFM 3 Core Advanced verschiebt deshalb die Frage. Nicht mehr: Wie bekommt man das ganze Modell in den Arbeitsspeicher? Sondern: Welche Teile des Modells braucht eine konkrete Anfrage wirklich? Apples Antwort heißt Instruction-Following Pruning. Pro Prompt werden nur 1 bis 4 Milliarden Parameter als sogenannte Experten aus dem NAND-Flash in den DRAM geladen. Ein kleineres Modell entscheidet, welche Experten für die Anfrage relevant sind.
Das ist pragmatisch. Und genau deshalb interessant. Apple behauptet damit nicht, dass jedes iPhone plötzlich Server-KI ersetzt. Das Unternehmen baut eine Pipeline, in der Speicherbewegung Teil der Modelllogik wird. NAND ist größer und günstiger verfügbar als DRAM, aber langsamer. DRAM ist schnell, aber begrenzt. Die Architektur versucht, zwischen beiden Welten gerade genug zu vermitteln, damit lokale KI auf Premium-Hardware brauchbar bleibt.
Lokale KI wird zur Frage der Geräteklasse
Die Grenze verschwindet dadurch nicht. Sie wird nur anders gezogen. Die fortgeschrittensten On-Device-Funktionen, darunter Expressive Voices und verbesserte Diktierfunktionen, benötigen mindestens 12 GB Systemspeicher. Damit bleiben sie bestimmten Geräten vorbehalten: iPhone 17 Pro, iPhone 17 Pro Max, iPhone Air, iPads mit M4 oder neuer sowie Macs mit M3 oder neuer, jeweils mit ausreichend Arbeitsspeicher.
Das ist der unangenehme Teil der Strategie. Apple kann lokale KI als Datenschutzvorteil darstellen, weil weniger Anfragen in die Cloud gehen müssen. Gleichzeitig entsteht ein neuer Graben innerhalb der eigenen Nutzerbasis. Wer ein älteres oder günstigeres Gerät besitzt, bekommt nicht einfach dieselbe KI in etwas langsamer. Er bekommt bestimmte Funktionen gar nicht oder nur eingeschränkt.
Das ist kein Betriebsunfall. Es folgt aus der Architektur. Wenn die KI-Funktion vom Zusammenspiel aus Neural Engine, Unified Memory, DRAM-Größe und NAND-Zugriff abhängt, wird Hardwarekompatibilität zum eigentlichen Produktfilter. Software allein reicht nicht mehr. Ein Betriebssystemupdate kann keine fehlenden 12 GB Systemspeicher herbeireden.
Apple hat diese Art von Grenze schon oft genutzt: neue Kamera-Pipelines, Videofunktionen, lokale Verarbeitung, spezielle Chip-Funktionen. Der Unterschied liegt darin, dass KI als Alltagsinterface verkauft wird. Diktat, Stimme, Textverarbeitung, Assistenz und Gerätesteuerung sind keine Nischenfeatures. Wenn die besseren Varianten daran an neue Hardware gebunden sind, wird die KI-Schicht selbst zum Argument für den nächsten Gerätekauf.
Cloud-Verzicht hat einen Preis
Im Vergleich zu stärker cloudorientierten Ansätzen von Google oder Samsung wirkt Apples Weg kontrollierter. Daten bleiben häufiger auf dem Gerät, Latenz kann sinken, und Apple kann die Integration enger an eigene Chips binden. Doch der Preis ist weniger Flexibilität. Die Cloud kann Modellgröße und Rechenbedarf in Rechenzentren verstecken. Das Gerät kann das nicht. Es muss mit seinem realen Speicher, seiner thermischen Hülle und seiner Energieaufnahme arbeiten.
Apple arbeitet bei der AFM-3-Familie auch mit Google zusammen; einige Server-Modelle laufen auf Nvidia-GPUs in der Google Cloud. Das ist wichtig, weil es die Grenzen der lokalen Erzählung zeigt. Apple baut keinen reinen Gegenentwurf zur Cloud. Es baut eine Aufteilung: Was lokal sinnvoll und kontrollierbar ist, soll auf dem Gerät laufen. Was zu groß oder zu aufwendig ist, bleibt serverseitig. Die On-Device-Architektur stammt von Apple selbst, aber das Gesamtbild bleibt hybrid.
Gerade deshalb ist der Flash-Ansatz bedeutsam. Er vergrößert den lokalen Anteil, ohne die physikalischen Grenzen zu leugnen. Er macht lokale Modelle größer, aber nicht grenzenlos. Er spart Cloud-Aufrufe, aber nicht in jedem Fall. Er stärkt Datenschutz, aber nur dort, wo das Gerät die Funktion tatsächlich ausführen kann.
Der Gewinner ist nicht nur die Privatsphäre
Der offensichtliche Gewinner ist Apple. Das Unternehmen erhält ein technisches Unterscheidungsmerkmal, das eng an eigene Hardware gekoppelt ist. Nicht irgendeine App-Schicht entscheidet über die Qualität der KI, sondern das Gerät selbst. Das passt zu Apples langjähriger Kontrolle über Chip, Betriebssystem und Dienste.
Auch Hersteller von NAND-Flash könnten profitieren, wenn größere lokale Modelle mehr Speicherbedarf auf Endgeräten erzeugen. Das heißt nicht, dass jeder Nutzer sofort mehr Speicher kauft. Aber wenn KI-Gewichte dauerhaft auf dem Gerät liegen, wird lokaler Speicher stärker in die Produktrechnung einbezogen. KI belegt nicht nur Rechenzeit. Sie belegt Platz.
Die Verlierer sind weniger abstrakt. Es sind Nutzer, deren Geräte noch funktionieren, aber nicht mehr zur neuen KI-Klasse gehören. Für sie wird die Grenze nicht als technisches Whitepaper sichtbar, sondern als fehlender Menüpunkt. Das ist die nüchterne Mechanik hinter vielen KI-Versprechen: Die Funktion mag lokal sein, aber der Zugang ist selektiv.
Apples Architektur ist damit kein einfacher Sieg über das Speicherlimit. Sie ist ein geschickter Umweg um eine harte Grenze, der zugleich eine neue Grenze setzt. Die Speicherwand steht noch. Apple hat nur eine Tür eingebaut. Durchgehen kann, wer das passende Gerät hat.