Die KI-Welle treibt den Speicherbedarf voran, und die Preise steigen weiter, doch außerhalb des Sektors bleibt die Sorge, ob HBM erneut sein „zyklisches“ Schicksal einholen könnte – wie einst der DRAM: nach einem Hoch der Nachfrage rasch wieder zu kippen. Ein Analyst für Halbleiterarchitekturen, fin, stellt dazu fest, dass die Logik hinter der HBM-Nachfrage längst von den Gesetzmäßigkeiten der traditionellen Speicherindustrie abgekoppelt ist und sich gerade durch token neu bepreist.

(Stockt der Speicheranstieg? Einschätzungen von Institutionen: Q2-Anstieg auf 30% verengt, Abkühlung im zweiten Halbjahr)

Der Speicher im CPU-Zeitalter: bloß entbehrliches Beiwerk

fin weist darauf hin, dass DDR-Speicher im Zeitalter, in dem CPUs die Rechenarbeit dominierten, stets nur eine unterstützende Rolle spielte. CPU-Ingenieure entwickelten eine ganze Reihe von Techniken, um die Speicherlatenz zu überdecken – darunter superskalare Designs, mehrstufige Caches sowie Registerumbenennung –, sodass Prozessoren auch ohne Abhängigkeit von Hochgeschwindigkeitsspeicher eine hohe Leistung aufrechterhalten können:

Die Branchenregel lautet: Selbst wenn die DDR-Bandbreite sich direkt verdoppelt, liegt die Gesamtleistungssteigerung der CPU insgesamt oft bei nicht mehr als 20%.

Diese Architektur prägt unmittelbar das Wachstumstempo, das die DRAM-Industrie über die vergangenen Jahrzehnte hinweg geprägt hat. Von DDR3 bis DDR5 vergingen ganze 15 Jahre; in den vergangenen zehn Jahren stieg die DDR-Kapazität in einem typischen PC von 7 bis 8 GB auf etwa 23 GB – innerhalb von zehn Jahren lediglich das Dreifache. Die wichtigsten Gewinnquellen der DRAM-Anbieter stammen aus der Kapazitätsgröße, während Bandbreiten-Upgrade im Wesentlichen nur ein Mittel ist, den Einheitspreis nach oben zu drücken.

Im CPU-Zeitalter ist Speicher der Bereich mit dem geringsten Grenznutzen in der Chipindustrie; zyklische Auf und Abs sind Normalität – und gewissermaßen Schicksal.

Mit dem KI-Inferenzzeitalter kommt eine Neudefinition des Speicherwerts

Doch wenn sich der Rechenfokus auf KI-Inferenz-Engines verlagert, ändern sich auch die Bewertungsmaßstäbe. Chiphersteller vergleichen heute nicht mehr, wie viele Fließkommaoperationen pro Sekunde ausgeführt werden können, sondern im KI-Zeitalter gibt es im Kern nur ein KPI: Wie viele Token können bei den Kosten pro Einheit und dem Stromverbrauch pro Einheit produziert werden?

Das von Nvidia-CEO Jensen Huang vorgestellte Konzept der „KI-Fabrik“ beschreibt diese neue Logik präzise: Der Sinn einer KI-Fabrik besteht darin, mit den niedrigsten Kosten die meisten Token zu produzieren und gleichzeitig die Ausgabegeschwindigkeit der Token an das Maximum zu treiben. Das Optimierungsziel weitet sich von einer einzigen Dimension aus: Es gilt zugleich, den Gesamt-Token-Durchsatz maximal zu machen, und man strebt außerdem nach der Token-Ausgabe-Geschwindigkeit pro Anfrage.

Diese KPI-Änderung ist der Ausgangspunkt für die Kehrtwende im Schicksal von HBM.

Token-Durchsatzformel: Die ersten Prinzipien der HBM-Nachfrage

fin zerlegt den Token-Durchsatz der KI-Inferenz in das Produkt zweier Parameter: „Anzahl der Anfragen, die gleichzeitig in einem Batch verarbeitet werden × durchschnittliche Token-Generierungsrate pro Anfrage“. Ausgehend von den jeweiligen Engpässen dieser beiden Parameter zeigt die Antwort auf ein und dasselbe Bauteil.

Der Engpass bei der Batch-Anzahl liegt in der Speicherkapazität von HBM. Jede Inferenzanfrage bringt ihren eigenen KV-Cache mit – also ein Mechanismus, der während des Modellinferenzprozesses die Zwischenzustände speichert. Diese Daten müssen sofort in HBM abgelegt werden, damit das Modell bei jeder Generierung eines Tokens wiederholt mit hoher Geschwindigkeit darauf zugreifen kann. Je größer das Batch-Volumen, desto mehr Speicherkapazität wird von HBM benötigt; beide stehen in linearer Beziehung zueinander.

Der Engpass bei der Token-Geschwindigkeit liegt in der Bandbreite von HBM. In der Decoding-Phase muss für jedes erzeugte Token immer wieder auf umfangreiche Startup-Gewichte und den KV-Cache zugegriffen werden; die Lesegeschwindigkeit bestimmt direkt die Effizienz der Token-Generierung, und die obere Grenze der Lesegeschwindigkeit ist die Bandbreite von HBM.

Er sagt, diese Beziehung lasse sich mit Shuttle-Bussen ausdrücken: Die HBM-Kapazität entspricht der Größe des Fahrgastraums eines Shuttles und bestimmt, wie viele Passagiere auf einmal mitgenommen werden können; die HBM-Bandbreite entspricht der Breite der Türen und bestimmt, wie schnell die Passagiere ein- und aussteigen. Der gesamte Transportdurchsatz der Passagiere entspricht dem Produkt aus Fahrgastraumgröße und Geschwindigkeit des Zu- und Abtransportes. Daraus ergibt sich das erste Grundprinzip für den Bedarf an KI-Inferenz-Hardware:

Token-Durchsatz = HBM-Kapazität × HBM-Bandbreite

Damit der Token-Durchsatz jeder GPU-Generation den zweifachen Wachstumspfad im Generationstempo hält, muss das Produkt aus HBM-Kapazität und HBM-Bandbreite pro Generation jeweils verdoppelt werden.

Software-Optimierung löst die Aufgabe nicht, HBM-Nachfrage folgt einer exponentiellen Bahn

Angesichts dieser Schlussfolgerung lautet der häufigste Einwand des Marktes: Könnte Software-Optimierung nicht die Abhängigkeit von HBM senken? Seine Antwort ist, dass Softwareeffizienz und Fortschritte bei Hardware-Spezifikationen zwei völlig unabhängige Dimensionen sind und sich nicht gegenseitig ersetzen. Das sei ähnlich wie bei CPU-Softwareoptimierungen: Selbst wenn sie noch so gründlich sind, kann man nicht verhindern, dass Intel oder AMD in jeder Generation in standardisierten Tests höhere Benchmarks liefern muss, sonst lässt sich das Produkt nicht verkaufen.

Die GPU-Logik ist identisch: Solange die globale Nachfrage nach Token weiter wächst, wird der Drang nach höherem Token-Durchsatz nicht aufhören, und ebenso wird der Bedarf an Fortschritten in beiden Aspekten von HBM nicht stoppen.

Noch entscheidender ist, dass dieser Druck nicht von externer Konjunkturbelebung kommt, sondern eine Nachfrage aus dem Supply-Ende selbst erzeugt. Solange Nvidia die nächste GPU-Generation verkaufen will, muss es SK Hynix, Samsung und Micron unter Druck setzen, damit jede Generation von HBM bei Kapazität und Bandbreite parallel einen Sprung macht – denn die Obergrenze von HBM ist die Obergrenze der GPU-Leistung.

Wenn man den Token-Durchsatz der GPU-Generationen von A100 bis Rubin Ultra bei Nvidia sowie die jeweils zugehörigen Werte für „HBM-Kapazität × HBM-Bandbreite“ in ein gemeinsames Logarithmus-Koordinatensystem einträgt, wird das Ausmaß der Übereinstimmung der beiden Kurven überraschen. Das ist kein historischer Zufall, sondern die zwingende Folge einer systematischen Optimierung.

HBM verabschiedet sich vom zyklischen Schicksal, die Logik der Marktpreisbildung muss neu bewertet werden

Aus der obigen Herleitung auf Architekturebene wird der grundlegende Unterschied zwischen HBM und traditionellem DRAM klar. Traditioneller Speicher ist ein Beiwerk der Chipindustrie, die Nachfrage treibt zu wenig an; sobald der Kapazitätsausbau das Wiederanlaufen der Nachfrage überholt, kommt der zyklische Preisverfall wie erwartet.

Doch die HBM-Nachfrage ist durch die physikalische Logik der KI-Inferenzarchitektur auf einen exponentiellen Wachstumspfad festgelegt. Das steht in keinem direkten Ursache-Wirkungs-Verhältnis zur allgemeinen Wärme/Kälte des KI-Gesamtmarkts oder zu konjunkturellen Zyklen der Makroökonomie.

Natürlich liegt das eigentliche Problem nicht auf der Nachfrageseite, sondern auf der Angebotsseite: Können SK Hynix, Samsung und Micron – die drei großen Akteure – ihren früher über Jahrzehnte wiederholt gezeigten Impuls zum blinden Überbau zügeln, wenn die Nachfrage stark ist, und vermeiden, erneut das zyklische Unheil einer Überversorgung auszulösen? Die Antwort auf diese Frage wird der Schlüsselfaktor dafür sein, ob diese Speicher-Zyklusphase langfristig anhalten kann.

(Wenn Speicheraktien kollabieren: Kann man dann noch kaufen? Analyst von Samsung Securities: Korrektur im Zyklus, nicht das Ende eines Konjunkturhochs)

Dieser Artikel räumt mit dem zyklischen Mythos auf! Eine Formel zerlegt die HBM-Nachfragestruktur: Warum der Speicher weiter steigen wird? Erstmals erschienen auf Chain News ABMedia.

Disclaimer: The information on this page may come from third parties and does not represent the views or opinions of Gate. The content displayed on this page is for reference only and does not constitute any financial, investment, or legal advice. Gate does not guarantee the accuracy or completeness of the information and shall not be liable for any losses arising from the use of this information. Virtual asset investments carry high risks and are subject to significant price volatility. You may lose all of your invested principal. Please fully understand the relevant risks and make prudent decisions based on your own financial situation and risk tolerance. For details, please refer to Disclaimer.

Verwandte Artikel

Finanzexperte erklärt, warum der Aktienmarkt abstürzen wird – könnte stattdessen Krypto-Volatilität nach oben gehen?

Market Analysis Price Prediction Macroeconomics Stocks Commodities

Ein Finanzexperte erklärt, warum der Aktienmarkt abstürzen wird. Er geht ins Detail darauf, wie die Fed reagieren könnte und wie man das am besten navigiert. Könnte stattdessen ein Krypto-Preisrallye stattfinden? Ein renommierter Finanzexperte erklärt, warum der Aktienmarkt in diesem Jahr irgendwann abstürzen wird,

CryptoNewsLand9M her

Nvidias Herausforderer Cerebras will mit einer Bewertung von 40 Milliarden an die Börse gehen, dahinter steckt weiterhin TSMC mit 5-Nanometer-Technologie

Stocks AI Tokens

Cerebras wird am Nasdaq gelistet, mit einer Bewertung von rund 40 Milliarden und einem Emissionsziel von bis zu 4 Milliarden. Der Emissionspreis liegt bei 115–125 US-Dollar. Im Kern steht die waferbasierte Prozessor-Architektur WSE; das Unternehmen positioniert sich als Plattform für die KI-Infrastruktur. Zu den Kunden zählen OpenAI und AWS, TSMC ist der entscheidende Auftragsfertiger. Der Umsatz im Jahr 2025 beträgt 510 Millionen, jedoch mit Verlusten. Das Geschäft ist auf wenige Großkunden angewiesen, darunter G42 und MBZUAI; OpenAI wird 750 MW Low-Latency-Rechenleistung bereitstellen, und auch mit AWS Bedrock gibt es eine Zusammenarbeit.

ChainNewsAbmedia34M her

Drei-Kreise-Blicke $1B Hongkonger Börsengang nach Chinas Genehmigung

Stocks

Chaozhou Three-Circle Group hat laut Reuters einen Antrag auf Börsennotierung in Hongkong eingereicht und peilt dabei eine Kapitalbeschaffung von bis zu 1 Milliarde US-Dollar an, nachdem das Unternehmen in China die regulatorische Genehmigung erhalten hat. Der in der Provinz Guangdong ansässige Hersteller von Keramikkomponenten hat im Dezember 2025 seinen Entwurf des Prospekts eingereicht und plant, die Erlöse einzusetzen für

CryptoFrontier39M her

Cerebras plant $4B -IPO an der Nasdaq und startet am 4. Mai eine Roadshow zu $115-$125 je Aktie

Stocks AI Industry News

Laut Reuters hat der KI-Chiphersteller Cerebras Systems am 4. Mai mit seiner IPO-Roadshow für eine Nasdaq-Notierung unter dem Ticker CBRS begonnen. Das Unternehmen plant, die Aktien zu einem Preis von 115 US-Dollar bis 125 US-Dollar anzubieten und könnte bis zu $4 Milliarden US-Dollar aufbringen – bei einer Bewertung von ungefähr 40 Milliarden US-Dollar. Dies markiert das zweite

GateNews39M her

WisdomTree-Krypto-ETP-Zuflüsse treffen $137M im 1. Quartal

Capital Flow Industry Reports Stocks

WisdomTree-Krypto-ETPs verzeichneten $137M Zuflüsse im 1. Quartal 2026, drehten damit frühere Abflüsse aus dem Vorjahr um und signalisierten erneutes Anlegerinteresse. Das Krypto-AUM erreichte 1,8 Milliarden US-Dollar trotz Marktrückgängen, während die gesamten Vermögenswerte des Unternehmens um über 30% im Jahresvergleich wuchsen. Produktaufbau und Tokenisierungsvorhaben gaben

CryptoFrontNews49M her

Threads übertrifft 150 Millionen tägliche Nutzer; Meta warnt vor kurzfristigen Umsatzausfällen

Stocks

Meta gab während der neuesten Earnings-Call bekannt, dass Threads 150 Millionen täglich aktive Nutzer überschritten hat und die Werbung auf über 200 Länder ausgeweitet wurde, wie aus den finanziellen Offenlegungen des Unternehmens hervorgeht. Meta warnte jedoch, dass Threads und WhatsApp-Status voraussichtlich keine nennenswerten Erträge erzielen werden

CryptoFrontier49M her

Kommentieren

0/400

Keine Kommentare