Das nächste 100-fache der KI-Hardwareleistung wird schwieriger - Shanghai Precision Hardware Parts Processing Co., Ltd

Für diejenigen unter uns, die Hardware mögen und auf eine große Enthüllung des TPUv5e-KI-Prozessors und des umgebenden Systems, der Verbindung und des Software-Stacks auf der Hot Chips 2023-Konferenz in dieser Woche gehofft haben, ist die Eröffnungsrede von Jeff Dean und Amin Vahdat, den beiden beliebtesten Wichtige Technikfreaks bei Google, war eine kleine Enttäuschung. Aber der Google-Vortrag hat uns dennoch einige Anregungen für KI-Gedankenexperimente gegeben.

Es ist zehn Jahre her, seit Dean, der maßgeblich an so vielen von Google entwickelten Technologien beteiligt war, dass er wahrscheinlich nie in ein Flugzeug steigen oder klettern dürfte, auf einem Stück Papier nachgerechnet und das herausgefunden hat Wenn Google seiner gleichnamigen Suchmaschine KI-Funktionen hinzufügen würde, müsste es die Größe seines Rechenzentrums verdoppeln und Google auf den Weg bringen, seine benutzerdefinierten Tensor Processing Unit- oder TPU-Matrix-Mathematik-Engines zu entwickeln.

Zehn Jahre später ist KI komplexer und rechenintensiver und das viel diskutierte TPUv4-Eisen ist zwar jetzt und in den kommenden Jahren nützlich, sieht aber schon etwas in die Jahre gekommen aus. Die TPUv4-Systeme wurden durch das TPUv5e erweitert, das höchstwahrscheinlich auf 5-Nanometer-Prozessen basiert und sehr wahrscheinlich mindestens die doppelte Spitzenleistung aufweist und in Google-Rechenzentren läuft. (Wir haben uns im Oktober letzten Jahres intensiv mit dem TPUv4-System befasst und müssen es noch mit der optischen Switch-Verbindung aktualisieren, die Anfang des Jahres enthüllt wurde und diese Woche bei Hot Chips ausführlich besprochen wird.)

Und wie erwartet wurden einige Details über die TPUv5e-Variante, die sowohl für das Training als auch für die Inferenz verwendet wird, auf der Google Cloud Next 2023-Veranstaltung enthüllt, die zeitgleich mit Hot Chips 2023 stattfand, und wir werden in Kürze darauf zurückkommen. Wir gehen außerdem davon aus, dass Cloud-Instanzen, sobald sie mit TPUv5e verfügbar sind, ein etwa 30 Prozent besseres Preis-Leistungs-Verhältnis bieten als die vorherigen TPUv4-Instanzen in Google Cloud. Es könnte sich sogar als noch besseres Preis-Leistungs-Verhältnis herausstellen. Wir werden sehen müssen.

Wir haben die Google-Vorträge bei Hot Chips der Google Next-Keynote vorgezogen, denn wenn Dean spricht, müssen Systemarchitekten zuhören. Dean war an fast allen Kerntechnologien von Google beteiligt: der MapReduce-Methode zur Nutzung großer Datenmengen, dem relationalen BigTable-Overlay für das verteilte Speichersystem Spanner, der TensorFlow- und Pathways-Software, die den größten KI-Modellen der PaLM-Familie zugrunde liegt, dem TPU-Hardware und jetzt das große Sprachmodell Gemini, das den GPT-4- und GPT-5-Modellen von OpenAI Konkurrenz machen wird. (Nun ja, jeder hofft, dass irgendwo außerhalb der Halbleiterfabriken und der Hardwarehersteller Geld steckt.) Dean leitete viele Jahre lang Google Research und war Mitbegründer des Google Brain-Teams, das die besten KI-Forscher und deren Übernahme von DeepMind zusammenbrachte Derzeit ist er Chefwissenschaftler.

Seine Keynote-Präsentation wurde mit Amin Vahdat geteilt, der wie Dean auch Google Fellow ist und derzeit Vizepräsident für Ingenieurwissenschaften des Unternehmens ist, Professor für Informatik und Ingenieurwesen an der University of California in San Diego und Direktor des dortigen Zentrums für Informatik war Vernetzte Systeme, bevor er 2010 zu Google kam, wo er technischer Leiter für Netzwerke, dann technischer Leiter für Computer, Speicher und Netzwerke war und in jüngerer Zeit nun für das Team für maschinelles Lernen, Systeme und Cloud-KI im Unternehmen verantwortlich ist Außerdem bin ich für die Systemforschung bei Google verantwortlich. MSCA entwickelt und wartet Compute Engine und Borg, die Suite aus CPU-, TPU- und GPU-Compute-Engines, das Netzwerk, das sie miteinander verbindet, und den gesamten KI-Software-Stack, der in der Produktion von Google und seinen Cloud-Kunden verwendet wird.

Dean und Vahdat definieren und erstellen im Wesentlichen die Google-Infrastruktur. Es ist unklar, welche Rolle Urs Hölzle, ebenfalls Google Fellow und erster Vice President of Engineering des Unternehmens, dann Vice President of Search und seit mehr als zwei Jahrzehnten Senior Vice President of Engineering, verantwortlich für das Team für technische Infrastruktur, derzeit spielt sein neues Zuhause in Auckland, Neuseeland. Bei Hot Chips legte Dean das Terrain für die KI vor und Vahdat sprach über die steigenden Anforderungen und die Hardware, um dieses Terrain zu durchqueren.

Der Direktor von Google Research, Peter Norvig, prägte vor langer Zeit das Sprichwort: „Mehr Daten schlagen clevere Algorithmen“, und das gilt immer noch und ist die Grundlage der großen Sprachmodelle, die heutzutage alle so für KI begeistern. (Norvig erinnerte auch alle daran, dass bessere Daten auch mehr Daten schlagen.)

Dean sagte, Google konzentriere sich auf drei verschiedene Ansätze zur Steuerung von KI-Modellen – Sparsity, adaptive Berechnung und dynamische neuronale Netze – und versuche außerdem, die KI-Schlange dazu zu bringen, ihren Schwanz zu fressen, anstatt daran zu knabbern, und wirklich KI-Expertensysteme mit dem Entwurf beginnen zu lassen KI-Prozessoren sollen den gesamten Chip-Entwicklungszyklus beschleunigen und so dazu beitragen, immer bessere Hardware auf den Markt zu bringen, um den schneller wachsenden Modellen gerecht zu werden.

Dean erklärte, dass bei den bisher erstellten KI-Modellen das gesamte Modell mit seinen zunehmenden Schichten und der explodierenden Anzahl von Parametern, angetrieben durch Milliarden, dann Dutzende Milliarden, dann Hunderte Milliarden von Token-Datenschnipseln, jedes Mal aktiviert wurde, wenn die KI aktiviert wurde Modell, das auf einem neuen Token trainiert wurde, oder ein Token wurde einem fertigen Modell gegenübergestellt, um KI-Schlussfolgerungen zu ziehen. Aber mit Frameworks wie Pathways, die der PaLM-Modellfamilie bei Google zugrunde liegen, bewegt sich die Welt weg von separaten KI-Modellen, die auf verschiedene Aufgaben spezialisiert sind, hin zu einem einzigen Basismodell.

Als wir kürzlich über das KI-Startup Inflection AI gesprochen haben, haben wir die Größenordnung aller größten KI-Modelle besprochen und möchten Sie daran erinnern, dass das streng geheime GPT-4-Modell von OpenAI beispielsweise schätzungsweise zwischen 1 Billion und 1,76 Billionen Parameter hat und irgendwo in der Größenordnung liegt die Reichweite von 3,6 Billionen Tokens, die Google mit seinem PaLM-2-Modell hat, das über hundert Sprachen umfasst. Dabei handelt es sich sowohl um eine große Anzahl von Parametern, die im Speicher von Rechenmaschinen gespeichert werden müssen, als auch um eine Menge Daten, die durch ein Modell geschickt werden müssen, um es zu trainieren. Der Bestand an globalen Sprachkenntnissen nimmt natürlich jedes Jahr um einen bestimmten Betrag zu, und die Parameteranzahl kann erhöht werden, um qualitativ hochwertigere Schlussfolgerungen zu erzielen. Die großen Modelle werden als Grundlage für das Training kleinerer Modelle verwendet – oder um Abschnitte des größeren Modells zu aktivieren, die auf bestimmte Spezialkenntnisse abgestimmt wurden, wie Dean es anhand des Pathways-Frameworks zeigt:

Bei den Sparse-Modellen werden die Teile des KI-Modells bei Bedarf aktiviert, und zwar nur diese Teile. Woher das Modell weiß, welche Teile aktiviert werden müssen, ist nicht klar, und das ist das Geheimnis im Pathways-Framework, das mit dem Gemini-Modell perfektioniert wurde, das zweifellos die Techniken nutzt, von denen Dean spricht. Es ist wichtig zu beachten, dass das Pathways-Framework nicht Open Source ist wie das frühere und vermutlich viel rudimentärere TensorFlow-Framework von Google, das bereits im November 2015 Open Source war. Wir werden also nur erfahren, was Google uns über Pathways und Gemini sagt. Wir hoffen, dass Google bald einen Artikel zum Gemini-KI-Modell veröffentlicht. Im Oktober 2021 gab es von Google einen Artikel über rekonfigurierbare Gemini-Rechenzentrumsnetzwerke, in dem Vahdat einer der Mitautoren war, aber dieser scheint nichts mit dem Gemini LLM zu tun zu haben.

Auf jeden Fall können diese Basismodelle mit vielen verschiedenen Modalitäten umgehen – Bilder, Ton, Text, Video – und das Modell nur in spärlicher Weise aktivieren, was den Rechenaufwand für weitere Schulungen und Produktionsinferenzen drastisch senkt.

„Anstatt dieses Riesenmodell zu haben, können die spärlichen Modelle viel effizienter sein“, erklärte Dean. „Sie greifen einfach nur auf die richtigen Teile des Gesamtmodells zurück – und der Aspekt der richtigen Teile wird auch während des Trainingsprozesses gelernt. Anschließend können verschiedene Teile des Modells auf unterschiedliche Arten von Eingaben spezialisiert werden. Und das Endergebnis ist, dass Sie am Ende etwas haben, bei dem Sie genau das richtige 1 Prozent oder die richtigen 10 Prozent eines sehr großen Modells berühren, und das führt zu einer verbesserten Reaktionsfähigkeit und einer höheren Genauigkeit, da Sie jetzt über eine viel größere Modellkapazität verfügen als Sie könnte anders trainieren und dann auf die richtigen Teile zurückgreifen.“

Laut Dean gibt es noch einen weiteren Aspekt der Sparsity, der für Systemarchitekten wichtig ist und der sich von der feinkörnigen Sparsity unterscheidet, über die üblicherweise bei Beschleunigern gesprochen wird, bei denen die Sparsity innerhalb eines einzelnen Vektors oder Tensors liegt (typischerweise zwei von vier). (Werte in einer Matrix werden auf Null gesetzt und von „dicht“ in „sparse“ umgewandelt) und das unterscheidet sich auch von der grobkörnigen Sparsity, bei der große Module innerhalb eines Modells entweder aktiviert sind oder nicht. Diese Kargheit sieht so aus, und wir haben ein paar Diagramme von Dean auf einer Seite zusammengefasst, damit Sie alles sehen können:

„Bei den meisten Sparsity-Arbeiten wird heute für jeden Experten die gleiche Größe und Struktur verwendet“, sagte Dean. „Sie haben also eine Reihe grüner Experten für sie hier. Sie haben hier eine erlernte Routing-Funktion, die lernt, welcher Experte in welcher Sache gut ist, und dann senden Sie einige der Beispiele an den entsprechenden Experten. Und ein Rechengleichgewicht wird in der Regel dadurch erreicht, dass pro Experte gleich große Berechnungen durchgeführt werden und jedem Experten die gleiche Anzahl an Beispielen zufließt. Für Computerarchitekten bedeutet dies, dass die All-to-All-Shuffle-Leistung über alle Beschleuniger hinweg wirklich wichtig ist. Dies gilt für praktisch alle Sparse-Modelle – Sie möchten in der Lage sein, Dinge schnell und auf die richtige Weise von einem Teil des Modells zum anderen zu leiten. Eine Sache, die Sie jedoch möglicherweise tun möchten, ist, anstelle fester Rechenkosten die Rechenkosten verschiedener Teile des Modells zu variieren. Und es macht keinen Sinn, für jedes Beispiel die gleiche Menge an Rechenleistung aufzuwenden, da einige Beispiele 100-mal so schwer sind. Und wir sollten 100-mal so viel Rechenaufwand für Dinge aufwenden, die wirklich schwierig sind, als für Dinge, die sehr einfach sind.“

Es stellt sich heraus, dass einige der winzigen Experten möglicherweise nur einen geringen Rechenaufwand benötigen und für vielleicht 90 Prozent der Eingabeaufforderungen in einem in der Produktion verwendeten Modell verwendet werden. Die Experten werden größer, um komplexere Aufgaben zu erledigen, mit unterschiedlichen Rechenstrukturen und möglicherweise mehr Schichten, und sie sind rechenintensiver und daher teurer in der Ausführung. Und wenn Sie einen KI-Dienst betreiben, möchten Sie in der Lage sein, die Kosten dem Wert der gelieferten Expertenantwort zuzuordnen, damit Sie eine angemessene Abrechnung vornehmen können.

Dies ist für Google keine Theorie – der Grund, warum das Unternehmen darüber spricht, ist, dass das Pathways-Framework Folgendes tut:

Das ist also Sparsity und adaptive Berechnung. Das Letzte, worauf man achten sollte, sagt Dean, der in der obigen Tabelle erwähnt wird, sind dynamische neuronale Netze, was bedeutet, dass einem laufenden System Kapazität hinzugefügt oder daraus entfernt werden kann – etwas, das wir seit einigen Jahrzehnten für Allzweckserver haben ( allerdings nicht auf einer X86-Plattform, seltsamerweise, und hier könnten Arm und RISC-V möglicherweise mit Mainframes und RISC/Unix-Systemen gleichziehen. Was für CPUs und ihre Arbeitslasten gilt – es gibt sicherlich eine dynamische Zuweisung auf Hypervisor-Ebene – gilt auch für GPUs, TPUs und andere KI-Rechen-Engines. Sie möchten in der Lage sein, die Kapazität eines Kernpools für ein bestimmtes Modell dynamisch hinzuzufügen oder daraus zu entfernen, während es Inferenz oder Training ausführt. Das PaLM-Modell mit 500 Milliarden Parametern von Google wurde auf Pathways trainiert und tat dies mit dynamischer Ressourcenzuteilung auf zwei Pods mit 6.144 TPUv4-Engines, aber die TPUv4-Engines waren tatsächlich auf sechs Pods mit insgesamt 24.576 Engines verteilt, die alle miteinander verbunden waren über ein Hochgeschwindigkeits-Rechenzentrumsnetzwerk. So was:

Ein TPUv4-Pod ist praktisch eine Rechenreihe mit Kupferverbindungen für einen 4x4x4-Toruswürfel aus TPU-Engines und optischen Verbindungen in einem Torus dieser Würfel, von denen 64 an den Würfelflächen miteinander verbunden sind. Das Training von PaLM dauerte 56 Tage und dies ist eine Momentaufnahme von Tag 5,71. Die Arbeitslasten änderten sich im Laufe der Zeit stark, und der PaLM-Job versuchte aus Nähe- und Latenzgründen mehr oder weniger zusammenzuhalten, bewegte sich aber ein wenig wie zellulare Automaten im Cluster.

Hier sind die wichtigsten Erkenntnisse, die Dean Systemarchitekten vermitteln wollte:

Hier übernahm Vahdat die Macht und zeigte die exponentielle Kurve des Modellgrößenwachstums auf, mit der die KI-Branche konfrontiert ist:

Es gibt absolut keinen Grund zu der Annahme, dass sich die Komplexität des Modells und damit die Anforderungen an die Rechenkapazität verlangsamen werden. Aber die Modelle wachsen um das Zehnfache pro Jahr und die Leistung von GPUs und TPUs wächst unserer Schätzung nach bestenfalls um das Zwei- bis Dreifache pro Jahr. Unternehmen müssen dies durch eine Skalierung ausgleichen, was schwierig ist, und durch die Verbesserung ihrer Modelle, was ebenfalls schwierig ist. Wir haben immer noch einige Tricks zur numerischen Formatierung, die wir verwenden können, und auch einige Tricks zur Sparsity, aber wir glauben, dass beide bald keinen Platz mehr haben werden.

Aus diesem Grund hat Google bereits TPUv5e-Engines in seiner Flotte eingesetzt – und wenn man jetzt darüber spricht, wahrscheinlich schon vor zwei Jahren – und warum die TPUv6 mit einer möglichen Buchstabenerweiterung wie „i“ oder „e“ wahrscheinlich gerade in Arbeit und auf dem Weg dorthin ist baldige Einführung, um die Kommerzialisierung des Gemini-Modells zu unterstützen.

Um die bisherige 100-fache Verbesserung der Leistung pro Gesamtbetriebskosten zu erreichen – und Vahdat hielt einen ganzen Vortrag darüber, wie man auf diese Weise den relativen Wert von KI oder Allzweck-Rechenplattformen einschätzen muss, und wir waren dieser Meinung schon immer, bevor es KI gab Systeme – Google musste eine Menge Dinge tun:

„Die Art der Computerinfrastruktur, die wir aufbauen müssen, um dieser Herausforderung gerecht zu werden, muss sich ändern“, sagte Vahdat in seinem Teil der Keynote. „Und ich denke, es ist wirklich wichtig zu beachten, dass wir nicht dort wären, wo wir heute sind, wenn wir versuchen würden, dies mit Allzweck-Computing zu erreichen. Mit anderen Worten: Die konventionelle Weisheit, die wir in den letzten 50 bis 60 Jahren entwickelt haben, wurde über Bord geworfen. Ich denke, man kann mit Fug und Recht sagen, dass maschinelle Lernzyklen bei Google und – was noch wichtiger ist – in der gesamten Community einen immer größeren Teil unserer Ziele ausmachen werden.“

Google konzentriert sich bei der Optimierung der Hardware und Software auf eine Sache, um Arbeitslasten und Stromverbrauch dynamisch über Systemcluster hinweg zu verwalten:

Bei speichergebundenen Jobs können Spannung und Stromstärke stark variieren, und der Versuch, den Stromverbrauch über einen Cluster von Tausenden bis Zehntausenden von Rechenmaschinen hinweg zu verwalten, ist, wie Vahdat es ausdrückte, „irgendwo zwischen schwierig und unmöglich“. Indem keine massiven Hotspots im Cluster entstehen – was wahrscheinlich passiert ist, während Google das PaLM-Modell trainierte –, erhöht sich die Lebensdauer der Geräte und reduziert Ausfälle, die bei synchroner Arbeit wie dem KI-Training, genau wie bei der HPC-Simulation, sehr störend sind und Modellieren. Anstatt zu einem Kontrollpunkt zurückzukehren und von dort aus zu beginnen, wäre es besser, den Ausfall von vornherein zu vermeiden.

So spielen Sie mit Kernfrequenzen und Spannungen, um die Dinge etwas auszugleichen.

Wenn Google darüber spricht, dann hat Borg dies wahrscheinlich zumindest für die TPU-Cluster. Aber vielleicht auch nicht. In jedem Fall besteht die Idee darin, dass ein ständiger Austausch zwischen einer Kontrollebene, die die Jobplatzierung im Cluster überwacht, und den Leistungsparametern für diese Jobs stattfindet und dass die Platzierung und Bewegung dieser Jobs während ihrer Ausführung ein fortlaufender Prozess ist. Sie spielen Tetris nicht nur einmal, um Jobs zu platzieren, wie es Jobplaner wie Borg und Omega in Google tun, sondern Sie ersetzen sie nach Bedarf, wenn sich Leistungseinschränkungen auf die Leistung auswirken oder Leistungseinschränkungen die Leistung beeinträchtigen.

Dazu gehört es, neue TPU-Chips schneller auf den Markt zu bringen, und Google hat seine eigenen KI-gestützten EDA-Tools verwendet, um bei der Entwicklung von Teilen der TPUv4i- und TPUv4-Chips und vermutlich auch des TPUv5e zu helfen. Derzeit dauert es laut Dean etwa drei Jahre, bis ein Chip auf den Markt kommt. Das sind sechs bis zwölf Monate für Design und Erkundung, ein Jahr für die Implementierung des Designs, sechs Monate für die Ausarbeitung mit einer Gießerei und zwölf Monate für die Produktion, den Test und die Inbetriebnahme. Es ist nicht klar, inwieweit KI den Chip-Entwicklungszyklus verkürzen oder den menschlichen Aufwand reduzieren kann, und Dean hat keine Schätzungen abgegeben. Aber es ist klar: Je näher man ein Hardware-Design an neue KI-Modelle heranbringen kann, desto besser.

Mit Highlights, Analysen und Geschichten der Woche direkt von uns in Ihren Posteingang, ohne dass etwas dazwischen liegt. Jetzt abonnieren