Zephyrnet-Logo

Warum Copilot vorerst nur lokal auf KI-PCs läuft

Datum:

Kommentar Microsofts Definition dessen, was ein KI-PC ausmacht und was nicht, nimmt Gestalt an. Mit der neuesten Windows-Version, einem dedizierten Copilot-Schlüssel und einer NPU, die mindestens 40 Billionen Operationen pro Sekunde ausführen kann, können Sie Microsoft Copilot bald lokal auf Ihrem Computer ausführen.

Redmonds Anforderungen für sein KI-Modell unter Windows wurden von Intel – einem der stärksten Cheerleader der KI-PC-Kategorie – während des Chip-Giganten offiziell bekannt gegeben KI-Gipfel diese Woche in Taipeh.

Das lokale Ausführen eines großen Sprachmodells (LLM) hat einige wesentliche Vorteile. Endbenutzer sollten eine geringere Latenz und damit bessere Antwortzeiten haben, da Abfragen nicht an und von einem entfernten Rechenzentrum gesendet werden müssen, und theoretisch auch mehr Privatsphäre. Für Microsoft wiederum werden durch die Verlagerung eines größeren Teils der KI-Arbeitslast auf Kundengeräte eigene Ressourcen für andere Aufgaben frei, etwa um beim Training des nächsten OpenAI-Modells zu helfen oder es als Cloud-API anzubieten.

Microsoft hofft, seinen Copilot LLM schließlich vollständig auf den NPUs oder neuronalen Verarbeitungseinheiten in den Windows-KI-PCs der Menschen ausführen zu können, so die Einschätzung Kommentare offenbar gemacht von Intel-Führungskräften auf dem Gipfel. Wir können uns vorstellen, dass der x86-Goliath diese Linie vorantreibt, um jeden davon zu überzeugen, dass sein Silizium leistungsstark genug ist, um Redmonds Geräte zu Hause oder im Büro zu betreiben.

Auch wenn die Idee, Copilot von Azures Nabelschnur zu lösen, für einige attraktiv sein mag, scheint nicht jeder ein Fan davon zu sein Clippy inkarniert und zumindest ein Teil der Verarbeitung wird auf absehbare Zeit mit ziemlicher Sicherheit in der Cloud erfolgen.

Intel-Führungskräfte haben das auch gesagt: Durch schnellere Hardware können mehr „Elemente“ von Copilot lokal ausgeführt werden. Mit anderen Worten: Zumindest für einen Teil der Funktionalität sind Sie immer noch auf eine Netzwerkverbindung angewiesen, den Rest erledigt der KI-PC selbst.

Der Grund sollte nicht so überraschend sein. Diese KI-PCs verfügen über endliche Ressourcen und das Modell, das Copilot antreibt – OpenAIs GPT-4 – ist enorm. Wir wissen nicht genau, wie groß die von Microsoft verwendete Version ist, aber Schätzungen beziffern das vollständige GPT-4-Modell auf etwa 1.7 Billionen Parameter. Selbst mit Quantisierung oder dem Ausführen des Modells bei INT4 würden Sie etwa 900 GB Speicher benötigen.

Wie wir glauben, dass es funktionieren wird

GPT-4 ist ein sogenanntes Expertenmix-Modell. Kurz gesagt bedeutet dies, dass es sich tatsächlich aus einer Reihe kleinerer, spezialisierter vorab trainierter Modelle zusammensetzt, an die Abfragen weitergeleitet werden. Durch die Optimierung mehrerer Modelle für die Textgenerierung, Zusammenfassung, Codeerstellung usw. kann die Inferenzleistung verbessert werden, da nicht das gesamte Modell ausgeführt werden muss, um eine Aufgabe abzuschließen.

Die Verwendung des Begriffs „Elemente“ durch Intel zur Beschreibung der lokalen Ausführung von Copilot-Funktionen legt nahe, dass einige dieser Experten durch kleinere, leistungsfähigere Modelle ersetzt werden könnten, die auf Laptop-Hardware ausgeführt werden können. Wie wir zuvor untersucht haben, ist die vorhandene persönliche Hardware durchaus in der Lage, kleinere KI-Modelle von Mistral oder Meta auszuführen.

Zufälligerweise hat Microsoft kürzlich gepumpt 15 Millionen Euro (16.3 Millionen US-Dollar) fließen in den französischen Minimodellbauer Mistral AI, mit Plänen, seine Arbeit Azure-Kunden zur Verfügung zu stellen. Mit einer Größe von nur 7 Milliarden Parametern ist der Mistral-7B sicherlich klein genug, um bequem in den Speicher eines KI-PCs zu passen, und benötigt bei Verwendung der 4-Bit-Quantisierung etwa 4 GB Speicher.

Und das ist für ein Allzweckmodell. Denkbar wäre, dass Sie mit noch kleineren Modellen auskommen, die auf die Generierung von Quellcode abgestimmt sind und nur dann in den Speicher geladen werden, wenn die Anwendung, beispielsweise Visual Studio Code, gestartet wird und ein aktives Github Copilot-Abonnement erkannt wird. Denken Sie daran, Copilot ist mehr als nur ein Chatbot; Dabei handelt es sich um eine Reihe von KI-Funktionen, die in das Betriebssystem und die Softwarebibliothek von Microsoft integriert werden.

Redmond hat nicht gesagt, wie viel Speicher seine AI-PC-Spezifikation erfordert, aber unserer Erfahrung nach lokale LLMs16 GB schnelles DDR5 sollten ausreichend sein.

Welchen Weg Microsoft letztendlich auch einschlägt, die Kombination aus lokalen und Remote-Modellen könnte zu interessantem Verhalten führen. Wir wissen noch nicht, unter welchen Umständen diese lokalen Modelle die Oberhand gewinnen werden, aber der Microsoft-Experte für Windows-Geräte, Pavan Davuluri, hat vorgeschlagen, dass die Mischung dynamisch sein könnte.

„Wir möchten in der Lage sein, die Last zwischen der Cloud und dem Client zu verschieben, um in beiden Welten das Beste aus der Datenverarbeitung zu bieten“, sagte er auf der Bühne während AMDs Advancing AI Event Im Dezember. „Es vereint die Vorteile lokaler Datenverarbeitung, Dinge wie verbesserte Privatsphäre, Reaktionsfähigkeit und Latenz mit der Leistungsfähigkeit der Cloud, Hochleistungsmodellen, großen Datenmengen und plattformübergreifender Inferenz.“

Daher können wir uns einige Szenarien vorstellen, wie Microsoft lokale KI nutzen könnte. Die erste besteht darin, die Arbeit von Microsoft-Servern zu entlasten und die Antwortzeiten zu verbessern. Mit der Verbesserung der Hardware könnten weitere Copilot-Funktionen aus der Cloud auf Benutzergeräte übertragen werden.

Die zweite wäre, es als Ersatz für den Fall von Netzwerkstörungen bereitzustellen. Sie können sich vorstellen, dass Ihr KI-PC einfach nur dümmer wird, anstatt ganz zum Stillstand zu kommen, wenn er vom Netz getrennt wird.

Hardware-Einschränkungen

Bevor Sie sich zu sehr darüber aufregen, dass KI-PCs mit gespaltenen Gehirnen Off-Grid-Manifeste entwerfen, gibt es derzeit keine Maschinen, die die Hardwareanforderungen erfüllen, und das liegt nicht am Fehlen eines Copilot-Schlüssels.

Das Problem ist, dass NPUs im x86-Silizium noch relativ neu sind und die vorhandenen nicht annähernd leistungsstark genug sind. AMD war bereits Anfang 2023 mit der Markteinführung eines der ersten Unternehmen, das seinen Mobilprozessoren eine NPU hinzufügte Ryzen 7040 Serienchips.

Diese Aufstellung erhielt im Dezember während des Advancing AI-Events des House of Zen einen Zeitsprung. AMD brachte seine NPUs mit der Einführung von auch auf den Desktop 8000G-APUs auf der CES im Januar dieses Jahres.

Intel hat mit der Markteinführung seine speziellen KI-Beschleunigerblöcke eingeführt Meteorsee Mikroprozessorteile Ende Dezember. Diese Core Ultra-Chips verfügen über eine NPU, die von der Movidius Vision Processing Unit (VPU) von Intel abgeleitet ist vorgeführt Während seiner Innovationsveranstaltung im letzten Jahr wurden verschiedene Workloads durchgeführt.

Leider sind Chips nur in der Lage, 10 bis 16 Billionen (typischerweise INT4) Operationen pro Sekunde durchzuführen, was weit unter der 40-TOPS-Spezifikation von Microsoft liegt. Das bedeutet, dass die meisten sogenannten KI-PCs auf dem Markt die Anforderungen nicht erfüllen – nicht ohne sich auf die GPU zu verlassen, um den Unterschied auszugleichen.

Sowohl Intel als auch AMD verfügen über leistungsfähigere Chips mit Lunar-Lake- bzw. Strix-Point-Silizium. Kurzfristig sieht es jedoch so aus, als würde Qualcomm den Markt in die Enge treiben.

Notebooks mit Qualcomms Snapdragon X Elite mobile Prozessoren sollen irgendwann Mitte 2024 erscheinen und über eine NPU mit 45 TOPS verfügen. In Kombination mit einer Adreno-GPU mit einer FP4.6-Leistung von 32 TeraFLOPS wird das Teil laut Qualcomm in der Lage sein, KI-Modelle mit bis zu 13 Milliarden Parametern vollständig auf dem Gerät auszuführen und 30 Token pro Sekunde zu generieren, wenn kleinere LLMs mit 7 Milliarden Parametern ausgeführt werden.

Da PCs mit leistungsstärkeren NPUs und größeren Speicherspeichern auf den Markt kommen und kleine Modelle immer leistungsfähiger werden, vermuten wir, dass Microsoft damit beginnen wird, mehr Funktionalität auf lokale Geräte auszulagern – sobald die Hardware damit umgehen kann. ®

spot_img

Neueste Intelligenz

VC-Café

VC-Café

spot_img