heise+ | Apples KI-Motoren: Das können die aktuellen M-Chips bei lokalen LLMs & Co.
Apples M-Chips stellen leistungsstarke „KI-Motoren“ dar, die immer mehr Beachtung finden, besonders seit der verstärkten Diskussion um Künstliche Intelligenz. Apple platziert diese Chips bewusst als fähige Werkzeuge für KI-Anwendungen, mit einem klaren Fokus darauf, dass diese Prozesse direkt auf dem Gerät stattfinden – ganz im Sinne des Datenschutzes und der Unabhängigkeit von Cloud-Diensten. Der Kern dieser KI-Fähigkeiten liegt in der sogenannten „Neural Engine“, einer speziellen Komponente, die für die Verarbeitung neuronaler Netze optimiert wurde.
Die Neural Engine ist eine dedizierte Recheneinheit innerhalb der M-Chips, die speziell für maschinelles Lernen konzipiert wurde. Ihre Leistungsfähigkeit wird oft in „Tera Operations per Second“ (TOPS) ausgedrückt. Ein einziger TOPS bedeutet, dass die Einheit eine Billion Operationen pro Sekunde ausführen kann. Diese Engine ist so gebaut, dass sie Algorithmen für künstliche neuronale Netze (KNNs) besonders effizient bearbeitet. Dies geschieht in der Regel mit geringerer Präzision, etwa mit 8-Bit-Integer-Zahlen (INT8) oder 16-Bit-Fließkommazahlen (FP16), was die Geschwindigkeit erhöht. Obwohl aktuelle GPUs theoretisch höhere Rechenleistungen erreichen können, zeichnen sich die Neural Engines durch ihre hervorragende Effizienz bei KNN-Aufgaben aus. Das ermöglicht es den M-Chips, umfangreiche KI-Modelle wie Large Language Models (LLMs) direkt auf dem Gerät zu verarbeiten.
Für die effiziente Ausführung von LLMs ist nicht nur die Rechenleistung der Neural Engine entscheidend, sondern auch die Bandbreite des Arbeitsspeichers. Große Sprachmodelle benötigen einen schnellen Zugriff auf massive Datenmengen, die im Arbeitsspeicher gehalten werden. Apple setzt hier auf sein „Unified Memory“-Konzept, bei dem CPU, GPU und Neural Engine einen gemeinsamen Arbeitsspeicher nutzen. Dies reduziert Verzögerungen und Engpässe, die entstehen könnten, wenn Daten zwischen separaten Speichern von CPU und GPU hin- und hergeschoben werden müssten.
Ein Blick auf die Entwicklung der M-Chips zeigt eine stetige Steigerung der KI-Leistung:
* **M1 (seit Ende 2020):** Mit einer Neural Engine von 11 TOPS und maximal 16 GB Arbeitsspeicher können diese Chips Modelle wie Llama-2-7B lokal ausführen. Die Ausführung erfordert typischerweise eine Quantisierung der Modelle auf etwa 4 Bit.
* **M2 (seit Mitte 2022):** Die Neural Engine leistet hier 15,8 TOPS. Mit bis zu 24 GB RAM verbessern sich die Möglichkeiten für 7B-Modelle spürbar, und sie können flüssiger laufen.
* **M3 (seit Ende 2023):** Dieser Chip bietet 18 TOPS und ebenfalls bis zu 24 GB RAM. Hierdurch lassen sich 7B-Modelle noch komfortabler nutzen, und es wird der Weg für anspruchsvollere Anwendungen geebnet.
* **M4 (seit Anfang Mai 2024):** Der neueste M-Chip, ursprünglich für das iPad Pro eingeführt, verfügt über eine beeindruckende Neural Engine von 38 TOPS. In der größten Konfiguration mit 32 GB Arbeitsspeicher ist er in der Lage, auch größere Modelle bis zu 13B-Parametern lokal zu verarbeiten. Apple betont, dass der M4 sogar 13B-Modelle übertreffen kann, die auf NVIDIAs RTX 4090 laufen, was seine Effizienz unterstreicht.
Die Software-Unterstützung ist ebenfalls entscheidend. Apple hat das MLX-Framework veröffentlicht, ein Open-Source-Angebot, das speziell für das Trainieren und Ausführen von KI-Modellen auf seinen Chips entwickelt wurde. Es ähnelt PyTorch und ist eng an die Hardware angepasst. Zudem unterstützt Apples Core ML und das plattformübergreifende ONNX-Format die Nutzung von KI-Modellen auf den M-Chips. Für eine effiziente lokale Ausführung ist es jedoch oft notwendig, die Modelle durch Quantisierung zu verkleinern, um sie an die verfügbaren Speicher- und Rechenkapazitäten anzupassen.
Trotz der beachtlichen Fortschritte gibt es auch Einschränkungen. Der verfügbare Arbeitsspeicher stellt häufig den limitierenden Faktor dar, da umfangreichere LLMs mehr RAM benötigen. Auch die tatsächliche Performance hängt stark von der Qualität der Quantisierung, dem spezifischen Modell und der verwendeten Software ab. Es ist nicht garantiert, dass jedes auf einem M-Chip ausgeführte Modell automatisch Spitzenleistungen erreicht.
Zusammenfassend lässt sich sagen, dass Apple mit seinen M-Chips und der integrierten Neural Engine eine klare Strategie verfolgt, die lokale Verarbeitung von Künstlicher Intelligenz in den Vordergrund zu rücken. Dies bietet Vorteile hinsichtlich Datenschutz, Geschwindigkeit und Energieeffizienz. Die kontinuierliche Verbesserung der Neural Engine und des Unified Memory verspricht, dass zukünftige M-Chips noch leistungsfähiger für anspruchsvolle KI-Anwendungen auf dem Gerät werden.



Kommentar abschicken