Blöde Frage, aber als Laie habe ich gerade ein Problem den Unfang der Rechenoperationen auf etwas runterzubrechen. Hättet ihr da ein Beispiel, was das ganze etwas bildhafter darstellt?
Apple hat mit
MM1 eine Familie multimodaler Modelle (multimodale große Sprachmodelle (MLLMs)) geschaffen.
U.a. ergibt dies so etwas:
Dank des umfangreichen Pre-Trainings verfügt MM1 über ansprechende Eigenschaften, wie z.B. verbessertes kontextbezogenes Lernen und Multi-Image-Reasoning, das eine Denkkette mit wenigen Schritten ermöglicht.
Durch die Chip-Architektur der M-Chips, insbesondere nun des M4.Chips, wird es möglich sein die aktuell beste Performance in Smartphones und Tabletts damit zu bestücken. Andere Hersteller haben zwar auch ähnliche leistungsfähige Modelle, aber bisher „nur“ für Notebooks und PCs.
Apples „Neural Engine“ käme dann mit einer lokalen vortrainierten MLLM und von bis zu 30 Milliarden Parameter pro Sekunde „Verarbeitung“.
Bis jetzt angedacht und möglich – aber noch nicht beschlossen zum Roll-Out.
Runtergebrochen bedeutet MM1:
Im Wesentlichen bringt der Vision-Sprach-Connector die verschiedenen Fähigkeiten des Modells zur Verarbeitung von Bildern und Texten zusammen, so dass die visuelle Wahrnehmung von Bildern und dem Sprachverständnis zusammenarbeiten.
Und da MM1 auch skalierbar ist, bedeutet dies, dass die Kapazität erhöht werden kann, ohne die Rechenanforderungen erhöht zu fordern.
Möglich wäre dies:
https://medium.com/macoclock/apples...apon-redefining-the-future-of-ai-54c5d55b970f
Desweiteren bietet eine hohe und erhöhte Parameterverarbeitung in der Sekunde bei weniger Energieverbrauch bei konstanter Rechenleistung erhebliche Möglichkeiten.
Externe LLM-Anbindungen sind sozusagen immer möglich, aber lokal intern schon krass.
Und wo die Reise hingehen kann beleuchtet dieser Artikel: „Project Titan“, „Apple GPT“, „MLX“
https://aibusiness.com/ml/apple-launches-first-multimodal-ai-model