Die KI-Forschung von Apple untersucht räumliches Denken und ASL-Annotation

Den Forschungsstudien zufolge hat Apple das Spatial Computing nicht aufgegeben.

Apples Interesse an KI-Modellen und ihren Anwendungen im räumlichen Computing zeigt keine Anzeichen einer Verlangsamung, auch wenn einige behaupten, das Apple Vision Pro sei tot.

Im April 2026 wurde argumentiert, dass das Apple Vision Pro ein völliger Fehlschlag sei und wir daher nie ein Nachfolgeprodukt sehen würden. Obwohl dieses Gerücht immer unvernünftig erschien, ist es inzwischen in Frage gestellt worden.

Auch wenn es in der Vision Products Group des Unternehmens einige Veränderungen gegeben hat, besteht letztendlich immer noch Hoffnung auf eine neue Generation des Apple Vision Pro. Apples KI-Forschung legt nahe, dass das Unternehmen seine raumbezogenen Projekte nicht aufgegeben hat.

Im Gegenteil, neue Studien, die im Apple Machine Learning-Blog veröffentlicht wurden, untersuchen die Verwendung von LLMs bei der Annotation von Gebärdensprache, der 3D-Kopfmodellierung und mehr. Die Forscher von Apple haben außerdem ein neues Benchmarking-System entwickelt, um die räumlich-funktionale Intelligenz von LLMs zu bewerten.

Benchmarking der räumlich-funktionalen Intelligenz für multimodale LLMs

Das Papier mit dem Titel „From Where Things Are to What They’re For: Benchmarking Spatial-Functional Intelligence for Multimodal LLMs“ beschreibt ein neues Test- und Bewertungssystem für MLLMs.

Die Forscher von Apple haben ein Benchmarking-Framework entwickelt, das die räumlichen Denkfähigkeiten von MLLMs testet. Bildquelle: Apple

Wie die Studie erklärt, stützen sich KI-Modelle auf zwei unterschiedliche Strukturen, um das menschliche Verständnis eines Raums und seiner Objekte nachzuahmen. Dazu gehört „eine räumliche

Darstellung, die Objektlayouts und relationale Strukturen erfasst, und eine funktionale Darstellung, die Angebote, Zwecke und kontextabhängige Nutzung kodiert.“

Mit anderen Worten: Ein multimodales LLM muss die Geometrie eines bestimmten Raums sowie den Zweck und die Position der darin enthaltenen Objekte verstehen. Die Forscher von Apple sagen, dass bestehende Benchmarking-Methoden wie VSI-Bench nur den ersten Aspekt testen und den letzteren weitgehend ignorieren.

Um dem entgegenzuwirken, entwickelten sie den Spatial-Functional Intelligence Benchmark, abgekürzt als SFI-Bench. Es wird als videobasierter Benchmark mit 1.555 von Experten kommentierten Fragen beschrieben, die aus 134 Indoor-Videoscans abgeleitet wurden.

Was SFI-Bench konkret testet, erklärt die Studie auf recht einfache Weise:

„Über die räumliche Wahrnehmung hinaus umfasst SFI-Bench funktionale und wissensbasierte Überlegungen und untersucht, ob Modelle verstehen, wozu Objekte in der Szene dienen, wie sie bedient werden und wie Fehler diagnostiziert werden können.“

Mit anderen Worten: Der Benchmark testet, ob KI-Modelle verstehen, was ein Objekt ist, wo es sich befindet, wie es verwendet wird, wofür es verwendet wird und wie es repariert werden kann.

Diagramm einer Wohnzimmer-Navigationsaufgabe: Video-Scan-Frames, eine 3D-gerenderte Raumkarte mit farbigen Pfaden und Markierungen sowie kommentierter Text zur Erläuterung von Fragen, Argumentationsschritten und richtigen bzw. falschen Antworten

Die KI-Forscher von Apple haben getestet, wie gut LLMs die Welt um sie herum verstehen. Bildquelle: Apple.

Wenn Ihnen das bekannt vorkommt, liegt das daran, dass Google seit mindestens 2024 über Tools mit dieser Art von räumlicher Wahrnehmung verfügt. Auf seiner i/o-Konferenz im selben Jahr identifizierte Googles KI-Modell ein Objekt davor korrekt als Plattenspieler und schlug sogar vor, wie das Gerät repariert werden kann.

In der Praxis würde SFI-Bench dazu dienen, ähnliche und fortschrittlichere KI-Modelle zu testen. Zu den genannten Tests gehört die Aufforderung an einen LLM, die größte Teilmenge von Flaschen derselben Marke auf einem Schrank zu identifizieren, die Aufforderung, das laufende Programm auf einer Waschmaschine abzubrechen, die Verwendung einer TV-Fernbedienung und vieles mehr.

Die Forscher von Apple haben mit ihrem SFI-Bench-Framework mehrere Open-Source- und proprietäre KI-Modelle getestet. Es überrascht nicht, dass Google Gemini 3.1 Pro das beste Gesamtergebnis erzielte, während Gemini-3.1-Flash-Lite den dritten Platz belegte. GPT-5.4-High von OpenAI erreichte den zweiten Platz.

Die Studie stellt jedoch fest, dass „über alle Modelle hinweg das globale bedingte Zählen ein wesentlicher Engpass darstellt und anhaltende Einschränkungen beim kompositorischen und logischen Denken aufzeigt.“

Mit anderen Worten: Die meisten aktuellen MLLMs „kämpfen mit dem räumlichen Gedächtnis, der funktionalen Wissensintegration und der Verknüpfung von Wahrnehmung mit externem Wissen.“ Dennoch stellte die Studie fest, dass Modelle mit Internetzugang im Vergleich zu reinen Offline-Modellen eine bessere Leistung erbrachten.

Was potenzielle Anwendungen innerhalb von iOS betrifft, könnte Apple eine Version von Siri vorstellen, die sowohl räumliches als auch kontextbezogenes Bewusstsein bietet. Dies wäre sinnvoll, da das Unternehmen für Apple Intelligence-Funktionen eine Partnerschaft mit Google eingegangen ist.

Es bleibt jedoch abzuwarten, ob und wann das auf den Markt kommt und wie gut die KI funktionieren könnte.

Verwendung von KI-Modellen für die Annotation der Gebärdensprache

In einer separaten Studie mit dem Titel „Bootstrapping Sign Language Annotations with Sign Language Models“ untersuchten Apples Forscher, wie KI zum Kommentieren von Gebärdensprachvideos eingesetzt werden könnte.

Diagramm zum Vergleich der Text- und Gebärdenausrichtung für die Gebärdenspracherkennung, mit beschrifteten Zeitleisten, farbigen Frame-Score-Rastern und gestapelten neuronalen Netzwerkblöcken, die mehrskalige erweiterte Windungen, Selbstaufmerksamkeit und separate Einhand- und Zweihandzweige zeigen

Die Forscher von Apple untersuchten den Einsatz von KI für ASL-Annotationen. Bildquelle: Apple

Das Forschungsteam des Unternehmens sagt, es habe eine „Pseudo-Annotations-Pipeline entwickelt, die signiertes Video und Englisch als Eingabe verwendet und einen geordneten Satz wahrscheinlicher Anmerkungen ausgibt, einschließlich Zeitintervallen, für Glossen, fingerbuchstabierte Wörter und Gebärdenklassifikatoren.“

Auf diese Weise möchten sie den Zeit- und Kostenaufwand für die manuelle Kommentierung von Hunderten von Stunden Gebärdensprache reduzieren. Dieser Ansatz umfasste die Erstellung „einfacher, aber effektiver grundlegender Fingerbuchstabier- und ISR-Modelle, die den neuesten Stand der Technik bei FSBoard (6,7 % CER) und bei ASL Citizen-Datensätzen (74 % Top-1-Genauigkeit) erreichen.“

Die Forscher von Apple haben fast 500 manuelle Anmerkungen vom Englischen zum Glossar entwickelt. Sie validierten sie durch Rückübersetzung, manuelle Anmerkungen und Pseudoanmerkungen für über 300 Stunden ASL STEM Wiki und 7,5 Stunden FLEURS-ASL.

Zu Testzwecken erhielt Claude Sonnet 4.5 eine Glossar-in-Englisch-Variante einer Eingabeaufforderung und musste diese aus manuellen ASL STEM Wiki-Anmerkungen in den englischen Referenztext übersetzen, den die Unterzeichner interpretierten.

Die Studie stellt fest, dass „Fehler überwiegend in Fällen auftraten, in denen ein Satz keine Fingerbuchstabierung enthielt.“ Während noch weitere Arbeit geleistet werden muss, sagen die Forscher, dass ihr „Ansatz zur Fingerbuchstabiererkennung und isolierten Zeichenerkennung mit bescheidenen GPU-Ressourcen trainiert werden kann und auch für weitere Iterationen auf Pseudo-Annotations-Pipelines verwendet werden könnte.“

Warum Apple dies untersucht, könnte etwas mit den seit langem gemunkelten AirPods mit Kamera zu tun haben. Möglicherweise plant das Unternehmen, seine Live-Übersetzungsfunktion um die Gebärdensprache zu erweitern.

3D-Gauß-Kopf-Rekonstruktion aus Multi-View-Aufnahmen

Eine weitere Studie mit dem Titel „Large-Scale High-Quality 3D Gaussian Head Reconstruction from Multi-View Captures“ untersucht, wie mit Hilfe von KI Kopfmodelle aus Bildern erstellt werden können.

Flussdiagramm eines neuronalen Netzwerks, das den 3D-Kopf einer Frau aus mehreren Fotos rekonstruiert und ResNet-Encoder, Transformatorblöcke, Gauß-Decoder sowie gerenderte versus Groundtruth-Ausgaben im Vordergrund und Hintergrund zeigt

Die KI-Forscher von Apple untersuchten, wie LLMs verwendet werden können, um 3D-Kopfmodelle aus Multi-View-Aufnahmen zu erstellen. Bildquelle: Apple.

Die Forscher von Apple entwickelten „HeadsUp, eine skalierbare Feed-Forward-Methode zur Rekonstruktion hochwertiger 3D-Gaußköpfe aus großen Multikamera-Setups.“

Im Wesentlichen untersucht die Studie, wie verschiedene Kopfansichten mithilfe einer Reihe von Encodern und Decodern in Gaußsche Blobs und dann in 3D-Modelle umgewandelt werden können.

Um ihre Bild-zu-3D-Modell-Methode zu testen, verwendeten die Hintermänner der Studie „einen internen Datensatz mit mehr als 10.000 Probanden, der eine Größenordnung größer ist als bestehende Datensätze mit mehreren Ansichten menschlicher Köpfe“. Die 3D-Kopfmodelle wurden auch mithilfe von Expression Blendshapes animiert.

Insgesamt erklärt die Studie, dass „HeadsUp eine Rekonstruktionsqualität auf dem neuesten Stand der Technik erreicht und ohne Testzeitoptimierung auf neuartige Identitäten verallgemeinert wird.“

In Bezug auf praktische Anwendungen könnte die Studie einen Bezug zum Apple Vision Pro und seiner Persona-Funktion haben. Apple sucht möglicherweise nach Möglichkeiten, die Darstellung von Gesichtsausdrücken oder die Erfassung und Darstellung von Gesichtern in visionOS zu verbessern.

Es kann auch Hardware- oder Komfortanwendungen geben. Während der Entwicklung des Headsets wurde woozad mitgeteilt, dass das Unternehmen neben den Apple Vision Pro-Modellen auch verschiedene 3D-Kopftypen integriert habe.

Die Zeit wird zeigen, was Apple mit den von seinen Forschern erstellten Informationen macht. Während wir abwarten müssen, was das nächste Produkt sein wird, ist eines sicher: Das Unternehmen macht in Sachen KI und räumlicher Datenverarbeitung keine Kompromisse.

Apple wird iOS 27 und die entsprechenden Betriebssystem-Updates auf der WWDC 2026 ankündigen, die am 8. Juni beginnt.