zuletzt überarbeitet am 9. Dezember 2024 (diese Version, v2
Multimodale Large Language Models (MLLMs) haben in vielen Bereichen, einschließlich der verkörperten KI, ein breites Leistungsspektrum bewiesen. In dieser Arbeit untersuchen wir, wie sich ein MLLM am besten in verschiedene Verkörperungen und die zugehörigen Aktionsräume integrieren lässt, um das multimodale Weltwissen des MLLM optimal zu nutzen. Wir verallgemeinern zunächst eine Reihe von Methoden durch eine einheitliche Architektur und die Linse von Aktionsraumadaptern. Für kontinuierliche Aktionen zeigen wir, dass eine erlernte Tokenisierung eine ausreichende Modellierungspräzision ermöglicht und so die beste Leistung bei nachgelagerten Aufgaben liefert. Für diskrete Aktionen zeigen wir, dass die semantische Ausrichtung dieser Aktionen auf den nativen Ausgabe-Tokenraum des MLLM die beste Leistung liefert. Wir gelangen zu diesen Erkenntnissen durch eine gründliche Untersuchung von sieben Aktionsraumadaptern in fünf verschiedenen Umgebungen, die über 114 verkörperte Aufgaben umfassen.