Einschränkungen und Schlussfolgerungen In dieser Arbeit haben wir verschiedene Aktionsraumadapter (ASAs) für eine Vielzahl von Verkörperungen, Aktionsräumen und Umgebungen untersucht. Wir bieten eine Verallgemeinerung früherer Arbeiten durch die Linse von Aktionsraumadaptern und zeigen sowohl für diskrete als auch für kontinuierliche Aktionsräume Designs, die, wie wir zeigen, das Wissen innerhalb des MLLM nutzen können. Unsere Ergebnisse zeigen, dass es für kontinuierliche Aktionen am besten ist, Aktions-Token zu lernen, die die Aktionsverteilung genau modellieren, während es für diskrete Aktionen am besten ist, über semantische Sprachbeschreibungen von Aktionen nachzudenken. Wir verifizieren diese Ideen in 114 verkörperten KI-Aufgaben in 5 verschiedenen Umgebungen. Eine Einschränkung unserer Arbeit besteht darin, dass unsere gesamte Analyse auf einem einzigen MLLM (LLaVA) beruht. Eine weitere Einschränkung ist, dass RVQ, die leistungsstärkste ASA in kontinuierlichen Handlungsräumen, das Sammeln von Demonstrationen erfordert, um das VQ-Modell zu trainieren. Unsere Analysen beruhen ebenfalls nur auf einer einzigen LoRA-Trainingseinstellung. Zukünftige Analysen können verschiedene Basis-MLLMs unter verschiedenen Trainingsbedingungen, wie z.B. vollständige LLM-Feinabstimmung, untersuchen. Während unsere Untersuchung von ASAs es ermöglicht, ein MLLM mit verschiedenen Aktionsräumen zu verbinden, ist die Leistung von dieser Methoden immer noch unterdurchschnittlich für den Einsatz in realen Robotern, wo hoher Erfolg und Sicherheit entscheidend sind. MLLMs mit der besten ASA haben in einfachen Umgebungen wie BabyAI immer noch Schwierigkeiten und erreichen nur eine Erfolgsquote von 40 %. Es sind weitere Arbeiten erforderlich, um die Leistung dieser Methoden für den realen Einsatz zu verbessern. Unsere Untersuchung befasst sich auch nur mit der Anpassung von MLLMs durch Verhaltensklonen oder On-Policy-RL. Zukünftige Arbeiten können untersuchen, ob die Wahl der ASA variiert, wenn das MLLM mit anderen Lernalgorithmen wie Off-Policy RL oder Offline RL angepasst wird.
AI Multimodale Modelle (MLLMs)
zuletzt überarbeitet am 9. Dezember 2024 (diese Version, v2
Multimodale Large Language Models (MLLMs) haben in vielen Bereichen, einschließlich der verkörperten KI, ein breites Leistungsspektrum bewiesen. In dieser Arbeit untersuchen wir, wie sich ein MLLM am besten in verschiedene Verkörperungen und die zugehörigen Aktionsräume integrieren lässt, um das multimodale Weltwissen des MLLM optimal zu nutzen. Wir verallgemeinern zunächst eine Reihe von Methoden durch eine einheitliche Architektur und die Linse von Aktionsraumadaptern. Für kontinuierliche Aktionen zeigen wir, dass eine erlernte Tokenisierung eine ausreichende Modellierungspräzision ermöglicht und so die beste Leistung bei nachgelagerten Aufgaben liefert. Für diskrete Aktionen zeigen wir, dass die semantische Ausrichtung dieser Aktionen auf den nativen Ausgabe-Tokenraum des MLLM die beste Leistung liefert. Wir gelangen zu diesen Erkenntnissen durch eine gründliche Untersuchung von sieben Aktionsraumadaptern in fünf verschiedenen Umgebungen, die über 114 verkörperte Aufgaben umfassen.
Was sind multimodale Modelle? Definition
Multimodale Modelle sind KI-Systeme, die Informationen aus verschiedenen Modalitäten – z. B. Text, Bild, Audio und Video – kombinieren, um eine Aufgabe besser zu lösen als mit einer einzigen Datenquelle. Beispiele für Modalitäten
Text: Schriftliche Dokumente, Kommentare oder Chatnachrichten.
Bild: Fotografien, Diagramme, Zeichnungen.
Audio: Sprache, Musik, Umgebungsgeräusche.
Video: Bewegte Bilder, kombiniert mit Ton und Kontext.