AI

AI

1859 bookmarks
Newest
2406 Grounding Multimodal Large Language Models in Actions| pdf Download ***** | 9.12.2024
2406 Grounding Multimodal Large Language Models in Actions| pdf Download ***** | 9.12.2024

Einschränkungen und Schlussfolgerungen In dieser Arbeit haben wir verschiedene Aktionsraumadapter (ASAs) für eine Vielzahl von Verkörperungen, Aktionsräumen und Umgebungen untersucht. Wir bieten eine Verallgemeinerung früherer Arbeiten durch die Linse von Aktionsraumadaptern und zeigen sowohl für diskrete als auch für kontinuierliche Aktionsräume Designs, die, wie wir zeigen, das Wissen innerhalb des MLLM nutzen können. Unsere Ergebnisse zeigen, dass es für kontinuierliche Aktionen am besten ist, Aktions-Token zu lernen, die die Aktionsverteilung genau modellieren, während es für diskrete Aktionen am besten ist, über semantische Sprachbeschreibungen von Aktionen nachzudenken. Wir verifizieren diese Ideen in 114 verkörperten KI-Aufgaben in 5 verschiedenen Umgebungen. Eine Einschränkung unserer Arbeit besteht darin, dass unsere gesamte Analyse auf einem einzigen MLLM (LLaVA) beruht. Eine weitere Einschränkung ist, dass RVQ, die leistungsstärkste ASA in kontinuierlichen Handlungsräumen, das Sammeln von Demonstrationen erfordert, um das VQ-Modell zu trainieren. Unsere Analysen beruhen ebenfalls nur auf einer einzigen LoRA-Trainingseinstellung. Zukünftige Analysen können verschiedene Basis-MLLMs unter verschiedenen Trainingsbedingungen, wie z.B. vollständige LLM-Feinabstimmung, untersuchen. Während unsere Untersuchung von ASAs es ermöglicht, ein MLLM mit verschiedenen Aktionsräumen zu verbinden, ist die Leistung von dieser Methoden immer noch unterdurchschnittlich für den Einsatz in realen Robotern, wo hoher Erfolg und Sicherheit entscheidend sind. MLLMs mit der besten ASA haben in einfachen Umgebungen wie BabyAI immer noch Schwierigkeiten und erreichen nur eine Erfolgsquote von 40 %. Es sind weitere Arbeiten erforderlich, um die Leistung dieser Methoden für den realen Einsatz zu verbessern. Unsere Untersuchung befasst sich auch nur mit der Anpassung von MLLMs durch Verhaltensklonen oder On-Policy-RL. Zukünftige Arbeiten können untersuchen, ob die Wahl der ASA variiert, wenn das MLLM mit anderen Lernalgorithmen wie Off-Policy RL oder Offline RL angepasst wird.

·arxiv.org·
2406 Grounding Multimodal Large Language Models in Actions| pdf Download ***** | 9.12.2024
[2406.07904] Grounding Multimodal Large Language Models in Actions | 9.12.2024
[2406.07904] Grounding Multimodal Large Language Models in Actions | 9.12.2024

zuletzt überarbeitet am 9. Dezember 2024 (diese Version, v2

Multimodale Large Language Models (MLLMs) haben in vielen Bereichen, einschließlich der verkörperten KI, ein breites Leistungsspektrum bewiesen. In dieser Arbeit untersuchen wir, wie sich ein MLLM am besten in verschiedene Verkörperungen und die zugehörigen Aktionsräume integrieren lässt, um das multimodale Weltwissen des MLLM optimal zu nutzen. Wir verallgemeinern zunächst eine Reihe von Methoden durch eine einheitliche Architektur und die Linse von Aktionsraumadaptern. Für kontinuierliche Aktionen zeigen wir, dass eine erlernte Tokenisierung eine ausreichende Modellierungspräzision ermöglicht und so die beste Leistung bei nachgelagerten Aufgaben liefert. Für diskrete Aktionen zeigen wir, dass die semantische Ausrichtung dieser Aktionen auf den nativen Ausgabe-Tokenraum des MLLM die beste Leistung liefert. Wir gelangen zu diesen Erkenntnissen durch eine gründliche Untersuchung von sieben Aktionsraumadaptern in fünf verschiedenen Umgebungen, die über 114 verkörperte Aufgaben umfassen.

·arxiv.org·
[2406.07904] Grounding Multimodal Large Language Models in Actions | 9.12.2024
The Widespread Adoption of Large Language Model-Assisted Writing Across Society | 17.2.2025
The Widespread Adoption of Large Language Model-Assisted Writing Across Society | 17.2.2025

ABSTRACT The recent advances in large language models (LLMs) attracted significant public and policymaker interest in its adoption patterns. In this paper, we systematically analyze LLM-assisted writing across four domains—consumer complaints, corporate communications, job postings, and international organization press releases—from January 2022 to September 2024. Our dataset includes 687,241 consumer complaints, 537,413 corporate press releases, 304.3 million job postings, and 15,919 United Nations (UN) press releases. Using a robust population-level statistical framework, we find that LLM usage surged following the release of ChatGPT in November 2022. By late 2024, roughly 18% of financial consumer complaint text appears to be LLM-assisted, with adoption patterns spread broadly across regions and slightly higher in urban areas. For corporate press releases, up to 24% of the text is attributable to LLMs. In job postings, LLM-assisted writing accounts for just below 10% in small firms, and is even more common among younger firms. UN press releases also reflect this trend, with nearly 14% of content being generated or modified by LLMs. Although adoption climbed rapidly post-ChatGPT, growth appears to have stabilized by 2024, reflecting either saturation in LLM adoption or increasing subtlety of more advanced models. Our study shows the emergence of a new reality in which firms, consumers and even international organizations substantially rely on generative AI for communications

·static1.squarespace.com·
The Widespread Adoption of Large Language Model-Assisted Writing Across Society | 17.2.2025
Multimodale Modelle: Wie KI Text, Bild und Ton vereint | März 2025
Multimodale Modelle: Wie KI Text, Bild und Ton vereint | März 2025

Was sind multimodale Modelle? Definition

Multimodale Modelle sind KI-Systeme, die Informationen aus verschiedenen Modalitäten – z. B. Text, Bild, Audio und Video – kombinieren, um eine Aufgabe besser zu lösen als mit einer einzigen Datenquelle. Beispiele für Modalitäten

Text: Schriftliche Dokumente, Kommentare oder Chatnachrichten.
Bild: Fotografien, Diagramme, Zeichnungen.
Audio: Sprache, Musik, Umgebungsgeräusche.
Video: Bewegte Bilder, kombiniert mit Ton und Kontext.
·kiberatung.de·
Multimodale Modelle: Wie KI Text, Bild und Ton vereint | März 2025
KI als Psychologe: „Hey ChatGPT, mir geht es nicht gut – kannst du helfen?“ 25.2.2025
KI als Psychologe: „Hey ChatGPT, mir geht es nicht gut – kannst du helfen?“ 25.2.2025
Was lange Zeit nur unter engsten Freunden oder mit dem Therapeuten ausverhandelt wurde, wird nun mit künstlicher Intelligenz geteilt. Die Maschine kann menschliche Fähigkeiten wie Denken und Mitgefühl mittlerweile so gut imitieren, dass sie die Spezies, die sie geschaffen hat, selbst bei zwischenmenschlichen Problemen um Rat fragt. .......
·welt.de·
KI als Psychologe: „Hey ChatGPT, mir geht es nicht gut – kannst du helfen?“ 25.2.2025
******#47 The AI Social Worker****** Super Prompt Guide erstellt für Sozialarbeiter | Marina Badillo-Diaz, 4.11.2024
******#47 The AI Social Worker****** Super Prompt Guide erstellt für Sozialarbeiter | Marina Badillo-Diaz, 4.11.2024

dieser Episode von Make It Achtsamkeit setzt sich Seth Fleischauer mit Marina Badillo-Diaz zusammen, die als "KI-Sozialarbeiterin" bekannt ist, um zu diskutieren, wie künstliche Intelligenz die Sozialarbeit in Schulen unterstützen kann. Sie untersuchen die ethischen Anliegen und das transformative Potenzial von KI-Tools zur Verbesserung der Effizienz für Sozialarbeiter und Pädagogen, insbesondere wenn sie mit der postpandemischen Krise der psychischen Gesundheit konfrontiert sind. Marina teilt praktische Beispiele, von der Verwendung von KI bis zur Rationalisierung der IEP -Ziele bis hin zur Unterstützung von Verwaltungsaufgaben und betont, wie wichtig es ist, ethische Standards aufrechtzuerhalten und gleichzeitig die Technologie in die Sozialarbeit zu integrieren.

Diskutierte Schlüsselthemen:

Die Schnittstelle von Sozialarbeit und KI: Ethik, Effizienz und Innovation.
KI -Bewerbungen für soziale Arbeitnehmer für Schulbeschäftigte, einschließlich IEP -Verfeinerung und Veranstaltungsplanung.
Die Bedeutung des Beziehungsaufbaus und der Achtsamkeit bei der psychischen Gesundheit der Schüler.
Aufstrebende Tech-Lösungen wie VR-Rollenspiele zur Vorbereitung neuer Sozialarbeitspraktiker.
Strategien zur Unterstützung von überlasteten Sozialarbeitern und Lehrern in postpandemischen Schulen. 

Guest Bio: Marina Badillo-Diaz, auch als AI-Sozialarbeiter bekannt, ist ein Schulangestellter und Berater, der sich auf die Nutzung von Technologien zur Unterstützung der Sozialarbeitspraktiken konzentriert. Sie setzt sich für die ethische KI -Verwendung in der Bildung ein und bietet Sozialarbeitern Ressourcen zur effektiven Integration von Technologie.

Host Bio: Seth Fleischauer ist der Gründer von Banyan Global Learning und ein engagierter Anwalt für das Unterrichten digitaler und kultureller Kompetenzen durch ein globales Objektiv, um einen sinnvollen pädagogischen Wandel zu fördern. *

·podcasts.apple.com·
******#47 The AI Social Worker****** Super Prompt Guide erstellt für Sozialarbeiter | Marina Badillo-Diaz, 4.11.2024