Search Test Information Space

Found 19 bookmarks

Custom sorting

Capabilities of GPT-5 on Multimodal Medical Reasoning

#Multimodal #Medical #Reasoning #GPT-5 #Paper #PDF

·arxiv.org·Aug 17, 2025

Capabilities of GPT-5 on Multimodal Medical Reasoning

Scaling Language-Free Visual Representation Learning

View PDF

#Computer Vision #Paper #PDF #Self-Supervised Learning #Questions and Answers #Multimodal

·arxiv.org·Jun 15, 2025

Scaling Language-Free Visual Representation Learning

Multimodal Large Language Models: A Survey

View PDF

#Multimodal #Large Language Models #Survey #Architecture #Transformers #Diffusion #Paper #PDF

·arxiv.org·Jun 14, 2025

Multimodal Large Language Models: A Survey

MMaDA: Multimodal Large Diffusion Language Models

#Multimodal #Diffusion #Large Language Models #Paper #PDF

·arxiv.org·May 22, 2025

MMaDA: Multimodal Large Diffusion Language Models

UniVG-R1: Reasoning Guided Universal Visual Grounding with...

#Reasoning #Reinforcement Learning #Large Language Models #Multimodal #Paper #PDF

·arxiv.org·May 22, 2025

UniVG-R1: Reasoning Guided Universal Visual Grounding with...

AMIE gains vision: A research AI agent for multimodal diagnostic dialogue

work

#Medical #Diagnostics #Multimodal #Dialogue #Google #Research #Paper #PDF #Gemini

·research.google·May 2, 2025

AMIE gains vision: A research AI agent for multimodal diagnostic dialogue

Data-Efficient Multimodal Fusion on a Single GPU

View PDF

#Machine Learning #Computer Vision #Multimodal #Paper #PDF

·arxiv.org·May 2, 2024

Data-Efficient Multimodal Fusion on a Single GPU

MM1: Methods, Analysis & Insights from Multimodal LLM Pre-training

#Large Language Models #Multimodal #Apple #Paper #PDF

·arxiv.org·Mar 17, 2024

MM1: Methods, Analysis & Insights from Multimodal LLM Pre-training

Guiding Instruction-based Image Editing via Multimodal Large Language Models

Download PDF

#Apple #Multimodal #Editing #Paper #PDF #Opensource

·arxiv.org·Feb 7, 2024

Guiding Instruction-based Image Editing via Multimodal Large Language Models

Ferret: Refer and Ground Anything Anywhere at Any Granularity

#Apple #Large Language Models #Multimodal #Paper #PDF #Opensource

·arxiv.org·Dec 26, 2023

Ferret: Refer and Ground Anything Anywhere at Any Granularity

NExT-GPT: Any-to-Any Multimodal LLM

#Large Language Models #Multimodal #Paper #PDF

·arxiv.org·Sep 27, 2023

NExT-GPT: Any-to-Any Multimodal LLM

Scaling Autoregressive Multi-Modal Models: Pretraining and Instruction Tuning | Meta AI Research

Download the Paper

#Meta #Multimodal #Paper #PDF

·ai.meta.com·Jul 14, 2023

Scaling Autoregressive Multi-Modal Models: Pretraining and Instruction Tuning | Meta AI Research

A transformer-based representation-learning model with unified processing of multimodal input for clinical diagnostics

#Medical #Biomedical #Multimodal #Diagnostics #Paper #PDF

·nature.com·Jun 13, 2023

A transformer-based representation-learning model with unified processing of multimodal input for clinical diagnostics

Gong, Y., Rouditchenko, A., Liu, A. H., Harwath, D., Karlinsky, L., Kuehne, H., & Glass, J. (2022). Contrastive audio-visual masked autoencoder. arXiv preprint arXiv:2210.07839.

#Machine Learning #Multimodal #Paper #PDF

·openreview.net·Jun 10, 2023

Gong, Y., Rouditchenko, A., Liu, A. H., Harwath, D., Karlinsky, L., Kuehne, H., & Glass, J. (2022). Contrastive audio-visual masked autoencoder. arXiv preprint arXiv:2210.07839.

HuggingGPT: Solving AI Tasks with ChatGPT and its Friends in HuggingFace

#Large Language Models #Hugging Face #Multimodal #Multiagent #Paper #PDF

·arxiv.org·Apr 5, 2023

HuggingGPT: Solving AI Tasks with ChatGPT and its Friends in HuggingFace

Stable Bias: Analyzing Societal Representations in Diffusion Models

#Graphics #Bias #Paper #PDF #Text-to-Image #Multimodal #Stable Diffusion #DALL-E #Large Language Models

·arxiv.org·Mar 23, 2023

Stable Bias: Analyzing Societal Representations in Diffusion Models

ViperGPT: Visual Inference via Python Execution for Reasoning

#Multimodal #Paper #PDF #Questions and Answers

·arxiv.org·Mar 19, 2023

ViperGPT: Visual Inference via Python Execution for Reasoning

Erasing Concepts from Diffusion Models

#Diffusion #Model #Editing #Multimodal #Paper #PDF

·arxiv.org·Mar 19, 2023

Erasing Concepts from Diffusion Models

ChatGPT is on the horizon: Could a large language model be all we need for Intelligent Transportation?

#Transportation #Research #Paper #PDF #Multimodal #Large Language Models

·arxiv.org·Mar 10, 2023

ChatGPT is on the horizon: Could a large language model be all we need for Intelligent Transportation?