Search Test Information Space

Found 3 bookmarks

Newest

Direct Preference Optimization: Your Language Model is Secretly a Reward Model

PDF

#Large Language Models #Preferences #Reward #Training #Paper #PDF

·arxiv.org·Jun 4, 2023

Direct Preference Optimization: Your Language Model is Secretly a Reward Model

Improving Mathematical Reasoning with Process Supervision

#OpenAI #Process Supervision #Reward #Machine Learning #Paper

·openai.com·May 31, 2023

Improving Mathematical Reasoning with Process Supervision

Reward Design with Language Models

#Reward #Paper #PDF #Large Language Models

·arxiv.org·Mar 9, 2023

Reward Design with Language Models