Search Test Information Space

Found 1 bookmarks

Custom sorting

Direct Preference Optimization: Your Language Model is Secretly a Reward Model

PDF

#Large Language Models #Preferences #Reward #Training #Paper #PDF

·arxiv.org·Jun 4, 2023

Direct Preference Optimization: Your Language Model is Secretly a Reward Model