Search Test Information Space

Found 2 bookmarks

Custom sorting

Iterative Reasoning Preference Optimization

#Reasoning #Preferences #Paper #PDF #Meta #Large Language Models #Algorithms #Chain of Thought

·arxiv.org·May 1, 2024

Iterative Reasoning Preference Optimization

Self-Rewarding Language Models

Download PDF

#AI #Meta #Paper #PDF #Large Language Models #Preferences #Autonomous

·arxiv.org·Jan 20, 2024

Self-Rewarding Language Models