Search Test Information Space

Found 1 bookmarks

Custom sorting

Training Language Models to Self-Correct via Reinforcement Learning

View PDF

#Large Language Models #Accuracy #Reinforcement Learning #DeepMind #Paper #PDF

·arxiv.org·Sep 22, 2024

Training Language Models to Self-Correct via Reinforcement Learning