Search Test Information Space

Found 4 bookmarks

Custom sorting

HardTests: Synthesizing High-Quality Test Cases for LLM Coding

#Testing #Large Language Models #Paper #PDF #Coding #Verification

·arxiv.org·Jun 3, 2025

HardTests: Synthesizing High-Quality Test Cases for LLM Coding

When AI Co-Scientists Fail: SPOT-a Benchmark for Automated...

#Validation #Verification #Literature Review #Automation #Machine Learning #Paper #PDF

·arxiv.org·May 23, 2025

When AI Co-Scientists Fail: SPOT-a Benchmark for Automated...

DafnyBench: A Benchmark for Formal Software Verification

View PDF

#AI #Verification #Paper #PDF #Benchmark #Software Engineering #Machine Learning #Programming Languages

·arxiv.org·Jun 14, 2024

DafnyBench: A Benchmark for Formal Software Verification

Black-Box Access is Insufficient for Rigorous AI Audits

Download PDF

#Verification #Regulation #AI #Paper #PDF

·arxiv.org·Jan 30, 2024

Black-Box Access is Insufficient for Rigorous AI Audits