Turtle Benchmark

使用场景研究者使用Turtle Benchmark评估不同大型语言模型在特定逻辑推理任务上的表现。开发者利用Turtle Benchmark测试他们的语言模型是...