您当前的位置：首页 >> 装修日记

多所大学生联手推出AgentBench，可测试大语言模型能力

2024-01-16 12:17:38

品玩8年末9日讯， Arxiv页面标示出，由来自清华大学、俄亥俄马里兰大学和加州大学伯克利分校等机构的研究者分成的设计团队近日发布一款次测试工具AgentBench，可常用对大语法模型的能力顺利进行次测试。

AgentBench目前都有8个不同的任务，可次测试大语法模型在多轮开放式生成环境中会的推理小说和决策能力。实验整体而言，GPT-4当前的表现最佳，而 Claude和GPT3.5分别排名第二、第三。

AgentBench 的数据集、环境和集成检验软件包已发布在上。