如题,『讨论帖』的测评票已经到了10以上,楼主来履行承诺了。测评大纲已经写好了,主要是楼主想要全方面的测评:
1.指令遵从与结构控制(就是听不听话,不能按照要求的文件格式输出)
2.事实和幻觉
3.中文知识和阅读理解
4.中英双语/跨小语种
5.逻辑和数学推理
6.代码生成与修错
7.写作质量(多文体,议论/说明/叙事/营销文/诗歌/十四行诗/绯句)
8.多轮对话和记忆一致性
9.上下文能力
10.效率和成本
楼主已经根据权重,目标是设定100道题目,希望吧友们集思广益
,爱丽丝镇楼。

1.指令遵从与结构控制(就是听不听话,不能按照要求的文件格式输出)
2.事实和幻觉
3.中文知识和阅读理解
4.中英双语/跨小语种
5.逻辑和数学推理
6.代码生成与修错
7.写作质量(多文体,议论/说明/叙事/营销文/诗歌/十四行诗/绯句)
8.多轮对话和记忆一致性
9.上下文能力
10.效率和成本
楼主已经根据权重,目标是设定100道题目,希望吧友们集思广益











