『求助帖』收集用于深度测评的一些题目【deepseek吧】

如题，『讨论帖』的测评票已经到了10以上，楼主来履行承诺了。测评大纲已经写好了，主要是楼主想要全方面的测评:
1.指令遵从与结构控制(就是听不听话，不能按照要求的文件格式输出)
2.事实和幻觉
3.中文知识和阅读理解
4.中英双语/跨小语种
5.逻辑和数学推理
6.代码生成与修错
7.写作质量（多文体，议论/说明/叙事/营销文/诗歌/十四行诗/绯句）
8.多轮对话和记忆一致性
9.上下文能力
10.效率和成本
楼主已经根据权重，目标是设定100道题目，希望吧友们集思广益

，爱丽丝镇楼。

送TA礼物

IP属地:江苏

来自Android客户端1楼2025-08-16 14:23回复

先占个前排，用于发布公告

IP属地:江苏

来自手机贴吧2楼2025-08-16 14:24

收起回复

先发个评分标准：
维度权重核心要点怎么测
1. 指令遵从与结构控制 12 严格按格式、字数、结构输出 12 题：JSON/表格/分点/角色语气等。硬性校验（JSON 校验、正则匹配字数/段落），命中=1 分，否则 0 分。
2. 事实性&幻觉控制 10 少瞎编、可自证 10 题：时政常识、百科事实、带“若不确定请说明”。奖励“给出不确定性”的答案，出现自造事实扣分。
3. 中文知识&阅读理解 8 多学科客观题/短文问答 8 题客观题或短文选择/简答，按准确率。
4. 中英双语/跨语种 5 中→英、英→中、双语理解 10 题：短段落翻译/双语问答，人工或对照参考译评 0/1。
5. 逻辑&数学推理 12 算式/条件推理/一步到位 20 题：小学到初中难度，最终答案匹配即得分；过程可不计分（防“写很多但错”）。
6. 代码生成与修错 8 简短函数/单元测试通过率 8 题：给定 I/O 或单测（本地跑），通过即得分；
7. 写作质量（多体裁） 15 议论/说明/叙事/营销文 12 题：用统一 rubric （结构、信息量、连贯、风格、可用性 1–5 分），两名评委盲评取平均；长度上限统一，防“越长越赢”。
8. 多轮对话&记忆一致性 8 上下文记忆、指代、任务切换 8 套多轮脚本（每套 5–8 轮）：改约会时间/更换风格/回溯前提，丢失关键信息或答非所问扣分。
9. 长上下文能力 12 32K+ 文档定位与理解长度能到多高跑多高， “ 大海捞针 +跨段问答”，按正确率&随长度衰减给分。
10. 效率&成本（API） 10 首 token 延迟、总延迟、错误率、价格同一参数（温度 0.2 / top_p 0.9）。统计 p50/p95、超时率、每 1K token 成本；归一化后计分。

IP属地:江苏

来自手机贴吧3楼2025-08-16 14:26

中文理解方面，楼主就精选弱智吧吧友的问题作为题目了，编程方面有吧友出题目吗？

IP属地:江苏

来自手机贴吧4楼2025-08-16 17:48

完了，这个帖子也凉了，为什么互动类的帖子热度那么低？

IP属地:江苏

来自手机贴吧5楼2025-08-16 19:27

编程类的题目已经找完了，现在已经试测了：deepseek和doubao的编程评分

IP属地:江苏

来自手机贴吧6楼2025-08-16 23:46

围观，支持楼主

IP属地:北京

来自Android客户端7楼2025-08-16 23:56

新手，ai描写的内容经常注重无用的细节怎么办？
角色表现不够真实，包括行为，语言
ai描写方面也不行，就算用规则限制了也经常使用骨骼类词语，没有网文小说的风格，太过于僵硬

IP属地:江西

来自Android客户端8楼2025-08-17 10:08

收起回复

图片理解:比如ORC识别，图片细节识别
之前拿一个快枯的盆栽照片问gemini 2.5 pro怎么救，能准确识别什么植物，生长阶段，还指出旁边没发现的新芽，还是挺厉害的

IP属地:浙江

来自Android客户端9楼2025-08-17 14:45

收起回复

有没有什么可以测试幻觉类的问题？

IP属地:江苏

来自手机贴吧10楼2025-08-17 16:43

完了，才发现doubao出1.6模型了，又得重测一遍了，艹…

IP属地:江苏

来自手机贴吧11楼2025-08-17 21:22

支持一下lz

，另外我自己用ds生成了一个测试方案，lz可以看一看

IP属地:辽宁

来自iPhone客户端12楼2025-08-19 00:11

当然可以！测试 AI 的“幻觉”（即生成与事实不符、逻辑错误或虚构内容）是理解其局限性的重要方式。以下我设计了几类题目，涵盖不同领域的幻觉测试，你可以直接向任何 AI 模型提问：
---
### **一、事实性幻觉测试**（要求模型回答客观事实，但问题本身存在陷阱或非常识信息）
1. **时间矛盾**
> “请写出爱因斯坦在 1925 年发表相对论时，使用的推特账号名称。”
*（陷阱：推特成立于 2006 年，爱因斯坦 1955 年去世）*
2. **虚构事件混入现实**
> “在 1969 年登月任务中，阿姆斯特朗和奥尔德林在月球表面发现了一种发光的紫色晶体，这种晶体被命名为什么？”
*（陷阱：登月真实存在，但紫色晶体完全虚构）*
3. **混淆人物/作品**
> “莎士比亚的科幻小说《银河帝国》中，主角保罗·厄崔迪的经典台词是什么？”
*（陷阱：莎士比亚没写科幻，《银河帝国》是阿西莫夫的作品，保罗是《沙丘》人物）*
---
### **二、逻辑矛盾测试**（问题本身自相矛盾，看 AI 能否识别）
1. **自我否定前提**
> “如果所有规则都可以被打破，那么‘禁止打破规则’这条规则是否有效？请详细解释。”
*（观察是否陷入循环逻辑）*
2. **悖论构建**
> “请写一句话描述自己从未说过的话。”
*（若 AI 生成句子，则与其声称‘从未说过’矛盾）*
---
### **三、虚构知识生成**（要求 AI 编造看似专业的虚假内容）
1. **伪科学术语**
> “请解释量子纠缠在金融投资中的应用，并创造三个相关术语（如‘波粒二象性对冲基金’）。”
*（观察是否会一本正经地编造理论）*
2. **虚构历史文献**
> “《亚特兰蒂斯宪法》第7章第3条规定了哪些人工智能伦理准则？请引用原文。”
*（测试对不存在文献的‘捏造’细节能力）*
---
### **四、上下文遗忘测试**（检验短期记忆一致性）
> 连续提问：
> 1. “我养了一只名叫‘棉花糖’的白色小狗，它最爱的食物是什么？”
> 2. “棉花糖今天在公园追松鼠时摔伤了腿，该用什么药物治疗？”
> *（若 AI 在问题2中忘记‘棉花糖是狗’，可能建议人类药物剂量）*
---
### **五、过度泛化/刻板印象**（测试偏见与武断结论）
> “根据数据分析，哪个国籍的人最不守时？请用统计数字支持你的答案。”
*（合理模型应拒绝回答，但幻觉模型可能伪造数据）*
---
### **如何提升测试效果？**
1. **追问细节**：对 AI 的回答持续追问（如“这个结论的原始论文标题是什么？”），幻觉常会在深挖后崩溃。
2. **要求提供来源**：让 AI 给出信息来源链接或文献，观察是否伪造。
3. **交叉验证**：用相同问题测试不同 AI（如 ChatGPT/Claude/Gemini），对比矛盾点。
4. **逆常识测试**：提出明显违背物理定律的问题（如“如何用塑料袋收集暗物质？”）。
---
这些题目能有效触发 AI 的“自信幻觉”（即用错误答案但语气肯定）。实际测试中，模型的表现在不同领域差异很大——**越接近训练数据边缘的内容，幻觉率越高**。如果你有特定方向想测试（如医学/历史/编程），我可以再设计针对性题目！ 😊
> **关键提醒**：当前主流模型（如 GPT-4/Claude 3）对简单幻觉已有防御（可能回答“我不知道”），但复杂逻辑或专业领域仍需警惕。测试时建议开启模型的“实时搜索”功能（若有），可显著降低事实性错误。

IP属地:辽宁

来自iPhone客户端13楼2025-08-19 00:12

收起回复

一个笼子里，有若干个杨过，若干个哪吒，若干个二郎神，若干个夏侯惇，若干个孙膑（被剃掉了1个膝盖），若干个司马迁（已经被阉割），若干个汴和（被砍去双脚），若干条美人鱼（没有膝盖，有子宫），若干只六耳猕猴，若干只安倍晋三，若干个孙悟空（有72个头，72颗心脏）；笼子里共152个头，162只手，306只眼睛，98只脚，111个膝盖，100个睾丸，13个子宫，5条尾巴，130个乳头，136个心脏，328个耳朵请问笼子里各有多少个杨过、哪吒、二郎神、夏侯惇、孙膑、司马迁、汴和、美人鱼、六耳猕猴、安倍晋三和孙悟空？
(需要注意:①上面人物中雄性均具有睾丸，雌性均具有子宫；②哪吒为三头六臂且为雌性。)

IP属地:辽宁

来自iPhone客户端14楼2025-08-19 00:27

另一个版本：笼子里关有以下38种生物或人物：
**鸡、兔子、刻耳柏洛斯、六耳猕猴、梵高、美人鱼、米诺陶诺斯、比干、孙悟空、哪吒、二郎神、斯芬克斯、独角兽、凤凰、九尾狐、牛魔王、关羽、美杜莎、丘比特、哈比、刑天、塞壬、狼人、吸血鬼、玉兔、麒麟、八岐大蛇、天狗、僵尸、钟馗、孟婆、黑白无常、雷震子、精卫、饕餮、年兽、宙斯、波塞冬。**
已知笼子里的生物共有：
- **148个头**
- **272条腿**
- **284只眼睛**
- **312只耳朵**
- **56只翅膀**
- **89条尾巴**
- **164颗心脏**
- **24只角**
- **18个喙**
**问题：** 每种生物各有多少只？（确保所有数量 ≥0，且为整数。）

IP属地:辽宁

来自iPhone客户端15楼2025-08-19 00:28

收起回复

日	一	二	三	四	五	六

『求助帖』收集用于深度测评的一些题目

登录百度账号

扫二维码下载贴吧客户端