『预热&征集帖』【deepseek吧】_百度贴吧

01月18日漏签0天

deepseek吧关注：136,326贴子：377,747

16回复贴，共1页

<返回deepseek吧

『预热&征集帖』

只看楼主收藏回复

经历了五，六天的，国产ai深度测评也已经完成一半了ヽ(✿ﾟ▽ﾟ)ノ剩下的是：
1.逻辑&数学推理
2.多体裁写作质量（议论，说明，叙事，营销文，诗歌，十四行诗，绯句）
3.多轮对话&记忆一致性
4.长上下文能力测评
5.效率&成本测评
希望大家能多出一出题目，为这个深度测试献出自己的一份力量ヽ(✿ﾟ▽ﾟ)ノ

送TA礼物

IP属地:江苏

来自手机贴吧1楼2025-08-19 15:05回复

公告楼

IP属地:江苏

来自手机贴吧2楼2025-08-19 15:05

收起回复

不感兴趣

开通SVIP免广告

目前已经测试了：
1.指令遵从与结构控制
2.事实性&幻觉控制测试
3.中文知识（多学科客观题）&阅读理解
4.中英双语翻译
5.代码生成与修错（编程相关）

IP属地:江苏

来自手机贴吧3楼2025-08-19 15:07

国产ai深度测评，楼主说的是哪个ai，给上一代有什么区别？

IP属地:河南

4楼2025-08-19 15:37

收起回复

数学和逻辑推理部分即将测试完成

IP属地:江苏

来自手机贴吧5楼2025-08-19 18:06

minimax m1这个模型是真的抽象，测试成绩还不如之前的模型，过度思考比deepseek还严重，同样的问题，deepseek思考400多秒就可以回答问题了，它思考了900多秒一个字都没说出来就被中断思索了（非用户中止）

IP属地:江苏

来自手机贴吧6楼2025-08-19 19:31

难以想象这两个都是2025年的模型

IP属地:江苏

来自Android客户端7楼2025-08-19 19:34

收起回复

第十轮测试即将结束

IP属地:江苏

来自手机贴吧8楼2025-08-20 11:39

不感兴趣

开通SVIP免广告

顶一下

IP属地:江苏

来自手机贴吧9楼2025-08-20 12:24

测试数据整理好了，大家可以期待一下

IP属地:江苏

来自手机贴吧10楼2025-08-21 22:29

扫二维码下载贴吧客户端

下载贴吧APP
看高清直播、视频！

贴吧热议榜

16回复贴，共1页

<返回deepseek吧

发表回复

发贴请遵守贴吧协议及“七条底线”贴吧投诉

内容:

使用签名档查看全部

发表

保存至快速回贴