deepseek吧 关注:136,326贴子:377,747
  • 16回复贴,共1

『预热&征集帖』

只看楼主收藏回复

经历了五,六天的,国产ai深度测评也已经完成一半了ヽ(✿゚▽゚)ノ剩下的是:
1.逻辑&数学推理
2.多体裁写作质量(议论,说明,叙事,营销文,诗歌,十四行诗,绯句)
3.多轮对话&记忆一致性
4.长上下文能力测评
5.效率&成本测评
希望大家能多出一出题目,为这个深度测试献出自己的一份力量ヽ(✿゚▽゚)ノ


IP属地:江苏来自手机贴吧1楼2025-08-19 15:05回复
    公告楼


    IP属地:江苏来自手机贴吧2楼2025-08-19 15:05
    收起回复
      2026-01-18 19:29:33
      广告
      不感兴趣
      开通SVIP免广告
      目前已经测试了:
      1.指令遵从与结构控制
      2.事实性&幻觉控制测试
      3.中文知识(多学科客观题)&阅读理解
      4.中英双语翻译
      5.代码生成与修错(编程相关)


      IP属地:江苏来自手机贴吧3楼2025-08-19 15:07
      回复
        国产ai深度测评,楼主说的是哪个ai,给上一代有什么区别?


        IP属地:河南4楼2025-08-19 15:37
        收起回复
          数学和逻辑推理部分即将测试完成


          IP属地:江苏来自手机贴吧5楼2025-08-19 18:06
          回复
            minimax m1这个模型是真的抽象,测试成绩还不如之前的模型,过度思考比deepseek还严重,同样的问题,deepseek思考400多秒就可以回答问题了,它思考了900多秒一个字都没说出来就被中断思索了(非用户中止)


            IP属地:江苏来自手机贴吧6楼2025-08-19 19:31
            回复
              难以想象这两个都是2025年的模型



              IP属地:江苏来自Android客户端7楼2025-08-19 19:34
              收起回复
                第十轮测试即将结束


                IP属地:江苏来自手机贴吧8楼2025-08-20 11:39
                回复
                  2026-01-18 19:23:33
                  广告
                  不感兴趣
                  开通SVIP免广告
                  顶一下


                  IP属地:江苏来自手机贴吧9楼2025-08-20 12:24
                  回复
                    测试数据整理好了,大家可以期待一下


                    IP属地:江苏来自手机贴吧10楼2025-08-21 22:29
                    回复