deepseek吧 关注:136,327贴子:378,182
  • 8回复贴,共1

『预热&征集帖』

取消只看楼主收藏回复

经历了五,六天的,国产ai深度测评也已经完成一半了ヽ(✿゚▽゚)ノ剩下的是:
1.逻辑&数学推理
2.多体裁写作质量(议论,说明,叙事,营销文,诗歌,十四行诗,绯句)
3.多轮对话&记忆一致性
4.长上下文能力测评
5.效率&成本测评
希望大家能多出一出题目,为这个深度测试献出自己的一份力量ヽ(✿゚▽゚)ノ


IP属地:江苏来自手机贴吧1楼2025-08-19 15:05回复
    公告楼


    IP属地:江苏来自手机贴吧2楼2025-08-19 15:05
    收起回复
      2026-01-19 02:04:43
      广告
      不感兴趣
      开通SVIP免广告
      目前已经测试了:
      1.指令遵从与结构控制
      2.事实性&幻觉控制测试
      3.中文知识(多学科客观题)&阅读理解
      4.中英双语翻译
      5.代码生成与修错(编程相关)


      IP属地:江苏来自手机贴吧3楼2025-08-19 15:07
      回复
        数学和逻辑推理部分即将测试完成


        IP属地:江苏来自手机贴吧5楼2025-08-19 18:06
        回复
          minimax m1这个模型是真的抽象,测试成绩还不如之前的模型,过度思考比deepseek还严重,同样的问题,deepseek思考400多秒就可以回答问题了,它思考了900多秒一个字都没说出来就被中断思索了(非用户中止)


          IP属地:江苏来自手机贴吧6楼2025-08-19 19:31
          回复
            难以想象这两个都是2025年的模型



            IP属地:江苏来自Android客户端7楼2025-08-19 19:34
            收起回复
              第十轮测试即将结束


              IP属地:江苏来自手机贴吧8楼2025-08-20 11:39
              回复
                顶一下


                IP属地:江苏来自手机贴吧9楼2025-08-20 12:24
                回复
                  2026-01-19 01:58:43
                  广告
                  不感兴趣
                  开通SVIP免广告
                  测试数据整理好了,大家可以期待一下


                  IP属地:江苏来自手机贴吧10楼2025-08-21 22:29
                  回复