deepseek吧 关注:136,775贴子:383,295

回复:各家模型做考研英语一成绩如何

只看楼主收藏回复

个人感觉,标准答案应该没有问题
那么,
Gemini 2.0 pro满分
qaq32B 扣4分,得6分
其他扣两分,得8分


IP属地:陕西18楼2025-03-08 11:02
回复
    阅读题完了,下来是排序题全对。so,easy。
    刚开始题有问题,给模型整蒙了错了一大片。后来纠正之后,全都你答对。
    目前最差的情况也只能给他扣六分。
    按照楼主版标准,gemini还是满分,超越作弊版何凯文指日可待。


    IP属地:陕西19楼2025-03-08 11:23
    回复
      2026-02-08 05:05:15
      广告
      不感兴趣
      开通SVIP免广告
      下一题,翻译题
      翻译题基本没有啥大问题,主要就是考研更注重准确,而模型喜欢意译。
      o3mini这个问题很严重,基本上都是大意符合,细节改动很多。
      46,o3mini -1分
      47题,grok3,o3-mini,deepgeminiflash把utilizing翻译成激发,过于意译,扣一分
      48题,都很好,甚至比答案翻译的好很多
      49题,都没啥大问题
      50题,grok3 能翻译出跳出框框思考这种词,-1分。


      IP属地:陕西20楼2025-03-08 12:05
      回复
        好贴,收藏了


        IP属地:四川来自iPhone客户端21楼2025-03-08 12:09
        回复
          考研老师要失业了


          IP属地:江苏来自Android客户端22楼2025-03-08 12:16
          回复
            让它们做一下高考语文


            IP属地:山东23楼2025-03-08 13:20
            收起回复


              人工队被薄纱


              IP属地:陕西26楼2025-03-08 14:47
              收起回复

                总分


                IP属地:陕西27楼2025-03-08 14:48
                收起回复
                  2026-02-08 04:59:15
                  广告
                  不感兴趣
                  开通SVIP免广告
                  总结
                  Gemini 2.0 Pro不愧是之前评测的文科之王,客观题全对,主观题分超高。
                  deepseek-r1大作文开始随便发挥,幻觉太严重不够扣题导致扣分较多
                  doubao1.5 lite 作为超便宜的小模型,分数直逼何凯文相当不错。
                  qwq 32B说超越r1,但还有点距离。
                  标准答案得分88.5,实际上应该更高,但是模型写的作文太好了,导致标准答案作文分数被狂扣。
                  所以总的来说整体分数应该更高,因为标准答案的作文应该是接近满分的,其他模型写的分数也会更高。


                  IP属地:陕西28楼2025-03-08 14:54
                  收起回复
                    求题干,我也想试试


                    IP属地:浙江29楼2025-03-08 15:56
                    收起回复
                      考虑到ai思路十分清晰,考研老师感觉可以下岗一批了。
                      英语方面,ai对人类简直就是虐杀,没有母语水平就不用来和ai比的。


                      IP属地:陕西来自Android客户端30楼2025-03-08 17:54
                      收起回复
                        老师是系统性的教学,ai现在更多的是课后辅导,特别是考研这种。如果说英语,那么单词还是得自己背,阅读理解本身市面上的答案就已经有翻译和思路了,作文没人教的话自己很难写的,大部分都是套套模板。现在有ai最好的就是自己写了作文可以帮忙修改,知道怎么提高,以前的话,考研老师也不太可能一对一给你指导


                        IP属地:广西来自Android客户端31楼2025-03-08 18:05
                        收起回复
                          3


                          IP属地:广东来自Android客户端32楼2025-03-08 18:27
                          回复
                            都是高手,90多分


                            IP属地:江苏来自Android客户端33楼2025-03-08 23:40
                            回复
                              2026-02-08 04:53:15
                              广告
                              不感兴趣
                              开通SVIP免广告
                              gpt为啥派最拉的模型出战?我觉得既然都是最先进的,那就应该gpt4.5来,或者至少o1吧


                              IP属地:湖北来自iPhone客户端34楼2025-03-09 03:16
                              收起回复