deepseek吧 关注:136,771贴子:383,642

各家模型做考研英语一成绩如何

只看楼主收藏回复

听说今年考研英语特别难,何凯文考了89结果是P图。
我计划使用不同的LLM大语言模型,对考研英语一进行一次测试,看看大家能考多少分
话说楼主当年是考了60多的,虽然比较久远了,我可是英语渣。
但考研老师却只有7,80么,来看看是他们水平不行还是题真的难,以及LLM模型能不能代替英语老师。


IP属地:陕西1楼2025-03-08 08:48回复
    参与人员:
    gpt o3mini;
    gemini 2.0 pro;
    gemini flash thinking ;
    claude 3.7;
    grok 3;
    qaq 32B;
    deepseek r1;
    deep gemini flash;
    这几个都是平常用下来非常喜欢的模型


    IP属地:陕西2楼2025-03-08 08:49
    收起回复
      2026-02-08 00:05:07
      广告
      不感兴趣
      开通SVIP免广告
      只能找到图片版的题目,但是没有关系,doubao 1.5pro 和qwen vl 72B 已经帮我把图片转成文字了。
      这俩实际用下来是有点傻的说实话,但是作为OCR是真好用。


      IP属地:陕西来自Android客户端3楼2025-03-08 08:49
      回复

        所有模型答案全部一致,12-16错了五个,全部7.5分,让我怀疑标准答案是不是错了。


        IP属地:陕西4楼2025-03-08 09:03
        回复
          我再去求证一下,标准答案有没有问题


          IP属地:陕西5楼2025-03-08 09:03
          回复
            艹,果然答案有问题,考我眼里见呢?


            IP属地:陕西6楼2025-03-08 09:12
            回复
              完形填空所有模型全对,这就没意思了
              再加一个豆包1.5lite出战,豆包错一个,9.5分,其他全部满昏


              IP属地:陕西7楼2025-03-08 09:16
              回复
                第一个阅读,全对,连豆包都对了。llm真的太擅长英语了


                IP属地:陕西9楼2025-03-08 09:26
                收起回复
                  2026-02-07 23:59:07
                  广告
                  不感兴趣
                  开通SVIP免广告
                  下面呢下面呢lz快更


                  IP属地:江苏来自Android客户端10楼2025-03-08 09:48
                  收起回复
                    下一题有意思了,28题所有模型都给出了一致的回答,但与标准答案不一样。
                    我把标准答案发给模型,模型分析的有理有据,并认为标准答案有问题。
                    所以正确答案到底是什么,现在很有争议。


                    IP属地:陕西来自Android客户端11楼2025-03-08 10:08
                    收起回复
                      只能说不愧是英语一,真tm蛋疼。


                      IP属地:陕西来自Android客户端12楼2025-03-08 10:08
                      回复

                        所以这里给两个版本分吧。
                        楼主版所有模型满分
                        标准答案版都扣2分


                        IP属地:陕西13楼2025-03-08 10:12
                        回复
                          31-35,又是全员答对。
                          llm模型做英语题已经不是正确率的问题了,感觉已经是能给标准答案挑错的问题了


                          IP属地:陕西14楼2025-03-08 10:19
                          回复
                            37标准答案是B
                            grok3,o3mini,Gemini 2.0 Flash Thinking ,37题选了A。
                            qaq32B,deepseek-r1,deepgeminiflash,Doubao,37题选了D。
                            claude 3.7,Gemini 2.0 pro,只有这俩选对了。
                            38题标准答案B
                            claude 3.7,qaq32B,deepgeminiflash选了A。
                            em,很难评价,这题看来压轴的阅读要有区分度了。我先求证一下标准答案,这个标准答案还不一定对呢。


                            IP属地:陕西15楼2025-03-08 10:37
                            收起回复
                              2026-02-07 23:53:07
                              广告
                              不感兴趣
                              开通SVIP免广告
                              这题也太难了,兄弟们,deepseekr1和gemini讨论了半天没出结果,还是没有统一意见。


                              IP属地:陕西来自Android客户端16楼2025-03-08 10:52
                              回复