【图片】各家模型做考研英语一成绩如何【deepseek吧】

02月08日漏签0天

deepseek吧关注：136,771贴子：383,642

1 2 3 4 下一页尾页
105回复贴，共4页
，跳到页

<返回deepseek吧

各家模型做考研英语一成绩如何

只看楼主收藏回复

听说今年考研英语特别难，何凯文考了89结果是P图。
我计划使用不同的LLM大语言模型，对考研英语一进行一次测试，看看大家能考多少分

。
话说楼主当年是考了60多的，虽然比较久远了，我可是英语渣。
但考研老师却只有7，80么，来看看是他们水平不行还是题真的难，以及LLM模型能不能代替英语老师。

送TA礼物

IP属地:陕西

1楼2025-03-08 08:48回复

参与人员：
gpt o3mini;
gemini 2.0 pro;
gemini flash thinking ;
claude 3.7;
grok 3；
qaq 32B；
deepseek r1;
deep gemini flash；
这几个都是平常用下来非常喜欢的模型

IP属地:陕西

2楼2025-03-08 08:49

收起回复

不感兴趣

开通SVIP免广告

只能找到图片版的题目，但是没有关系，doubao 1.5pro 和qwen vl 72B 已经帮我把图片转成文字了。
这俩实际用下来是有点傻的说实话，但是作为OCR是真好用。

IP属地:陕西

来自Android客户端3楼2025-03-08 08:49

所有模型答案全部一致，12-16错了五个，全部7.5分，让我怀疑标准答案是不是错了。

IP属地:陕西

4楼2025-03-08 09:03

我再去求证一下，标准答案有没有问题

IP属地:陕西

5楼2025-03-08 09:03

艹，果然答案有问题，考我眼里见呢？

IP属地:陕西

6楼2025-03-08 09:12

完形填空所有模型全对，这就没意思了

再加一个豆包1.5lite出战，豆包错一个，9.5分，其他全部满昏

IP属地:陕西

7楼2025-03-08 09:16

第一个阅读，全对，连豆包都对了。llm真的太擅长英语了

IP属地:陕西

9楼2025-03-08 09:26

收起回复

不感兴趣

开通SVIP免广告

下面呢下面呢

lz快更

IP属地:江苏

来自Android客户端10楼2025-03-08 09:48

收起回复

下一题有意思了，28题所有模型都给出了一致的回答，但与标准答案不一样。
我把标准答案发给模型，模型分析的有理有据，并认为标准答案有问题。
所以正确答案到底是什么，现在很有争议。

IP属地:陕西

来自Android客户端11楼2025-03-08 10:08

收起回复

只能说不愧是英语一，真tm蛋疼。

IP属地:陕西

来自Android客户端12楼2025-03-08 10:08

所以这里给两个版本分吧。
楼主版所有模型满分
标准答案版都扣2分

IP属地:陕西

13楼2025-03-08 10:12

31-35，又是全员答对。
llm模型做英语题已经不是正确率的问题了，感觉已经是能给标准答案挑错的问题了

IP属地:陕西

14楼2025-03-08 10:19

37标准答案是B
grok3，o3mini，Gemini 2.0 Flash Thinking ，37题选了A。
qaq32B，deepseek-r1，deepgeminiflash，Doubao，37题选了D。
claude 3.7,Gemini 2.0 pro，只有这俩选对了。
38题标准答案B
claude 3.7，qaq32B，deepgeminiflash选了A。
em，很难评价，这题看来压轴的阅读要有区分度了。我先求证一下标准答案，这个标准答案还不一定对呢。

IP属地:陕西

15楼2025-03-08 10:37

收起回复

不感兴趣

开通SVIP免广告

这题也太难了，兄弟们，deepseekr1和gemini讨论了半天没出结果，还是没有统一意见。

IP属地:陕西

来自Android客户端16楼2025-03-08 10:52

扫二维码下载贴吧客户端

下载贴吧APP
看高清直播、视频！

贴吧热议榜

1 2 3 4 下一页尾页
105回复贴，共4页
，跳到页

<返回deepseek吧

发表回复

发贴请遵守贴吧协议及“七条底线”贴吧投诉

内容:

使用签名档查看全部

发表

保存至快速回贴

日	一	二	三	四	五	六

各家模型做考研英语一成绩如何

登录百度账号

扫二维码下载贴吧客户端