【图片】回复：市面上具有代表性的22款模型深度测评【deepseek吧】

02月08日漏签0天

deepseek吧关注：136,775贴子：383,295

首页上一页 1 2 3 4 5 6 7 8 下一页尾页
225回复贴，共8页
，跳到页

<返回deepseek吧

回复：市面上具有代表性的22款模型深度测评

只看楼主收藏回复

大佬厉害的

IP属地:广西

来自iPhone客户端34楼2025-02-19 19:54

这题也看个乐子，脑筋急转弯，人都不一定能答对。
不过也能看出来，deepseek r1的推理能力真强，70B模型都可以猜到

IP属地:陕西

35楼2025-02-19 20:59

收起回复

不感兴趣

开通SVIP免广告

数学推理能力测试。
这一题o1消耗了我6美元的token，结果啥都没输出。我还专门充值了一个网站按回答次数收费，然后o1还是答不出来。服了。
claude计算精度比较差了，应该是因为模型很久没出新的了。
deepseek计算精度非常在线。
豆包计算精度也很高。

IP属地:陕西

36楼2025-02-19 21:02

上一题要用牛顿迭代法做，大家做的都还可。
豆包感觉对这种问题蛮擅长的，加上豆包的视觉模型很强，可以平替小猿搜题了，初高中题给你整的明明白白

IP属地:陕西

37楼2025-02-19 21:04

收起回复

本来想出个简单题，别太难为轻量级模型了，结果没想到，现在模型这么强，全答对了。

IP属地:陕西

38楼2025-02-19 21:06

收起回复

1.5B模型能算请牛顿迭代法，就很逆天。要知道这玩意儿话都说不清，让他生成文章给我一堆乱码，结果数学题做的贼6。
deepseek系列严重偏科啊。

IP属地:陕西

39楼2025-02-19 21:07

deepseek-r1-1.5B，我愿称之为模型界的边牧。
智商在线，但不会说话。写文章写出来一堆乱码，但是写数学能算清牛顿迭代法，我真是服了。
不过边牧到底不是人，智商虽然可以，也是和狗比的，没什么实用价值。

IP属地:陕西

40楼2025-02-19 21:10

这题测试知识储备的。
又到了deepseek 1.5B的高光时刻了，话都说不清，硬是推导出了科里奥利力的存在，十分逆天。

IP属地:陕西

41楼2025-02-19 21:12

收起回复

不感兴趣

开通SVIP免广告

这题评价麻烦的要死，直接给分吧。
deepseek-r1的高光时刻，效果断崖式领先，不愧是推理模型

IP属地:陕西

42楼2025-02-19 21:15

作诗题

IP属地:陕西

43楼2025-02-19 21:29

我这文学素养一般，看着差不多就给满分了。分数不满都是明显有缺点的，大家自己看吧

IP属地:陕西

44楼2025-02-19 21:31

收起回复

写作题deepseek是真的不擅长，非常爱脑补，幻觉很严重。gemini对这种题就非常擅长。

IP属地:陕西

45楼2025-02-19 21:32

收起回复

个人认为Gemini是文章写的最好的，你看这写的，看着内容很充实，结合题目一看确实啥都没干，不会给你瞎编写有的没的凑数。

IP属地:陕西

46楼2025-02-19 21:36

收起回复

这题的评测是真费劲，翻译最强的也是Gemini，deepseek也很擅长翻译，推理模型会去思考用什么单词合适。
评分我是用旗舰组的AI看了选手的翻译和我的评分标准之后，让他们相互讨论出来，本人的英语水平实在有限
以下是Gemini的翻译

IP属地:陕西

47楼2025-02-19 21:49

不感兴趣

开通SVIP免广告

这么一看ds偏科严重

不过1.5B这么离谱的吗，我之前用了一下这些蒸馏模型，一直到32B才能勉强把话说利索

IP属地:湖南

来自Android客户端48楼2025-02-19 23:56

收起回复

扫二维码下载贴吧客户端

下载贴吧APP
看高清直播、视频！

贴吧热议榜

首页上一页 1 2 3 4 5 6 下一页尾页
225回复贴，共8页
，跳到页

<返回deepseek吧

发表回复

发贴请遵守贴吧协议及“七条底线”贴吧投诉

内容:

使用签名档查看全部

发表

保存至快速回贴

日	一	二	三	四	五	六

回复：市面上具有代表性的22款模型深度测评

登录百度账号

扫二维码下载贴吧客户端