准备评测一下主流的模型，大伙有兴趣么【deepseek吧】

02月08日漏签0天

deepseek吧关注：136,775贴子：383,318

1 2 下一页尾页
24回复贴，共2页
，跳到页

<返回deepseek吧

准备评测一下主流的模型，大伙有兴趣么

取消只看楼主收藏回复

包括deepseek r1的各个版本，顶级模型包括gpt,claude,gemini，Llama3.3,以及通义千问2.5和豆包新出的有意思的模型。

送TA礼物

IP属地:陕西

来自Android客户端1楼2025-02-16 09:45回复

首先是参赛者介绍。

IP属地:陕西

2楼2025-02-16 09:52

不感兴趣

开通SVIP免广告

deepseek系列全员，大伙很熟悉了，就不介绍了。

IP属地:陕西

3楼2025-02-16 09:52

顶级AI组：
gpt o3，代表gpt出战的顶级模型。
claude-3-5-sonnet，代表Anthropic出战的顶级模型
gemini-2.0-pro，代表谷歌出战的顶级模型
这几个模型理应全方位的强，对标deepseekr1 满血版。

IP属地:陕西

5楼2025-02-16 09:57

收起回复

视觉组：
视觉模型除了gpt和claude这种顶级模型之外，都被国内卷完了。
下面两个是目前最顶的视觉理解模型。
Doubao-vision-pro　豆包家的视觉理解模型
qwen-vl-max-latest　　通义千问家的视觉理解模型
前面这两个是互相对标的，有视觉功能，语言能力还很强，对标deepseekv3
qwen2.5-vl-72b　　通义千问家的，视觉理解能力强，语言能力可能会弱一点。
但是我们只测语言能力

IP属地:陕西

来自Android客户端7楼2025-02-16 10:16

特色组
Doubao-1.5-lite 便宜到离谱的轻量化模型。
大概什么概念呢，每M的token，v3的api是输入两元，输出8元，以便宜著称。
而这个模型输入3毛，输出6毛，号称和GPT-4omini对标
Llama-3.3-70B-Instruct，70B对标gpt4的模型，说是很厉害其实我也没试过，待会儿测一下。

GPT-4omini到时候拉进来一起测，对标Doubao-1.5-lite
我没有gpt4的api,就拿deepseek 70B和Llama-3.3-70B-Instruct对比。

IP属地:陕西

8楼2025-02-16 10:19

从预期能力从高到低如下：
T0顶尖模型组：
gpt o3;
claude-3-5-sonnet;
gemini-2.0-pro;
deepseek-r1;
T1通用模型组：
deepseekv3;
Doubao-vision-pro;
qwen-vl-max-latest;
T2超级迷你模型组：
Doubao-1.5-lite
GPT-4omini
T?组，实力不详有待定位：
Llama-3.3-70B-Instruct;
deepseek-70B；（以上两个对标）
GPT-4omini；
deepseek1.5B到32B；
qwen2.5-vl-72b；

IP属地:陕西

11楼2025-02-16 10:31

收起回复

目前参赛选手就选这些了，先吃饭去闲了再更。

IP属地:陕西

12楼2025-02-16 10:32

不感兴趣

开通SVIP免广告

gpto1也忒贵了，每百万字523块。比豆包贵了872倍。

作为惩罚，别的模型打错了，可以多打几次看正确率，但是4o答错直接扣分

IP属地:陕西

来自Android客户端15楼2025-02-16 10:58

第一题：
strawberry的拼写里有几个r。
第一题先给AI们上个强度，许多模型都会有两个r的幻觉，而且有的模型特别犟，怎么都说不懂。

IP属地:陕西

17楼2025-02-16 11:07

strawberry的拼写里有几个r。
**直接答对的有：
gpt o1;
deepseek-r1;
deepseek-v3;
deepseek-14B;
deepseek-1.5B;
**刷新之后能答对的有：
deepseek-70B
deepseek-32B
deepseek-8B
其他的都死不悔改
有些出人意料，deepseek太猛了。
除了deepseek-7B死不悔改，deepseek-1.5B竟然一次答对。
真不愧是带思维链的推理模型啊。
claude-sonnet和gemini-2.0-pro两个顶级模型竟然错了而且死不悔改，但是claude-sonnet是能答对的。

IP属地:陕西

18楼2025-02-16 11:16

收起回复

第二题，请写出以篮球结尾的十个句子。

IP属地:陕西

19楼2025-02-16 11:18

每道题10分，句子通畅且有篮球得5分，篮球在结尾的再得5分，满分一百：
满分选手：
gpt-o1;
Claude 3.5 Sonnet;
deepseek-r1;
50-100分选手（都有篮球，但是有的没放最后）：
gemini-2.0-pro，95分
deepseek-v3，95分
gpt-4o-mini，85分
Llama-3.3-70B，80分
deepseek-70B，80分
qwen-vl-max-latest，60分
50分选手（都有篮球，位置全放错了）：
Doubao-1.5-lite;
deepseek32B,14B,1.5B;
0-50分（有的句子有问题或没有篮球）：
deepseek-7B，8B；
0分：
Doubao-vision-pro，写了篇散文。

IP属地:陕西

21楼2025-02-16 11:36

第二题总结：
顶尖组，谷歌没拿满分丢人了，但是分也不低。
两个70B模型战况焦灼。
两个视觉模型，豆包被千问薄纱，豆包的遵循指令能力不太行啊。
deepseek1.5继续上大分，作为一个1G的超迷你模型，分数现在高得离谱。
Doubao-1.5-lite想和gpt-4o-mini对标，但是分数差了点，不过也不错了。

IP属地:陕西

来自Android客户端23楼2025-02-16 11:43

不感兴趣

开通SVIP免广告

第三题：
过年时贴福字，要倒着贴寓意着着福到了。为什么工厂没有直接生产倒着的福字呢？
这一题是超级压力组，大概率是全军覆没，只有o1有一点可能能做对。这一题给顶尖组上点区分度。

IP属地:陕西

24楼2025-02-16 11:50

收起回复

扫二维码下载贴吧客户端

下载贴吧APP
看高清直播、视频！

贴吧热议榜

1 2 下一页尾页
24回复贴，共2页
，跳到页

<返回deepseek吧

发表回复

发贴请遵守贴吧协议及“七条底线”贴吧投诉

内容:

使用签名档查看全部

发表

保存至快速回贴

日	一	二	三	四	五	六

准备评测一下主流的模型，大伙有兴趣么

登录百度账号

扫二维码下载贴吧客户端