准备评测一下主流的模型，大伙有兴趣么【deepseek吧】

02月08日漏签0天

deepseek吧关注：136,773贴子：383,294

1 2 3 下一页尾页
56回复贴，共3页
，跳到页

<返回deepseek吧

准备评测一下主流的模型，大伙有兴趣么

只看楼主收藏回复

包括deepseek r1的各个版本，顶级模型包括gpt,claude,gemini，Llama3.3,以及通义千问2.5和豆包新出的有意思的模型。

送TA礼物

IP属地:陕西

来自Android客户端1楼2025-02-16 09:45回复

首先是参赛者介绍。

IP属地:陕西

2楼2025-02-16 09:52

不感兴趣

开通SVIP免广告

deepseek系列全员，大伙很熟悉了，就不介绍了。

IP属地:陕西

3楼2025-02-16 09:52

哟直播

IP属地:陕西

来自iPhone客户端4楼2025-02-16 09:53

收起回复

顶级AI组：
gpt o3，代表gpt出战的顶级模型。
claude-3-5-sonnet，代表Anthropic出战的顶级模型
gemini-2.0-pro，代表谷歌出战的顶级模型
这几个模型理应全方位的强，对标deepseekr1 满血版。

IP属地:陕西

5楼2025-02-16 09:57

收起回复

视觉组：
视觉模型除了gpt和claude这种顶级模型之外，都被国内卷完了。
下面两个是目前最顶的视觉理解模型。
Doubao-vision-pro　豆包家的视觉理解模型
qwen-vl-max-latest　　通义千问家的视觉理解模型
前面这两个是互相对标的，有视觉功能，语言能力还很强，对标deepseekv3
qwen2.5-vl-72b　　通义千问家的，视觉理解能力强，语言能力可能会弱一点。
但是我们只测语言能力

IP属地:陕西

来自Android客户端7楼2025-02-16 10:16

特色组
Doubao-1.5-lite 便宜到离谱的轻量化模型。
大概什么概念呢，每M的token，v3的api是输入两元，输出8元，以便宜著称。
而这个模型输入3毛，输出6毛，号称和GPT-4omini对标
Llama-3.3-70B-Instruct，70B对标gpt4的模型，说是很厉害其实我也没试过，待会儿测一下。

GPT-4omini到时候拉进来一起测，对标Doubao-1.5-lite
我没有gpt4的api,就拿deepseek 70B和Llama-3.3-70B-Instruct对比。

IP属地:陕西

8楼2025-02-16 10:19

从预期能力从高到低如下：
T0顶尖模型组：
gpt o3;
claude-3-5-sonnet;
gemini-2.0-pro;
deepseek-r1;
T1通用模型组：
deepseekv3;
Doubao-vision-pro;
qwen-vl-max-latest;
T2超级迷你模型组：
Doubao-1.5-lite
GPT-4omini
T?组，实力不详有待定位：
Llama-3.3-70B-Instruct;
deepseek-70B；（以上两个对标）
GPT-4omini；
deepseek1.5B到32B；
qwen2.5-vl-72b；

IP属地:陕西

11楼2025-02-16 10:31

收起回复

不感兴趣

开通SVIP免广告

目前参赛选手就选这些了，先吃饭去闲了再更。

IP属地:陕西

12楼2025-02-16 10:32

顶

IP属地:江苏

来自Android客户端14楼2025-02-16 10:57

gpto1也忒贵了，每百万字523块。比豆包贵了872倍。

作为惩罚，别的模型打错了，可以多打几次看正确率，但是4o答错直接扣分

IP属地:陕西

来自Android客户端15楼2025-02-16 10:58

顶

IP属地:贵州

来自Android客户端16楼2025-02-16 10:58

第一题：
strawberry的拼写里有几个r。
第一题先给AI们上个强度，许多模型都会有两个r的幻觉，而且有的模型特别犟，怎么都说不懂。

IP属地:陕西

17楼2025-02-16 11:07

strawberry的拼写里有几个r。
**直接答对的有：
gpt o1;
deepseek-r1;
deepseek-v3;
deepseek-14B;
deepseek-1.5B;
**刷新之后能答对的有：
deepseek-70B
deepseek-32B
deepseek-8B
其他的都死不悔改
有些出人意料，deepseek太猛了。
除了deepseek-7B死不悔改，deepseek-1.5B竟然一次答对。
真不愧是带思维链的推理模型啊。
claude-sonnet和gemini-2.0-pro两个顶级模型竟然错了而且死不悔改，但是claude-sonnet是能答对的。

IP属地:陕西

18楼2025-02-16 11:16

收起回复

不感兴趣

开通SVIP免广告

第二题，请写出以篮球结尾的十个句子。

IP属地:陕西

19楼2025-02-16 11:18

扫二维码下载贴吧客户端

下载贴吧APP
看高清直播、视频！

贴吧热议榜

1 2 3 下一页尾页
56回复贴，共3页
，跳到页

<返回deepseek吧

发表回复

发贴请遵守贴吧协议及“七条底线”贴吧投诉

内容:

使用签名档查看全部

发表

保存至快速回贴

日	一	二	三	四	五	六

准备评测一下主流的模型，大伙有兴趣么

登录百度账号

扫二维码下载贴吧客户端