【图片】回复：市面上具有代表性的22款模型深度测评【deepseek吧】

02月07日漏签0天

deepseek吧关注：136,770贴子：383,280

首页上一页 1 2 3 4 5 6 7 8 下一页尾页
225回复贴，共8页
，跳到页

<返回deepseek吧

回复：市面上具有代表性的22款模型深度测评

只看楼主收藏回复

我自己部署ds 70b的版本，速度15t/s ，一直在用，主要图它稳定，不会卡，楼主觉得70b和满血版的差别有多大？

IP属地:广东

来自Android客户端64楼2025-02-20 13:12

搁比比汗丽丽高低给你一键三连

IP属地:广西

65楼2025-02-20 18:05

收起回复

不感兴趣

开通SVIP免广告

好帖，支持

IP属地:广东

来自Android客户端66楼2025-02-21 01:01

deepseek在数学物理逻辑推理上确实很强，但仍存在一些瓶颈，我尝试提问过一些在场论中最简单的路径积分问题，他能够给出正确的思路，但是却无法精准的完成逐步计算的过程，并且不能一次性成功给出我所要求的mathematica代码。（但是比GPT还是强很多的）
并附上原问题：
已知空间中存在一个一维自由粒子,我需要使用路径积分法计算出它的传播子,请给出详细的积分过程并帮我写出一段mathematica代码来计算验证这个结果,具体积分式子以LaTeX格式给出:U(q_f,q_i;t)=\lim_{N\to\infty}\left(\frac{mN}{2\pi it}\right)^{N/2}\int\prod_{k=1}^{N-1}\d q_k\exp\left\{i\frac{m}{2\epsilon}\sum_{k=1}^N(q_k-q_{k-1})^2\right\}

IP属地:吉林

来自Android客户端67楼2025-02-21 04:10

收起回复

再来一个附加题测试最强的编程能力。

IP属地:陕西

来自Android客户端68楼2025-02-21 08:05

这一轮的规则是这样的。我把要写的程序告诉ai，不满意的地方我会让他一直修改，直到我满意或者对话太长，或者他修改不动了为止，模拟用ai编程的真实情况，综合来看整体体验如何。

IP属地:陕西

来自Android客户端69楼2025-02-21 08:22

IP属地:江西

来自iPhone客户端70楼2025-02-21 08:23

请你实现一个界面精美、功能完善的单文件俄罗斯方块网页程序，我们需要在400行代码的规模内尽可能还原现代俄罗斯方块的体验。以下是一些关键点：
控制方法：
空格：硬降
Z：逆旋转
上键：顺旋转
下键：软降到底
X：180度旋转
C：暂存
R：重开
DAS 和 ARR：
DAS（Delayed Auto-Shift）设置为100ms
提供ARR（Auto-Repeat Rate）设置为0的选项，以便用极简操作游玩
功能特性：
下落预览
Bag7出块（确保7个方块在一个“袋子”中随机出现）
6个预览
旋转系统：
虽然简化，但要考虑极简操作的兼容性。
这是题目

IP属地:陕西

71楼2025-02-21 08:24

不感兴趣

开通SVIP免广告

作为现代块老玩家，对俄罗斯方块的熟悉程度可以说是非常敏感了，一点点不对就会大幅影响我的成绩，让AI写这个程序，然后我按照我的手感来打分。还是满分5分。

IP属地:陕西

72楼2025-02-21 08:26

o3mini非常强，虽然手感怪怪的，但是基本符合要求。距离本人的记录差了17秒，但非常了不起了，基本上极简操作全都能匹配上，一般的简陋俄罗斯方块我是断然进不了一分钟的。

IP属地:陕西

73楼2025-02-21 08:43

收起回复

Deep seek还没测完，但是明显比不上o3-mini，现在希望他能输出一个勉强能玩的就行了。看来代码能力还是得这样去测试。

IP属地:陕西

来自Android客户端74楼2025-02-21 09:02

deepseek生成的很慢还没改完，我先大概说一下感觉。
前几版我都感觉要凉了，完全运行不起来。后面改着改着还好，现在有希望能达o3-mini差不多的程度了，但是真的慢

IP属地:陕西

来自Android客户端75楼2025-02-21 10:02

最大的感受是他的知识面还是没有o3广，俄罗斯方块现代化算是个比较小众的领域，o3理解方块初始位置，das和arr大概念，极简操作的原理，以及如何简化旋转系统同时兼容极简操作，这些东西都没有让我解释太多。但是deepseek需要我一个一个给他解释清楚，很多细节他都不知道，所以改了半天最终版还没出来。

IP属地:陕西

来自Android客户端76楼2025-02-21 10:04

收起回复

说一个暴论： Deepseek其实并不聪明，只是他通过极其强大的推理能力掩饰了这一点，用时间换智商。
就像人类一样，人类写个10来行代码，就大概率能报错，但是靠堆时间也可以创造出复杂的软件。
但是人类再怎么对时间也提升不了文笔，也就导致它在生成文章的时候远不如其他模型。

IP属地:陕西

来自Android客户端77楼2025-02-21 10:07

不感兴趣

开通SVIP免广告

这也解释了，为什么r1的1.5b连话都说不清，却能算牛顿迭代。因为逻辑能力是可以靠时间堆起来的，但语言能力不行。

IP属地:陕西

来自Android客户端78楼2025-02-21 10:13

扫二维码下载贴吧客户端

下载贴吧APP
看高清直播、视频！

贴吧热议榜

首页上一页 3 4 5 6 7 8 下一页尾页
225回复贴，共8页
，跳到页

<返回deepseek吧

发表回复

发贴请遵守贴吧协议及“七条底线”贴吧投诉

内容:

使用签名档查看全部

发表

保存至快速回贴

日	一	二	三	四	五	六

回复：市面上具有代表性的22款模型深度测评

登录百度账号

扫二维码下载贴吧客户端