deepseek吧 关注:136,770贴子:383,280

回复:市面上具有代表性的22款模型深度测评

只看楼主收藏回复

我自己部署ds 70b的版本,速度15t/s ,一直在用,主要图它稳定,不会卡,楼主觉得70b和满血版的差别有多大?


IP属地:广东来自Android客户端64楼2025-02-20 13:12
回复
    搁比比汗丽丽高低给你一键三连


    IP属地:广西65楼2025-02-20 18:05
    收起回复
      2026-02-07 23:58:13
      广告
      不感兴趣
      开通SVIP免广告
      好帖,支持


      IP属地:广东来自Android客户端66楼2025-02-21 01:01
      回复
        deepseek在数学物理逻辑推理上确实很强,但仍存在一些瓶颈,我尝试提问过一些在场论中最简单的路径积分问题,他能够给出正确的思路,但是却无法精准的完成逐步计算的过程,并且不能一次性成功给出我所要求的mathematica代码。(但是比GPT还是强很多的)
        并附上原问题:
        已知空间中存在一个一维自由粒子,我需要使用路径积分法计算出它的传播子,请给出详细的积分过程并帮我写出一段mathematica代码来计算验证这个结果,具体积分式子以LaTeX格式给出:U(q_f,q_i;t)=\lim_{N\to\infty}\left(\frac{mN}{2\pi it}\right)^{N/2}\int\prod_{k=1}^{N-1}\d q_k\exp\left\{i\frac{m}{2\epsilon}\sum_{k=1}^N(q_k-q_{k-1})^2\right\}


        IP属地:吉林来自Android客户端67楼2025-02-21 04:10
        收起回复
          再来一个附加题测试最强的编程能力。


          IP属地:陕西来自Android客户端68楼2025-02-21 08:05
          回复
            这一轮的规则是这样的。我把要写的程序告诉ai,不满意的地方我会让他一直修改,直到我满意或者对话太长,或者他修改不动了为止,模拟用ai编程的真实情况,综合来看整体体验如何。


            IP属地:陕西来自Android客户端69楼2025-02-21 08:22
            回复


              IP属地:江西来自iPhone客户端70楼2025-02-21 08:23
              回复
                请你实现一个界面精美、功能完善的单文件俄罗斯方块网页程序,我们需要在400行代码的规模内尽可能还原现代俄罗斯方块的体验。以下是一些关键点:
                控制方法:
                空格:硬降
                Z:逆旋转
                上键:顺旋转
                下键:软降到底
                X:180度旋转
                C:暂存
                R:重开
                DAS 和 ARR:
                DAS(Delayed Auto-Shift)设置为100ms
                提供ARR(Auto-Repeat Rate)设置为0的选项,以便用极简操作游玩
                功能特性:
                下落预览
                Bag7出块(确保7个方块在一个“袋子”中随机出现)
                6个预览
                旋转系统:
                虽然简化,但要考虑极简操作的兼容性。
                这是题目


                IP属地:陕西71楼2025-02-21 08:24
                回复
                  2026-02-07 23:52:13
                  广告
                  不感兴趣
                  开通SVIP免广告

                  作为现代块老玩家,对俄罗斯方块的熟悉程度可以说是非常敏感了,一点点不对就会大幅影响我的成绩,让AI写这个程序,然后我按照我的手感来打分。还是满分5分。


                  IP属地:陕西72楼2025-02-21 08:26
                  回复

                    o3mini非常强,虽然手感怪怪的,但是基本符合要求。距离本人的记录差了17秒,但非常了不起了,基本上极简操作全都能匹配上,一般的简陋俄罗斯方块我是断然进不了一分钟的。


                    IP属地:陕西73楼2025-02-21 08:43
                    收起回复
                      Deep seek还没测完,但是明显比不上o3-mini,现在希望他能输出一个勉强能玩的就行了。看来代码能力还是得这样去测试。


                      IP属地:陕西来自Android客户端74楼2025-02-21 09:02
                      回复
                        deepseek生成的很慢还没改完,我先大概说一下感觉。
                        前几版我都感觉要凉了,完全运行不起来。后面改着改着还好,现在有希望能达o3-mini差不多的程度了,但是真的慢


                        IP属地:陕西来自Android客户端75楼2025-02-21 10:02
                        回复
                          最大的感受是他的知识面还是没有o3广,俄罗斯方块现代化算是个比较小众的领域,o3理解方块初始位置,das和arr大概念,极简操作的原理,以及如何简化旋转系统同时兼容极简操作,这些东西都没有让我解释太多。但是deepseek需要我一个一个给他解释清楚,很多细节他都不知道,所以改了半天最终版还没出来。


                          IP属地:陕西来自Android客户端76楼2025-02-21 10:04
                          收起回复
                            说一个暴论: Deepseek其实并不聪明,只是他通过极其强大的推理能力掩饰了这一点,用时间换智商。
                            就像人类一样,人类写个10来行代码,就大概率能报错,但是靠堆时间也可以创造出复杂的软件。
                            但是人类再怎么对时间也提升不了文笔,也就导致它在生成文章的时候远不如其他模型。


                            IP属地:陕西来自Android客户端77楼2025-02-21 10:07
                            回复
                              2026-02-07 23:46:13
                              广告
                              不感兴趣
                              开通SVIP免广告
                              这也解释了,为什么r1的1.5b连话都说不清,却能算牛顿迭代。因为逻辑能力是可以靠时间堆起来的,但语言能力不行。


                              IP属地:陕西来自Android客户端78楼2025-02-21 10:13
                              回复