udio吧 关注:48贴子:329
  • 8回复贴,共1

Gemini2.0家族 音乐分析能力简单测评

只看楼主收藏回复

一楼祭天


IP属地:广东来自Android客户端1楼2025-02-23 00:08回复
    gemini2.0家族目前有4款模型,都具备分析上传音频的能力。分别是:
    gemini 2.0 flash,
    gemini 2.0 flash-lite preview,
    gemini 2.0 pro experimental,
    gemini 2.0 flash thinking experimental


    IP属地:广东来自Android客户端2楼2025-02-23 00:11
    收起回复
      2025-08-26 01:09:34
      广告
      不感兴趣
      开通SVIP免广告
      Ken's Day 我上传了这首我写的儿歌,分别对以上4个模型进行了分析测评。选择儿歌的原因在于儿歌的旋律简单,可以测评出一个模型的分析能力下限。以下我根据我测评的所有数据只给出结论:


      IP属地:广东来自Android客户端3楼2025-02-23 00:14
      回复
        1.首先我使用每个模型对这首歌分析三遍,观察最后分析结论的正确性与稳定性。
        其中gemini 2.0 flash, gemini 2.0 flash-lite preview,这两个模型分析的结果不是很稳定,而且有时候会出现分析错误的情况。


        IP属地:广东来自Android客户端4楼2025-02-23 00:17
        回复
          2.相对稳定的是下面这两款模型,无论稳定性还是正确率方面都比较靠谱。 gemini 2.0 pro experimental, gemini 2.0 flash thinking experimental


          IP属地:广东来自Android客户端5楼2025-02-23 00:19
          回复
            3.这四款模型对于歌曲的打分分差在5分以内,这一点感觉比较稳定。
            其中 gemini 2.0 flash 打分极低,连续三次都给我这首歌打了70分左右。
            gemini 2.0 flash-lite preview,打分虚高连续三次给我这首歌打了90分左右。
            gemini 2.0 pro experimental,连续三次给我这首歌打分85分左右。
            gemini 2.0 flash thinking experimental,连续三次给我这首歌打分80分左右。


            IP属地:广东来自Android客户端6楼2025-02-23 00:23
            回复
              4.不过鉴于前两个模型的分析本身不是很靠谱,所以他们打出来的分可以暂不采纳。就后两个模型分析来看暂时没有发现出问题的地方。所以基于以上的综合分析,可以认为这首歌的评分范围在80~85分之间。


              IP属地:广东来自Android客户端7楼2025-02-23 00:25
              回复
                5.就我目前的测试情况来看,优先推荐后两个模型分析。但由于儿歌只能作为一种下限性质的测评,本质上来说无法全面的评估这几个模型的能力。最后欢迎各位感兴趣的网友使用不同类型的歌曲来进行综合测评分析。


                IP属地:广东来自Android客户端8楼2025-02-23 00:27
                回复