cs赛事吧 关注:103,608贴子:4,054,875

关于数据分析的哲学分析

只看楼主收藏回复

最近有关数据分析产生了许多争论。数据分析是一门科学,按惯例本来不是我这样的文科生应该插嘴的;不过呢,科学也有科学哲学嘛,所以就想着从哲学角度看一看大家的争论,也看看能不能消弭一些争论。


IP属地:比利时1楼2025-01-10 19:06回复
    首先,我想引入两个中世纪很火的概念:共相(universal)和殊相(particular)。共相是指在个别物体中所拥有的共通特性,比如donk和zywoo都是男人。虽然他俩身高体重都差别很大,但是存在着共通的“人”和“男性”的特质,这些特质就被称为共相。那么个体的donk,个体的zywoo,就是时空中的单独存在,被称为殊相。


    IP属地:比利时2楼2025-01-10 19:07
    回复
      2025-07-31 20:55:09
      广告
      不感兴趣
      开通SVIP免广告
      从这个视角看,数据分析就是围绕着一群共相来展开的。比如donk有KPR,载物也有KPR。那么我们可以直接比较两个人的KPR。甚至即使我们把这两人头像一遮,直接拿出两名匿名选手A和B,也可以直接比KPR,从而区分出高下。然而,事实真的是这样吗?


      IP属地:比利时3楼2025-01-10 19:07
      回复
        这就涉及到中世纪旷日持久的一场争论:唯实论(realism)vs 唯名论(nominalism)。前者可以上溯至柏拉图,认为数字这样的共相是先存在的,后来才出现了个体事物。这一观点在今天听起来似乎有些反直觉,这里就不深入讨论了。后者,也就是唯名论则主张个体先存在,所谓的“性质”这些是通过个体总结出来的,并不是实在的。总的来说,一个个体事物可以包含无穷多的性质。比如donk除了游戏数据,还可以包括身高、体重,胸围……


        IP属地:比利时4楼2025-01-10 19:08
        回复
          那么,这场古老的历史争论同数据分析有什么关系吗?答案就潜藏在我们日常语言中使用的许多说法和观念中:“数据失真”“eye test”“风格化数据”……
          如果你相信一名球探只需要分析数据就可以准确地评价球员的优劣,那么你大概率是一个唯实论者;而如果你相信必须要单独去看这个球员的每一个球才能了解他的水平,你的唯名论倾向就十分显著了。


          IP属地:比利时5楼2025-01-10 19:08
          回复
            在行为的层面上,这种玄之又玄的形而上学争论其实不是非要泾渭分明的。hltv固然是个数据网站,但他们从来也很看重eye test的结果,这也是为什么托神成为top21的重要原因。我想,这个贴吧里应该也没有不看比赛,只是对着数据库一味猛看的人。那么,这些讨论能否帮助我们解决争论呢?
            当然可以!因为即使是数据,也不能等量齐观。有些数据是对殊相的一阶量化,比如donk杀了多少人,每轮杀了多少人,死了多少次,这些数据是可以被正确地“个体化”的。这也就是为什么有些吧友会说,adr、dpr、kpr是“绝对真实”的数据。


            IP属地:比利时6楼2025-01-10 19:09
            回复
              然而,从严格唯名论的立场上来看,这些数据不仅不是绝对真实的,而且可说是必然失真的。因为它们只考虑了个体的一小部分。比如,donk是非常激进的突破手,导致他的几项数据之间存在内在关联,这就是风格。那么只看某一项数据,当然不能反映donk的全貌。除非把尽可能多的数据呈现出来,我们才能较接近真实地评价donk,而罗列这些数据的功夫,远远超过打开电脑看一场donk的比赛。


              IP属地:比利时7楼2025-01-10 19:09
              回复
                所以,二阶数据(这只是我个人发明的用词)应运而生:rating,impact,KAST这些数据,它们并不能直接还原到个体,甚至可能完全无法还原到个体。但他们被认为是通过综合了更多的共相来接近殊相的,这一方法的进阶版或许就是AI、大数据。这里我们不跑题,回到这些数据的评估上。
                那么,这些数据失真吗?答案是肯定的:它们仍然失真。但它们同一阶数据不同,而宣称自身更接近某种实体。这就是为什么我们看到rating会宣称自己是“最重要的数据”,并且这一叙事被社区广泛相信。


                IP属地:比利时8楼2025-01-10 19:10
                收起回复
                  2025-07-31 20:49:09
                  广告
                  不感兴趣
                  开通SVIP免广告
                  但是,我们可以从中看到明显的普遍性与个别性的张力:本来数据是为了抽象地不凭借个体也能直接比较,但是rating却是为了还原到个体。这就造成了一个严重的问题:评价的样本越大,对象越普遍,为拟真个体而设的rating数据就越不中用。一场比赛里,或许可以有rating1.98的donk和0.58的chopper,但是到bo3就变成了1.67和0.75,到全年就变成了1.37和0.94,到生涯就差得更小了。


                  IP属地:比利时9楼2025-01-10 19:10
                  回复
                    事实上,每年都出现了许多人共享一个rating数字的情况。你可以说这些人是一个水平,但是这些人之间就没有高下之分吗?有!所以分析就需要从更为拟合个体之整体的二阶数据往回退,退到一些专注于部分的二阶数据,比如impact和kast。再往下退,就会退到一阶数据。在kpr、adr这些数据上donk遥遥领先于所有人,所以我们完全有理由这样讲:donk对游戏进程的直接影响庞大到了前无古人的地步。


                    IP属地:比利时10楼2025-01-10 19:15
                    回复
                      那么,是否应该就选用那些最基础的一阶数据来评价选手呢?刚才已经说过,这些数据必然失真,而且会消耗更多的精力,因此观众天然地希望有一种不那么整体又不那么细碎的数据可供选择,于是在KAST和Impact的二择中,观众选择了Impact的叙事。


                      IP属地:比利时11楼2025-01-10 19:18
                      回复
                        所以从这点上来说,我始终认为@viston 讲“风格化数据”本身是没错的,因为Impact这样的二阶数据就是在对一部分特征进行抽象。问题是,是否所有的风格都是一律平等,没有高下之分?这个预设是错误的!核心就在于,游戏本身不是一个无目的系统。在隔壁LOL中,设计师教你玩游戏的特点是非常明显的。他要你按照某种风格打,你选逆版本就会被惩罚。哪怕是最强的T1也是如此。


                        IP属地:比利时12楼2025-01-10 19:21
                        回复
                          CS的设计师看起来要少很多,但是这个游戏的底层机制上就包含着一种意向性:如果T方不进攻,是不是自然就输了?因此,它先天地就鼓励某种形式的进攻并惩罚不进攻,即使这一进攻可能只是限制在某一侧——但是,CT方更贵的火,更贵的枪等等都说明了V社也是在鼓励进攻的,尽管它可以被解读成“削弱某方优势”。因此,在这样的情况下,观众愿意看到更加激进的风格,是完全正当的。


                          IP属地:比利时13楼2025-01-10 19:25
                          回复
                            楼主先去吃饭,感觉这个贴又要沉了……


                            IP属地:比利时14楼2025-01-10 19:25
                            回复
                              2025-07-31 20:43:09
                              广告
                              不感兴趣
                              开通SVIP免广告
                              要不干脆楼主也向八五申请加精得了……感觉是不是海外ip被限流了


                              IP属地:比利时15楼2025-01-10 19:28
                              回复