柯哀吧 关注:319,761贴子:6,669,789

基于机器学习论述毛利兰为什么是神

只看楼主收藏回复

目录
基于机器学习论述毛利兰为什么是神
Abstract
Foreword
Background
Introduction
Dataset
Methods
Results
Conclusions
References


IP属地:美国来自Android客户端1楼2023-06-13 16:53回复
    Abstract
    在我们谈论毛利兰时,我们常言毛利兰为神[1]。此之“神”,有着多个方面的含义和体现,例如著名的拉窗帘等等。但是今天我们要讨论的,则是毛利兰作为神所具有的特殊的召唤“天兵天将”[2]的能力。周所周知,毛利兰作为名柯这部动漫唯一的女主,在天朝乃至是全球范围内都有着不可撼动的人气以及地位,在无论任何投票中都是当之无愧的T0。因此,我们借以泰国日本动漫官方(貌似是这个名字)发起的名柯动漫角色投票的契机,通过selenium爬取投票所属推文的转推和点赞用户信息,并借助wajdiz等人[3]用于机器人识别大赛的twitter数据集进行机器学习训练,基于训练好的模型分别对毛利兰和灰原哀的支持方用户机器人占比进行了分析,并得到了“毛利兰是神”的又一例证。


    IP属地:美国来自Android客户端2楼2023-06-13 16:53
    回复
      2026-02-01 20:46:16
      广告
      不感兴趣
      开通SVIP免广告
      Background
      随着M26的票房大卖,毛利兰作为神的特征也逐渐展现出来,从四月份开始,其狂热粉丝就开始在互联网上到处出警,痛骂其他角色及其粉丝,甚至上升到网暴和线下殴打的地步。然而所有的这些,只不过是为了展现其作为神所拥有的实力与地位。而在各种投票中的失利仿佛在预示着神的陨落,为了避免跌落神坛,毛利兰终于大手一挥,释放了其作为神所特有的召唤天兵天将的能力,而这也使所有其他角色再次笼罩神的阴影之下,为其夺得了多次投票的胜利。


      IP属地:美国来自Android客户端4楼2023-06-13 16:54
      回复
        Introduction
        Twitter机器人识别是一项日益重要的任务,旨在检测和打击Twitter上的自动用户,它们可能对社会媒体的公正性和完整性造成负面影响。该领域的研究主要分为基于特征、基于文本和基于图的方法。基于特征的方法利用用户的元数据、时间线和关注关系等信息提取数字特征,但容易受到对抗性操纵的影响。基于文本的方法利用文本分析技术,如单词嵌入、循环神经网络和预训练的语言模型等分析推文内容并识别恶意的意图,但难以处理新一代的Twitter机器人,它们将恶意内容与正常推文穿插在一起。基于图的方法将用户解释为节点,将关注关系解释为边,以利用图挖掘技术,如图卷积网络、关系图卷积网络和关系图转换器等进行基于图的机器人检测。这些方法取得了最先进的性能,能够检测出新颖的Twitter机器人,并能更好地解决Twitter机器人检测面临的各种挑战。[4]


        IP属地:美国来自Android客户端5楼2023-06-13 16:54
        回复
          爬取的数据:
          主要爬取了推文的166个转推用户信息和78个点赞用户信息,爬取了对应的元数据,存储于Excel表。



          IP属地:美国来自Android客户端7楼2023-06-13 16:55
          回复
            Methods
            我们主要考虑使用机器学习分类的方式训练数据集并对爬取的数据进行分析。
            lightgbm分类是一种基于梯度提升决策树(GBDT)算法的分布式梯度提升框架,由微软于2017年推出,是一种高效、可扩展、鲁棒的机器学习方法。lightgbm分类可以处理各种类型的分类问题,如二分类、多分类、有序分类等,并且可以利用多种目标函数和评估指标来优化模型性能。lightgbm分类的主要优点是:(1)具有更快的训练速度和更低的内存消耗,通过采用基于直方图的算法、基于梯度的单侧采样(GOSS)和互斥特征捆绑(EFB)等技术来减少数据和计算量;(2)具有更好的准确性,通过采用带有深度限制的叶子优先生长策略、最大化增益分割点选择和类别特征支持等技术来提高模型质量;(3)具有更强的可扩展性,通过采用并行学习、投票并行和网络并行等技术来支持大规模数据集和分布式环境。[5]
            在本实验中主要采用了lightgbm分类方法,并搭配遗传算法加以优化。
            训练所得准确率接近100%,如下所示:


            IP属地:美国来自Android客户端8楼2023-06-13 16:55
            回复
              所有特征比重如下:


              IP属地:美国来自Android客户端9楼2023-06-13 16:56
              回复
                混淆矩阵热力图如下:


                IP属地:美国来自Android客户端10楼2023-06-13 16:56
                回复
                  2026-02-01 20:40:16
                  广告
                  不感兴趣
                  开通SVIP免广告
                  Results基于上述训练好的模型,我对爬取的数据进行了分类预测,所得结果主要如下所示。 可见两边均有机器人参与,但是毛神明显多于灰原哀。



                  IP属地:美国来自Android客户端11楼2023-06-13 16:56
                  回复
                    Conclusions
                    基于以上分析,我们可以得到毛利兰作为神已经熟练掌握了召唤天兵天将以及控制赛博士兵的能力,灰原哀相较于毛神,已落于下风矣。
                    此外,对实验结果进行额外的分析,即假设该比例可以代表整体的情况,那么毛神召唤的赛博士兵的数量大概在34.9k*3.64%=1270人次左右,可以说是法力无边了。未来的名柯,必然是兰神的天下。


                    IP属地:美国来自Android客户端12楼2023-06-13 16:57
                    回复
                      References
                      [1]why Mori Ran is a god-Two-dimensional shrimp
                      [2]
                      [3]网页链接
                      [4]Heidari M, Jones Jr J H, Uzuner O. Online user profiling to detect social bots on twitter[J]. arXiv preprint arXiv:2203.05966, 2022.
                      [5]Ke G, Meng Q, Finley T, et al. Lightgbm: A highly efficient gradient boosting decision tree[J]. Advances in neural information processing systems, 2017, 30.


                      IP属地:美国来自Android客户端13楼2023-06-13 16:59
                      回复
                        精彩,能整多整


                        IP属地:黑龙江来自iPhone客户端15楼2023-06-13 17:40
                        收起回复
                          。。。笑死我了啊哈哈哈哈哈哈哈哈哈哈


                          IP属地:湖北来自Android客户端16楼2023-06-13 18:10
                          回复
                            来个省流的解释,太长太专业


                            IP属地:福建来自iPhone客户端17楼2023-06-13 18:21
                            收起回复
                              2026-02-01 20:34:16
                              广告
                              不感兴趣
                              开通SVIP免广告
                              整点学硬件的能看懂的


                              IP属地:江苏来自Android客户端19楼2023-06-13 23:49
                              收起回复