以同样的方法对独轮车评论进行分析
需要注意楼主这里统计重复次数用的是字符串完全匹配,只要有一个标点符号不一样就算两种评论了。如果有大佬知道更高级的匹配方式,欢迎指出。
这组数据就没有那么接近28了,是17%的重复评论占据了60%的总评论,一部分是匹配机制太苛刻导致的
不过后半部分基本上一条直线,可见还是有1/3的评论是手打的。
10580条评论重复了至少5次,认为这部分是独轮车评论,占到总数的1/3
当累积评论达到 10% 时,完全相同的复制粘贴评论比例为 0.27%
当累积评论达到 20% 时,完全相同的复制粘贴评论比例为 0.95%
当累积评论达到 30% 时,完全相同的复制粘贴评论比例为 2.26%
当累积评论达到 40% 时,完全相同的复制粘贴评论比例为 4.63%
当累积评论达到 50% 时,完全相同的复制粘贴评论比例为 9.05%
当累积评论达到 60% 时,完全相同的复制粘贴评论比例为 17.03%
当累积评论达到 70% 时,完全相同的复制粘贴评论比例为 29.04%
当累积评论达到 80% 时,完全相同的复制粘贴评论比例为 52.70%
当累积评论达到 90% 时,完全相同的复制粘贴评论比例为 76.35%
当累积评论达到 100% 时,完全相同的复制粘贴评论比例为 100.00%
