很多回复用火车上调查购买火车票的比方来质疑这个结果。
但实际上这完全是一个不当类比。
我们先来回顾一下逻辑:
根据别的帖子的截图
森空岛的问卷里,填了UID且未获得的5855人,获得资格人数441人,比例7:93
未填入且未获得的人数191人,获得的人数136人,比例41:59
根据卡方检验,可以得出【本例来源中的群体,不填UID更容易获得测试资格】的结论。同时由于问卷发在森空岛,可以得出【森空岛的玩家群体中,不填UID更容易获得测试资格】的结论。
然后对上述论断,主要有几个质疑方向:
1.填UID和未填UID的人数差距过大,是否还适用卡方检验?
2.森空岛大多数人都是老玩家,肯定更倾向于填UID,那你这个数据没啥意义。
3.获得了资格的人就更懒得投票了,这个数据反映不了真实比例。
那么以下针对这几种情况进行分析:
第一点,关于卡方检验的适用性:结论是适用的。
“填与未填的数据差距过大所以不适用“——这一想法是误区。
卡方检验的几个条件:
1.最小理论频数>5,本例为31.2,满足
2.样本独立性:条件为无配对关系、无重复测量、无混杂的关联),且每个个体仅属于一个组别、一个结局(无重叠)。本例不存在一人投多次,满足
3.数据类型:为二分类,本例满足
4.总频数需>40,本例远超40。
实际上,填与未填的数据差距过大所以不适用这一点不构成在以上条件之外的其它要求。有人可能会想,如果未填人数就10来个,那10个的样本也说明不了什么——但实际上,10个的样本在理论频数>5那关就过不了。假设未填人数为5:5,那最小理论频数就是10*441/(5855+441+10),都小于1了。本例既然理论频数能过,就说明数据量是合格的。
第二点,关于“森空岛人更倾向填UID”的误区——
这个就是逻辑问题了。经典统计错误形式是“火车上的人都买了火车票,所以大家都买到了火车票”
替换到这边的形式应该是“森空岛的用户统计结果反映不填UID更容易获得测试资格,所以全网的人不填UID更容易获得测试资格”
这个命题是否正确,要看森空岛用户的数据和全网用户数据是否在结论相关上存在差异性。
首先问卷的来源是基本一致的,不存在森空岛特供问卷。再就是YJ筛选方式——很难想象YJ再在问卷里把森空岛用户和全网用户再筛选开来做了区别。所以我认为森空岛的用户反映的结果与全网用户在结论相关方面并不存在本质区别,和火车类比不同。火车上的人与买火车票存在明显逻辑关系,这一点与大众有本质区别。
然后至于森空岛人更倾向填UID这一行为本身,并不构成对卡方分析结果的质疑要素。实际上这一结果已经在数据上反映出来了,至于为什么不构成可以看第一点的分析。
第三点:获得资格的人就懒得投票了,数据反映不了真实比例——
这一点与前两点不同,“数据本身不能反映数据来源群体的真实情况”——换句话说,森空岛的投票不能反映森空岛自身的数据水准,是有可能构成对结论的质疑的。
但是,我们可以假设一下相对离谱的条件再看看。
我假设,由于受到上述“懒得投票”的影响,填了UID的人中,80%原来有投票欲望的人不投了,而没填UID的人中,有0%原来有投票欲望的人不投了。这个条件够离谱且够偏心于“不支持结论”的一方了吧?
换句话说,要把“填了UID且获得”的人乘以5,“不填UID且获得”的人不变。
那么结果呢?
卡方值(χ²)≈33.27
P 值≈0.0000000003,远小于0.05,还是有99.999999%的概率,结论不变。
如果你觉得上面那个假设条件还是低了,那我也没啥话说(
第四点:类似第三点,不过基本没啥人提的——投票存在故意乱投的可能性。
这点先不说到底合不合实际情况,我也和第三点一样假设一个比较离谱的比例:获得资格且填了UID的人中,50%人获得资格了却故意投未获得。未填UID的人则是0。
数据修正后卡方值(χ²)≈115.62,比第三点的假设情况还高。
综上所述,我认为根据森空岛的投票结果,【森空岛的玩家群体中,不填UID更容易获得测试资格】这个结论是板上钉钉的,就算投票数据由于种种可能的原因和现实有出入,那也得是出现了比我假设条件还离谱的影响才可能影响结论。然后把这个结论扩大到“全网的玩家群体”我觉得问题也不是很大。
至于YJ这么做,招新扩圈杀熟什么的性质我就懒得评价了。比起这个我更关心统计数据的解读方式。
但实际上这完全是一个不当类比。
我们先来回顾一下逻辑:
根据别的帖子的截图
森空岛的问卷里,填了UID且未获得的5855人,获得资格人数441人,比例7:93
未填入且未获得的人数191人,获得的人数136人,比例41:59
根据卡方检验,可以得出【本例来源中的群体,不填UID更容易获得测试资格】的结论。同时由于问卷发在森空岛,可以得出【森空岛的玩家群体中,不填UID更容易获得测试资格】的结论。
然后对上述论断,主要有几个质疑方向:
1.填UID和未填UID的人数差距过大,是否还适用卡方检验?
2.森空岛大多数人都是老玩家,肯定更倾向于填UID,那你这个数据没啥意义。
3.获得了资格的人就更懒得投票了,这个数据反映不了真实比例。
那么以下针对这几种情况进行分析:
第一点,关于卡方检验的适用性:结论是适用的。
“填与未填的数据差距过大所以不适用“——这一想法是误区。
卡方检验的几个条件:
1.最小理论频数>5,本例为31.2,满足
2.样本独立性:条件为无配对关系、无重复测量、无混杂的关联),且每个个体仅属于一个组别、一个结局(无重叠)。本例不存在一人投多次,满足
3.数据类型:为二分类,本例满足
4.总频数需>40,本例远超40。
实际上,填与未填的数据差距过大所以不适用这一点不构成在以上条件之外的其它要求。有人可能会想,如果未填人数就10来个,那10个的样本也说明不了什么——但实际上,10个的样本在理论频数>5那关就过不了。假设未填人数为5:5,那最小理论频数就是10*441/(5855+441+10),都小于1了。本例既然理论频数能过,就说明数据量是合格的。
第二点,关于“森空岛人更倾向填UID”的误区——
这个就是逻辑问题了。经典统计错误形式是“火车上的人都买了火车票,所以大家都买到了火车票”
替换到这边的形式应该是“森空岛的用户统计结果反映不填UID更容易获得测试资格,所以全网的人不填UID更容易获得测试资格”
这个命题是否正确,要看森空岛用户的数据和全网用户数据是否在结论相关上存在差异性。
首先问卷的来源是基本一致的,不存在森空岛特供问卷。再就是YJ筛选方式——很难想象YJ再在问卷里把森空岛用户和全网用户再筛选开来做了区别。所以我认为森空岛的用户反映的结果与全网用户在结论相关方面并不存在本质区别,和火车类比不同。火车上的人与买火车票存在明显逻辑关系,这一点与大众有本质区别。
然后至于森空岛人更倾向填UID这一行为本身,并不构成对卡方分析结果的质疑要素。实际上这一结果已经在数据上反映出来了,至于为什么不构成可以看第一点的分析。
第三点:获得资格的人就懒得投票了,数据反映不了真实比例——
这一点与前两点不同,“数据本身不能反映数据来源群体的真实情况”——换句话说,森空岛的投票不能反映森空岛自身的数据水准,是有可能构成对结论的质疑的。
但是,我们可以假设一下相对离谱的条件再看看。
我假设,由于受到上述“懒得投票”的影响,填了UID的人中,80%原来有投票欲望的人不投了,而没填UID的人中,有0%原来有投票欲望的人不投了。这个条件够离谱且够偏心于“不支持结论”的一方了吧?
换句话说,要把“填了UID且获得”的人乘以5,“不填UID且获得”的人不变。
那么结果呢?
卡方值(χ²)≈33.27
P 值≈0.0000000003,远小于0.05,还是有99.999999%的概率,结论不变。
如果你觉得上面那个假设条件还是低了,那我也没啥话说(
第四点:类似第三点,不过基本没啥人提的——投票存在故意乱投的可能性。
这点先不说到底合不合实际情况,我也和第三点一样假设一个比较离谱的比例:获得资格且填了UID的人中,50%人获得资格了却故意投未获得。未填UID的人则是0。
数据修正后卡方值(χ²)≈115.62,比第三点的假设情况还高。
综上所述,我认为根据森空岛的投票结果,【森空岛的玩家群体中,不填UID更容易获得测试资格】这个结论是板上钉钉的,就算投票数据由于种种可能的原因和现实有出入,那也得是出现了比我假设条件还离谱的影响才可能影响结论。然后把这个结论扩大到“全网的玩家群体”我觉得问题也不是很大。
至于YJ这么做,招新扩圈杀熟什么的性质我就懒得评价了。比起这个我更关心统计数据的解读方式。

斜光











