墨墨背单词吧 关注:8,488贴子:78,165
  • 11回复贴,共1

让你们看看,墨墨背单词的词频统计错误有多严重

只看楼主收藏回复


首先给大家分析第一个地方
词频从1万8千多开始就出现这种按单词首字母排列的情况
如果真的是按词频排列的话,肯定是不会出现这种情况的,所以得出结论
1万8以后的词频是完全不准确的,甚至可以说没有任何参考价值


IP属地:山西1楼2020-07-01 19:53回复



    IP属地:山西3楼2020-07-01 19:59
    回复
      2025-08-17 15:12:46
      广告
      不感兴趣
      开通SVIP免广告
      啊?真的?


      来自iPhone客户端5楼2020-07-02 22:45
      回复
        一万八以后什么意思


        来自iPhone客户端6楼2020-07-02 22:45
        收起回复
          那频率在1W8以内没问题?求回复,1W8也学不到,


          来自Android客户端7楼2020-08-30 15:36
          收起回复
            从一个开发人员的角度,
            关于条件排序, 都是有多个排序条件的, 根据优先级来排序,
            比方说按词频排序,
            实际上可能是按 : 词频 > 字母 > 单词录入时间 > 其他....... 来排序.
            意思就是首先按词频排序,
            当词频相等时, 就按字母顺序排序,
            当字母都一样(当然单词不会一样,这只是一个例子), 那么就按创建时间排序.
            当创建时间一样还可以按照其他条件排序. 以此类推.
            关于单词, 经常出现的单词就几千个,
            越生僻的单词词频数值都是很小, 甚至3次. 2次, 1次,
            所以大量生僻单词词频很容易相等,
            所以当词频相等时, 自然就会按照 "字母顺序" 的条件排序了,
            所以才会出现楼主所描述的情况.
            换一个角度, 虽然按字母排了, 但是他们的词频是相等的.
            这只能默默地把锅丢给默默背单词的产品经理思维不够严谨了,
            如果使用"单词录入时间"作为词频排序的第二排序优先级条件,
            就不会让人产生误解和不信任了.


            IP属地:四川9楼2020-10-20 15:49
            回复
              就算是词频相等,用字母排序,也可以说明这个出现频率选用的语料太少了,一般出现次数是几个才会大量单词出现次数相等,才到两万就少到只出现几个了


              IP属地:云南来自Android客户端10楼2021-06-02 13:07
              回复
                问一次为什么我的误差率300%


                来自iPhone客户端11楼2021-09-11 09:43
                回复