对比上一版,除了引入了更多的象棋引擎,还对elo公式作了一定调整。

这里主要说说为什么要调整elo公式。
传统elo公式是这样的:

在象棋引擎测试中,我们注意到,与人类棋手相比,象棋引擎的水平更加稳定,波动更小,这使得相同的水平差距下,引擎之间的胜率会明显高于人类棋手之间的胜率。这种现象导致直接套用Elo公式的话,引擎之间的等级分分差会更大。
为了更准确地反映引擎对应的人类等级分水平,我对测试方法进行了改进。在原有基准引擎旋风2007(固定2720分)的基础上,新增了天天象棋4.2.5.2(2024年年中版本)精英人机版(固定2290分)作为第二个参照点。这个版本经过长期实战检验,其等级分在棋友群体中已有一定共识(这里也感谢很多棋友所给的意见)。
通过固定这两个参照引擎的等级分,我可以对测试结果进行更精确的校准。具体调整方式是将传统Elo公式的系数从400下调至275,这个调整的含义是,引擎间275分的等级分差距对应的胜率,相当于人类棋手400分差距下的胜率。
这一调整使得引擎间的胜率曲线更贴近人类棋手,最终得到的等级分能够更准确地对应到人类棋手的实际水平。
为了进一步验证这个公式的可靠性,我还测试了棋路App的四级象眼引擎,我曾用这个引擎打进2024年天天象棋棋力认证前70名,并与多位县级棋手有过直接较量,现在2137的等级分在我预期的范围内。
接下来如果再测我就打算只测天天精英之下的弱软,希望有人能推荐一下(理治棋壮的话pass,太弱了)。

这里主要说说为什么要调整elo公式。
传统elo公式是这样的:

在象棋引擎测试中,我们注意到,与人类棋手相比,象棋引擎的水平更加稳定,波动更小,这使得相同的水平差距下,引擎之间的胜率会明显高于人类棋手之间的胜率。这种现象导致直接套用Elo公式的话,引擎之间的等级分分差会更大。
为了更准确地反映引擎对应的人类等级分水平,我对测试方法进行了改进。在原有基准引擎旋风2007(固定2720分)的基础上,新增了天天象棋4.2.5.2(2024年年中版本)精英人机版(固定2290分)作为第二个参照点。这个版本经过长期实战检验,其等级分在棋友群体中已有一定共识(这里也感谢很多棋友所给的意见)。
通过固定这两个参照引擎的等级分,我可以对测试结果进行更精确的校准。具体调整方式是将传统Elo公式的系数从400下调至275,这个调整的含义是,引擎间275分的等级分差距对应的胜率,相当于人类棋手400分差距下的胜率。
这一调整使得引擎间的胜率曲线更贴近人类棋手,最终得到的等级分能够更准确地对应到人类棋手的实际水平。
为了进一步验证这个公式的可靠性,我还测试了棋路App的四级象眼引擎,我曾用这个引擎打进2024年天天象棋棋力认证前70名,并与多位县级棋手有过直接较量,现在2137的等级分在我预期的范围内。
接下来如果再测我就打算只测天天精英之下的弱软,希望有人能推荐一下(理治棋壮的话pass,太弱了)。