虽然确实有用,但这一套方案不是万能的。GPT-4是一个自回归模型,自回归模型运用同一变量的历史值预测未来值。联系到GPT-4生成文本的原理,可以推出GPT-4是按照文本的排列次序理解、思考以及生成问题的答案(这也解释了上文的一个重要的问题:GPT-4对问题的理解取决于问题本身的描述方式)。对比一下我们人类思考数学问题的方式,首先读题就不可能一个字一个字地往下读,而是联系题目中有用的信息然后相互串联,形成对题目的理解;其次对步骤的思考也未必是从头构建的,很多时候从中间的关键步骤开始,或者干脆从结论逆推;而且还有归纳、反证、证明逆否命题等非常规的思路出现。正是这些灵活的思考模式使得人们能正确解决数学问题,但GPT-4在这方面过于欠缺(不是说完全不会,但确实不擅长),所以很多情况下会出错。
还有一个原因:上面提到过GPT-4需要用数学资料进行训练来获得数学能力。数学资料中含有证明。人在思考过程时会使用各种各样的顺序,写下来的证明却几乎总是线性的,意味着证明过程从条件出发到达结论。换句话说,思考过程本身往往不包含在过程内。所以给GPT-4用这些证明文本训练,GPT-4从中获取的思考方式也往往是线性的。
实验人员给GPT-4这种只能线性思考的现象进行了总结,即GPT-4缺少提前规划的能力。我们将通过下面的例子证实这一点,同时也将看到,即使我们命令GPT-4给出解答时写出步骤,其仍然无法正确解决问题。

翻译:
人类:考虑以下等式:9*4+6*6=72。你能修改等号左边的恰好一个整数(不要更多的)使得等号右边等于99?
让我们按步骤思考,写下一个方案,然后把答案写作“答案是:A*B+C*D”的形式。
AI:一个可能的方案:
为了修改左边的一个数使得等号右边等于99,我们需要把左边的值增大27,因为99-72=27。
为了做到这一点,我们需要找到27的一对因子,比如9和3,或者27和1,然后看我们能否把等号左边的一个数字替换成上述的这些因子,并和(与其成对的)另一个因子相乘。
比如,如果我们把9换成27,那么我们可以将其乘以1,得到27*1+4*6=99。
或者,我们可以把4换成9,把它和3相乘,得到9*4+9*3=99。
我们也能找到27的其他成对因子,比如18和1.5,13.5和2等等。但1.5和13.5不是整数,所以不是可行的解。
答案是9*4+9*3。
还有一个原因:上面提到过GPT-4需要用数学资料进行训练来获得数学能力。数学资料中含有证明。人在思考过程时会使用各种各样的顺序,写下来的证明却几乎总是线性的,意味着证明过程从条件出发到达结论。换句话说,思考过程本身往往不包含在过程内。所以给GPT-4用这些证明文本训练,GPT-4从中获取的思考方式也往往是线性的。
实验人员给GPT-4这种只能线性思考的现象进行了总结,即GPT-4缺少提前规划的能力。我们将通过下面的例子证实这一点,同时也将看到,即使我们命令GPT-4给出解答时写出步骤,其仍然无法正确解决问题。

翻译:
人类:考虑以下等式:9*4+6*6=72。你能修改等号左边的恰好一个整数(不要更多的)使得等号右边等于99?
让我们按步骤思考,写下一个方案,然后把答案写作“答案是:A*B+C*D”的形式。
AI:一个可能的方案:
为了修改左边的一个数使得等号右边等于99,我们需要把左边的值增大27,因为99-72=27。
为了做到这一点,我们需要找到27的一对因子,比如9和3,或者27和1,然后看我们能否把等号左边的一个数字替换成上述的这些因子,并和(与其成对的)另一个因子相乘。
比如,如果我们把9换成27,那么我们可以将其乘以1,得到27*1+4*6=99。
或者,我们可以把4换成9,把它和3相乘,得到9*4+9*3=99。
我们也能找到27的其他成对因子,比如18和1.5,13.5和2等等。但1.5和13.5不是整数,所以不是可行的解。
答案是9*4+9*3。