o1重点通过人类反馈强化学习增强了思维链部分。我们知道AI对思维链的处理过去有多种方法,但过去都没特别用强化学习去增强思维链。过去方法有训练时习得即,即监督学习从语料中本身就有条理清晰的逻辑而来,也有使用时临时习得用户给出的思维链后筛选再训练或存入向量数据库,也有人工为特定任务编制后存放于向量数据库或训练微调而来。不论前面哪种,最理想的是让程序能演绎不同可选逻辑链序列,结合价值、策略评估,不断自动或半自动优化思维链,就象阿法狗后代那样,最后强化学习结合蒙特卡洛树搜索,赶上甚至超过人类的决策规划能力。当然,思维链可大模型本身包含于序列中,训练、强化时侧重前面思维序列,但它肯定会影响后面非思维链权重灾难性遗忘,也可独立一个大模型专注于思维链封装,更易训练也不易影响别的部分,甚至就用向量数据库加上大模型、强化学习流程,一样可改进并生成新的思维链,方法是灵活的,都能大幅推动AGI,到底用什么,可综合按需要与情况进行,对有训练能力的公司、机构来说,多种途经都要备好,对没大模型训练能力与资金的,选择向量数据库就够了。