在去年初我就强调多模态尤其是视觉触觉文本融合的重要性,直到今天依然有很多人没有意识到多模态融合对于认知能力的关键性,这个帖子将会补充几个功能机制进一步论证多模态的关键性,具体会围绕长期记忆、确定性获取及判定能力、结构化对象的处理能力来展开。
首先是长期记忆。为什么大模型容易灾难性遗忘?就是因为文本格式下的信息非常容易被篡改,这与现实中word文档容易被篡改是一致的,所以经常要转化为pdf格式让信息锁定。人脑则可以通过照相式记忆将信息锁定,在联想到相关信息时直接呈现照片信息准确度提升很多,幻觉减少很多,不过前提是视觉感知能力要足够强,这个又和结构化能力(即空间想象力)有关。当然,如果让大模型对某些文本产生类似于信条式的信仰时也不容易被篡改,这种就类似于思想钢印了,强化学习可以做到这点,现在的大模型有时候就会将错误的信息当信条来信仰,并且难以改正。
其次是确定性获取及判定能力。什么信息最具有确定性?当然是图像。所谓眼见为实,人脑的奖励模型对视觉感知的信息给出了极高的信任倾向。去年初我批评过ilya认为图像没那么重要,光文本就能实现agi的想法,我给出的理由是人类不是造物主,不可能找到(至少目前不可能)对于自然界的完备精确的描述,那么基于人类创造的文本信息就不可能实现agi,应该说连人类都无法完全超过,即使大模型拥有碾压人类的记忆力和处理速度,因为缺少视觉触觉等信息的感知处理能力,很多概念都无法完整形成,尤其是涉及几何向的概念几乎等于白痴。那么图像触觉等模态的信息处理能力对于形成完整概念、消除幻觉并获取确定性判定的能力至关重要。
最后是结构化对象的处理能力。目前业界很困恼怎么进行多模态融合,或者说统一表示空间怎么搭建。我去年初写的帖子里提到要通过生读一体并结合环境交互反馈来实现图像处理能力以及图像文本融合处理能力的飞跃。但是当时我对扩散模型的生成能力并不满意,觉得扩散模型生成的内容更像在做梦,或者说像映像派画家的作品,并且很大程度上像一缕烟,缺少结构固化的能力,现在依然觉得如此,扩散模型只能用来辅助生成氛围式的内容,涉及结构化的对象还是要用自回归结合图像素材捕捉的模式来进行。如何捕捉素材呢?那就需要类似于fsd的三维重建能力以及空间图像推理能力,并且这种能力可以泛化成一切结构化对象的处理能力,通过具身智能结合触觉、动觉、视觉融合来从简单对象到复杂对象的捕捉,类似于婴儿的成长过程。注意到触觉对理解边界和体积碰撞至关重要,目前对于触觉的研究还太少。
总之,agi的实现还有很多难点需要处理。硅基系统将会帮助人类的认知能力上升一个档次,并摘到高垂果实,但是很快又会被透支,维持高水平认知能力是不容易的,如果没有竞争压力和自然选择压力,生命不会去选择这么难的路,也许出现一个绝对强者或者一些绝对强者让竞争失去意义,大家更容易获得好的人生体验吧。
首先是长期记忆。为什么大模型容易灾难性遗忘?就是因为文本格式下的信息非常容易被篡改,这与现实中word文档容易被篡改是一致的,所以经常要转化为pdf格式让信息锁定。人脑则可以通过照相式记忆将信息锁定,在联想到相关信息时直接呈现照片信息准确度提升很多,幻觉减少很多,不过前提是视觉感知能力要足够强,这个又和结构化能力(即空间想象力)有关。当然,如果让大模型对某些文本产生类似于信条式的信仰时也不容易被篡改,这种就类似于思想钢印了,强化学习可以做到这点,现在的大模型有时候就会将错误的信息当信条来信仰,并且难以改正。
其次是确定性获取及判定能力。什么信息最具有确定性?当然是图像。所谓眼见为实,人脑的奖励模型对视觉感知的信息给出了极高的信任倾向。去年初我批评过ilya认为图像没那么重要,光文本就能实现agi的想法,我给出的理由是人类不是造物主,不可能找到(至少目前不可能)对于自然界的完备精确的描述,那么基于人类创造的文本信息就不可能实现agi,应该说连人类都无法完全超过,即使大模型拥有碾压人类的记忆力和处理速度,因为缺少视觉触觉等信息的感知处理能力,很多概念都无法完整形成,尤其是涉及几何向的概念几乎等于白痴。那么图像触觉等模态的信息处理能力对于形成完整概念、消除幻觉并获取确定性判定的能力至关重要。
最后是结构化对象的处理能力。目前业界很困恼怎么进行多模态融合,或者说统一表示空间怎么搭建。我去年初写的帖子里提到要通过生读一体并结合环境交互反馈来实现图像处理能力以及图像文本融合处理能力的飞跃。但是当时我对扩散模型的生成能力并不满意,觉得扩散模型生成的内容更像在做梦,或者说像映像派画家的作品,并且很大程度上像一缕烟,缺少结构固化的能力,现在依然觉得如此,扩散模型只能用来辅助生成氛围式的内容,涉及结构化的对象还是要用自回归结合图像素材捕捉的模式来进行。如何捕捉素材呢?那就需要类似于fsd的三维重建能力以及空间图像推理能力,并且这种能力可以泛化成一切结构化对象的处理能力,通过具身智能结合触觉、动觉、视觉融合来从简单对象到复杂对象的捕捉,类似于婴儿的成长过程。注意到触觉对理解边界和体积碰撞至关重要,目前对于触觉的研究还太少。
总之,agi的实现还有很多难点需要处理。硅基系统将会帮助人类的认知能力上升一个档次,并摘到高垂果实,但是很快又会被透支,维持高水平认知能力是不容易的,如果没有竞争压力和自然选择压力,生命不会去选择这么难的路,也许出现一个绝对强者或者一些绝对强者让竞争失去意义,大家更容易获得好的人生体验吧。