如何让AI具备真正的推理能力
我说这话的意思是:人类之所以能有真正的推理能力,其中一个原因就是:通过多模态(视觉/语音/文本),不仅可以学习到更多更立体的信息,而且这些信息如果能融会贯通,那就能表现出更强大的泛化能力。你现在可以把AI大模型看做是更好的知识搜索引擎。因为这样的泛化原理,所以也必然会导致有些问题,AI举一反三错了:你知道是个新问题,AI以为是已有老问题的变形版,所以这就出现了咱们常说的AI幻觉。现在业界解决举一反
(1)信息生成与信息查询
现在AI大模型中灌入了全人类在互联网上公开的知识。
你现在可以把AI大模型看做是更好的知识搜索引擎。因为传统的搜索引擎只根据关键字匹配返回对应的原始网页链接,你需要自己一个点开去看。现在AI大模型都给你做好重点信息摘要了。
现在AI大模型基于已经实现了70年前人工智能先驱们对AI的所有愿景了:
能听:语音识别
会说:语音合成
会交流:长上下文多轮会话与问答
会看:视觉识别
会写:文本生成/代码生成、机器翻译
会画:视觉生成
会刷数学题库
但是大多数人,面对这些AI擅长的能力,却应用不到自己的日常工作中,只是把AI大模型当做一个更好的知识库搜索引擎在使用。
我个人观点:如果AI要走进大家的日常工作,AI必须提升推理能力。
但AI有推理能力吗?
如果要让AI具备推理能力,应该怎么做呢?
(2)泛化迁移
现在的AI大模型因为位置编码技术原理,导致了AI具有泛化能力。
用专业的话来讲就叫做:模式识别-模式匹配-模式迁移。
用咱们通俗的话来讲就是:举一反三。也就是说:虽然它的知识题库中没有对应的明确的题,但是因为你的问题只是稍作了变形,所以它还是能够识别出来的。
这就类似:有的小孩举一反三能力可以,你把题型稍微变变,他还是能理解。有的小孩举一反三的能力不行,你教给他几种题型,他就会做那几种题型。你稍微变变样子,他就不会了。
因为这样的泛化原理,所以也必然会导致有些问题,AI举一反三错了:你知道是个新问题,AI以为是已有老问题的变形版,所以这就出现了咱们常说的AI幻觉。
现在业界解决举一反三错误的幻觉问题,人们采取的方式就是:家长教育小孩的方式,遇到一件错事,就告诉他什么是对,错了就要受到惩罚。
告诉他什么是对的,这个专业方法词汇就叫:指令学习。
错了就要受到惩罚、对了就收到奖励,这个专业方法词汇就叫:强化学习。
但是我个人感觉,这本质就是人类智力的众包:大家海量的人天天使用大模型,大家发现问题、大家给它指出问题。
从技术视角要解决这个问题,我感觉得采取PK思想:道高一尺魔高一丈,就如同两个AlphaZero下棋AI模型互相PK,在斗争中成长。俗话说:人教人,教不会。事教人,一教就会。
(3)深度思考
去年10月份OpenAI发布了o1,大家开始对深度思考趋之若鹜。而我只看见OpenAI和DeepSeek在用工程视角而非技术创新视角在搞深度思考。
OpenAI和DeepSeek的深度思考,从它暴露出来的思维过程就可以看出,它在:打草稿-试做-验算-纠错。
有的AI大模型装模作样在搞深度思考,我个人感觉它们本质在搞AI Agent那个思路:
第一步:大部分用户都是中庸人,不会目标明确地严谨逻辑地想清楚自己的事。所以现在AI大模型有提示模板自动优化的功能。也就是把你豆子麻子混在一坨,格式化成对AI大模型优化的清晰目的清晰结构逻辑。
第二步:把这个清晰目的清晰结构逻辑的需求,分解为若干个计算机可执行的任务。
第三步:动用各种生态能力,执行这些任务:如调用大模型的现有能力(文本生成/语音生成/图片识别、代码生成/自动化部署/自动化执行)、如通过各种方式(API、命令行、UI点击机器人RPA)调用现有软件工具能力、如利用最新互联网信息(联网搜索)和私有数据能力(文件上传)。
第四步:把各个过程任务产生的结果进行整合,统一呈现给用户。
不管是装模做样搞深度思考,还是真搞深度思考,因为都有复杂需求转化成结构化提示模板、都有提示模板按照思维链进行任务分解环节,所以李逵和李鬼,大家就傻傻分不清了。
当然,o1也仅仅是去年10月份才发布,所以现在很多其他AI大模型对这套工程还没有跟进彻底:
有的AI大模型对短的上下文思维链都Hold不住,这就是人们说的希望AI Agent具有记忆能力。
有的AI大模型对唱的上下文思维链Hold不住,导致长链推理逻辑漂移。
其实这就是AI大模型在长上下文的能力的提升,和记忆能力没有半毛钱关系。
但长上下文能力,除了取决于训练时的样本知识的长度、取决于训练时的内存容量大小,还取决于位置编码的技术创新。
(4)融会贯通
上述咱们讲了:
对于AI没见过的问题,AI使用举一反三泛化能力来解决。虽然会出现举一反三错误导致幻觉问题,也有人类调教、以及技术创新解决思路。
对于复杂问题,AI也使用深度思考反复验证纠偏方案、MoE各种小专家模型组合、AI Agent思维链各种工具组合来解决。
但是AI真要实现人类自己的那种推理能力,我感觉明年会往前走一小步。
为啥这么说呢?
去年年初OpenAI发布Sora但没有干成,今年全世界在视觉方面就进步非常大。我说这话的意思是:人类之所以能有真正的推理能力,其中一个原因就是:通过多模态(视觉/语音/文本),不仅可以学习到更多更立体的信息,而且这些信息如果能融会贯通,那就能表现出更强大的泛化能力。
如果AI推理能力还想再前进一小步,我个人感觉需要咱们再拿起被人们丢弃的符号主义了。
现在的人工智能,主要是神经网络联结主义,这个思路很擅长模糊匹配,有很好的扩展性,但却很难精确地表达。
而符号主义,可以人为地精确地表达,但是很难扩展。
所以,AI大模型提升推理能力,还得需要人机结合:
第一步:AI大模型构建可微分的符号层,人为构建精确规则
第二步:AI大模型通过深度思考生成候选假设
第三步:AI大模型通过Agent技术调用符号引擎做增强验证
第四步:让AI大模型能直接优化逻辑规则
火山引擎开发者社区是火山引擎打造的AI技术生态平台,聚焦Agent与大模型开发,提供豆包系列模型(图像/视频/视觉)、智能分析与会话工具,并配套评测集、动手实验室及行业案例库。社区通过技术沙龙、挑战赛等活动促进开发者成长,新用户可领50万Tokens权益,助力构建智能应用。
更多推荐
所有评论(0)