太空探索技术公司吧 关注:7,778贴子:358,477
  • 1回复贴,共1

关于给大模型引入主动强化学习机制的探讨

只看楼主收藏回复

首先要明确一点,创造agi是为了获得一个强大的关系建模器,尤其是对于真实世界实现超越人类水平的建模精度及完备性。因此引入大模型的所有机制都是为了提升大模型的关系建模能力。
目前的大模型明显缺少一个主动强化学习机制,这个机制不同于rlhf这样的被动强化学习机制。主动强化学习机制应该有通过一些反馈(比如环境反馈、做题结果反馈等)收集到新的标签数据用于学习,类似于围棋ai里面通过自我对弈根据对局结果生成的标签数据。注意到人脑在进行大广度大深度思考时可以生成大量的这类数据,并且人脑可以根据思路的结果反馈强化或者弱化相关通路的连接强度,因此多步骤问题是收集新的标签数据的不二选择。
如何实现主动强化学习机制呢?首先就是要让模型具备进行大广度大深度思考的能力,这需要大模型拥有处理极长序列甚至理论上限无限长序列的能力。一个最简单的做法就是在窗口化attention的基础上引入总结跳转机制,即将前面处理的中间结果做一个总结并完整保存中间结果供后续跳转使用。这个总结能力需要通过大量做题来找到合适的总结习惯,简单来说就是要对总结方向及详细程度与中间结果--题目的关系情况进行建模。
其次如何搭建选择空间并做好选择排序呢?注意到人脑在被一个信息激活相关脑区后会产生相应的感觉、激活奖励系统并驱动关联行为,如看到筷子掉到地上我们会把筷子捡起来然后拿去洗干净。同样的,大模型在收到信息后一样会激活相关的语义空间,并且里面也有关联行为,也就是说大模型天然建模了选择空间。但是这个选择空间在开始的时候太小,因为还缺少长距离关联的关联行为选择,因此处理无限长序列的能力赋予了大模型建模长距离关联行为的能力。经过大量的大广度大深度思考后,选择空间会被扩大很多,因此对选择做好排序也很重要。人脑主要是通过关联度、能量消耗约束、时间消耗约束等进行排序,大模型可以选择关联度、资源(算力和存储空间)消耗约束、时间约束等进行排序。
最后,大模型的训练将要分成两个阶段,类似于泛读阶段和精读阶段,在精读阶段主要训练深度思考能力。另外选择空间的搭建依赖于大量的深度思考,并且多模态的引入将会极大丰富这个选择空间,极大的提高大模型关系建模能力的上限。openai应该在这块做了很多尝试,但是大多数想法都被实验否定了,不过也留下了一些被验证的思路。从sam最近的采访来看,还没有完全找到解决推理能力的方案,因此这块还有很大空间可以探索


IP属地:江西来自iPhone客户端1楼2024-03-24 23:18回复
    OpenAI的语言大模型不就是在往这方面走么?
    先让AI明白人类说什么,再让AI明白人类说的意思,然后让AI明白应该怎么做到……
    通用自然语言大模型出来之后……人类就可以通过自然语言对之前之后所有的软件程序进行再迭代……
    例如工业上……通过自然语言就可以对机械的控制进行更新和重载,即使是不懂工业的人也能够在AI的辅助下进行控制和需求……
    以后即使是不懂编程的人,不懂物联网的人,甚至是不懂工业和材料的人,都可以通过自然语言进行设计,制造和工业软件构建……
    当然懂这些的人能够在AI的辅助下进行的更好……
    AI分布式的领域大模型在自然语言的领导合集干活,让人和工业之间几乎没有入门门槛……


    IP属地:四川来自Android客户端3楼2024-03-25 08:07
    回复