另外,目前存在一些非常强大的监督学习方法,它们在通用性极强的专家引导下进行下一步预测(关联学习)和重构学习。这正是大语言模型预训练的核心原理,也是扩散模型、流匹配和自编码器在多模态感知与生成中运作的基础。从本质上看,预测下一个 bit 的过程实则是一种自由能(熵)最小化的过程,简而言之:在趋于无序的世界中创造有序。这正是细胞和生命运作的基本原理 —— 埃尔温薛定谔和保罗纳斯各自撰写的同名著作《生命是什么》对此有深入阐述。既然生命遵循这样的规律,那么智能系统采用类似机制运作也就不足为奇了。
因此,如果大家有一个包含 N 对观测值和动作 (o, a) 的数据集,那么在实际操作中,大家会按如下方式评估目标函数:
环境(用户)也会为大家提供观测值(提示或指令 o)。所以不需要知道分布 P (o)。由于不知道最优动作(大语言模型生成的内容,也就是动作 a),将对这些动作进行积分。这是在概率中处理未知量的标准方法。大家对所有可能的值按照出现的概率进行加权求和。在这种情况下,动作的概率就是大语言模型所生成的结果。大语言模型是一个概率模型。