如何让模型自发性地通过视觉进行「思考」仍属于早期探索阶段。此前的一些工作尝试通过空间搜索任务(如迷宫导航)进行早期探索,但这些任务的局限性在于它们往往可以直接通过文本思考或「对着」图像思考(Thinking with Images)来解决,而不需要真正的「脑补」图像思考(Thinking with Generated Images)。
Thinking with Generated Images 系统性地整理并比较了三个核心概念的本质区别及其适用任务的差异:
「看」图像(Seeing with Images):模型仅在单次前向传播中处理用户提供的固定图像,主要适用于基础的视觉识别任务,如物体检测、图像分类等。这种模式下,模型只是被动地「观察」图像内容。在这个过程中,整个 AI 的思维过程完全发生在文本模态中,图像仅仅作为一个固定的先验条件,无法参与到动态的推理过程中。这也是大多数现有的大型多模态模型(Large Multimodal Models, LMMs)或视觉语言模型(Vision-Language Models, VLMs)的预设模式。
「对着」图像思考(Thinking with Images):模型能够多次访问或对现有图像进行有限变换(如裁剪、旋转、代码实行器、OCR、图像处理工具),适用于需要多步视觉推理的任务,如视觉问答、图表解读、空间推理等。「对着」图像思考虽然在一定程度上改善了模型的视觉推理能力,但仍然受到一个核心约束:它们只能处理用户预先提供的固定图像或对这些图像进行简单变换,被动处理用户提供的图像,无法真正做到从零开始构建新的视觉概念。
「脑补」图像思考(Thinking with Generated Images):模型能够主动生成中间视觉步骤作为推理过程的一部分,适用于需要视觉想象、创造性设计、空间规划、以及与物理世界环境交互感知的复杂任务。这种模式在需要视觉预见性(visual foresight)和创造性想象的任务上具有最大优势,因为纯文本推理无法充分表达这些任务所需的空间和视觉信息。
研究团队深入分析人类多模态长思维的认知模式,据此设计并提出了两种原生多模态长思维链模式,应用于视觉生成任务上,最大的体现 Thinking with Generated Images 的优势:
视觉子目标分解(Vision Generation with Intermediate Visual Subgoals):视觉子目标分解模拟了人类在处理复杂视觉任务时的分而治之策略。面对较为复杂或多物体的视觉生成任务(如「一张沙发和一个酒杯」),模型首先进行整体性的分析,将大的视觉任务拆解成小的目标,分步生成沙发和酒杯的独立图像,再组合成最终结果。每个中间图像都承载了特定的子目标语义,不仅是视觉内容的载体,更是推理过程中的「思维节点」。视觉子目标分解允许模型在处理复杂视觉生成任务时保持对细节的精确控制,避免了直接生成复杂图像时可能出现的元素遗漏、比例失调或风格不一致等问题。
图 3:原生多模态长思维链在GenEval上的例子。
提出视觉假设并自我反思迭代(Vision Generation with Self-Critique):提出视觉假设并自我反思迭代体现了人类创作过程中的「草稿-修改-完善」循环机制。模型首先基于输入提示生成一个初始的视觉假设图像,这个假设通常包含了对任务的基本理解但可能存在各种不完善之处。模型随后以文本反思形式对自己生成的图像进行深入的多角度分析,包括内容完整性检查(如「图像缺乏雨伞」)、视觉质量评估(如「更清晰的海景化」)、语义一致性验证(如「更清楚的展示冰淇淋的融化」)、构图合理性判断(如「增强图像对比度」)等等。模型通过建立视觉假设、批判性分析、策略性改进的迭代过程来逐步优化生成结果,实现了视觉和文本模态之间的深度协同,形成了一个有效的自我改进反馈循环,显著提升了生成图像的质量和准确性。
Thinking with Generated Images 的能力未来有望推动 AI 在需要空间想象和动态规划的领域实现突破:
创造性设计:模型可逐步生成并迭代建筑草图,同时用文本记录调整理由(如「将窗户东移以优化采光」)。
科学发现:通过生成分子结构的中间假设图像,辅助生物学家验证药物结合路径。
战术规划:让 AI 篮球员「脑补」生成不同战术配合的场上演示图像,可视化球员跑位路线和防守破解策略。
《孙子兵法》说:「多算胜,少算不胜,而况于无算乎?」在文本时代,深思靠文字组成的思维链;在多模态时代,深思就需要通过多模态内容的耦合,不仅要会观察、调用工具,还要学会想象、反思、脑补。Thinking with Generated Images正在把这种能力「写进」模型本身,让 AI 获得人类的视觉想象力。