这是一个非常重要的时刻但很多人可能没有注意到这一点因为我们没有像谈论 那样广泛讨论它。 对在像素空间中有重建例如你重建一个真实的场景;而如果你看不到那个场景则会使用生成技术。这两者实际上是非常相似的。整个对话中你一直在谈论语言和像素或许这是一个好时机来讨论空间智能与语言方法的对比比如它们是互补的还是完全不同的? 我认为它们是互补的。
我不确定如何定义“完全不同”但我可以 秘鲁 whatsapp 数据 尝试做个对比。如今很多人都在谈论、开放 以及多模态模型。 大家觉得这些模型既能处理像素也能处理语言。那么它们是否能实现我们想要的空间推理呢?为了回答这个问题我们需要打开这些系统的“黑箱”看看它们是如何在底层工作的。
语言模型和我们现在看到的多模态语言模型其底层的表示是“一维的”。我们谈论上下文长度、 、序列、注意力机制但归根结底这些模型的表示是基于一维的序列化令牌。 这种表示在处理语言时是非常自然的因为文本本身就是由一维的离散字母序列组成的。这种一维表示是 成功的基础现在我们看到的多模态 也是如此它们将其他模态(如图像)“硬塞进”这种一维的表示中。