前段时间,OpenAI 发布了文生图模型 DALL・E3,生成效果非常惊艳。比如,你可以让它一次画出几十个物体,然后再要求它把这些物体全部放到一个冲浪者的背上:
可以看到,DALL・E3不仅画出了足量的物体,就连冲浪者面对重压时的神情都刻画了出来。
但细心的网友也发现了一些问题:图中的铅笔等物体比例不太正常,模型似乎不太理解日常物品的大小比例关系。
类似的问题其实不仅存在于 DALL・E3等二维图像生成模型。当生成维度提升到三维时,问题变得更加突出:生成的动物可能会有多张脸、多个头或脸部凹陷而非凸起。这些在人类看起来属于常识的东西,模型似乎没有学到。
在香港科技大学电子与计算机工程系教授谭平看来,这些问题之所以存在,是因为现有的基础模型并没有充分地在3D 维度上去理解真实世界。
「AI 最终需要解决真实世界的问题,那就必须要和物理世界发生联系。而我们这个物理世界是3D 的,所以自然而然,AI 必须理解3D,从而理解物理世界。」 谭平指出。
作为在计算机视觉、计算机图形学领域工作了20多年的资深学者,谭平一直认为,3D 是人类视觉认知世界的基础,因此3D 信息对于模型准确理解真实世界非常关键。它和之前被大量利用的文字信息互为补充,是一个亟待挖掘的「富矿」。如果能够创建一个3D 基础模型,有效地挖掘这个「富矿」,AI 有望从语言走向物理,从字面走向现实,成为真正的、对真实世界有着深刻理解的「通用模型」。
谭平的 Google Scholar 主页,其论文被引量达到了五位数。
基于这一理念,他所创立的 AI 科技公司 —— 光影焕像(Light Illusions)已经实现了一些基础技术上的突破:包括更准确的3D 重建和更优秀的文生3D 效果。
这些成果不仅可以应用于游戏、影视制作等行业,还会对 XR、具身智能等领域产生重要影响。
不过,由于3D 数据严重匮乏,这件事做起来并不容易。为了了解该公司背后的技术以及这些技术可能创造的社会价值,机器之心与谭平博士展开了深入对谈。
3D 基础模型:AI 走向现实的必由之路
为什么要构建一个3D 基础模型?在回答这个问题时,谭平选择从大规模预训练模型的本质开始讲起。
他表示,预训练模型本质上是在学习数据中的统计规律,希望从数据中发掘出各种对象之间的关联性,也就是「知识」。人类上千年文明沉淀下来的文字就蕴含了丰富的知识,比如逻辑、文学、历史、政治这些抽象的知识,所以能够训练出 GPT-4这类优秀的大型语言模型。
但是,真实世界还有很多要素是难以被准确描述的,或因为司空见惯很少被描述,包括空间结构、几何形状、3D 运动、接触变形等等。
「由于文字存在这些局限,大家买房都需要看户型图,甚至通过 VR 看房来了解房间的空间结构,而不是光看文字描述;而设计师也需要给用户寄送3D 样品才能让对方准确理解新产品的外观。」谭平举例说。
所以,谭平认为,要实现通用人工智能(AGI),我们需要两种类型的基础模型:一种是今天大家熟知的大语言模型(LLM),另一种则是视觉模型。两种模型学到的是不同类型的知识,互为补充。
不过,当前的一些视觉模型(比如 Midjourney)多是利用2D 图像来训练的,因为这类数据数量庞大,模型可以从中学到不同物体所具备的特征以及特征之间的关联,具有很强的泛化性。但美中不足的是,这些数据终究只记录了真实世界的一个侧面,或者说投影,会严重影响模型的学习效率,出现前面提到的多头、多脸等问题。而如果将模型对数据的理解上升到3D 维度,很多问题就会迎刃而解。
「自然界里面其实也是这个样子。所有的处于食物链顶端的物种,比如说灵长类和所有的猛禽、猛兽都是双眼朝前的,因为只有双眼朝前才有所谓的双目视觉,才能更好地感知三维信息。」谭平类比说。
因此,他们希望构建一个3D 基础模型,来让机器更深刻地理解真实世界,并以此为基础改造世界。从技术上来讲,这个模型要能够帮助机器感知3D 物体、3D 环境,理解形状、距离、空间位置关系等要素。同时,它还要有预判能力,预判这个3D 世界将如何随时间演化,推演可能发生的事件。「比如,家庭服务机器人需要知道花瓶掉落地面可能会摔坏,自动驾驶汽车需要知道墙拐角后面可能会有车或人。」谭平举例说。
「3D 基础模型是一个非常宏大的目标,是让 AI 从语言走向物理,从字面走向现实的必由之路。一旦实现这个目标,机器就可以构建一个真实世界的虚拟数字复刻,在这个数字复刻中模拟、仿真各种可能性,并通过机器人技术最终改造真实世界。」这是谭平带领的光影焕像希望达到的最终愿景。
在技术路线上,谭平认为,3D 基础模型也将采用和文本、图像一致的生成式预训练方式。因为生成模型采用自监督学习来训练神经网络,可以非常有效地处理海量训练数据。不过,在此之前,他们必须解决一个问题:如何在3D 数据极度匮乏的情况下训练3D 生成模型。
3D 数据:表达真实世界的稀缺「富矿」
预训练模型的本质是从数据中提炼知识。从这个角度来看,我们可以从两个维度来考察数据的价值:一个是数据中知识的丰富度,另一个是数据的规模。作为真实世界的一种高度精确的表达方式,3D 数据毫无疑问具有很高的知识丰富度,就像经济价值极高的「富矿」。但从数据规模上来看,3D 数据是极度稀缺的,因为这类数据通常是由艺术家们手工制作的,或者用专业的设备扫描而来,不像文字、图像那样在互联网上随处可见。
为了让我们直观地了解3D 数据的稀缺程度,谭平给出了一组数字:著名文生图模型 Stable Diffusion 使用了一个包含50亿个图像 - 文本对的数据集(LAION-5B)进行训练;但相比之下,当前最大的3D 数据集 Objaverse-XL 数据量仅达千万级,而且其中还包含很多质量参差不齐的数据,清洗后实际可用的数据完全没有办法和文字图像进行类比。在这种情况下,如果只用3D 原生数据去做训练,模型很容易过拟合,泛化性能会受到影响,能处理的任务非常有限。
3D 生成模型泛化能力不足的例子。在这几个例子中,模型分别被要求生成「骑着火箭的柯基」、「背着双肩包的猪」和「弹吉他的松鼠」,结果模型漏掉了一些元素。
「3D 数据本来就在一个比2D 数据更高维的空间,很可能需要更多的数据才能训练好模型。所以目前的数据是极为不足的。这是一个全行业的挑战,很难在短期内解决。」谭平介绍说。
为了应对这一问题,很多研究会选择基于2D 数据来训练生成模型。比如一种常见的路线是先用2D 生成模型生成一张2D 图像,再用这张生成的图像去优化一个3D 模型,然后重复这一过程,直到3D 模型渲染的图像和生成模型产生的2D 图像变得一致。这种方式的好处是训练数据易得,生成模型泛化能力强;局限性在于,由于2D 生成模型学到的3D 先验知识不够全面(比如缺乏关于相机视点的信息和物体的姿态、几何结构知识),生成的3D 结果会出现多视角不一致等问题(如下图中的几何结构错乱)。
因此,光影焕像的目标是在3D 数据稀缺的客观条件下,同时使生成模型的泛化能力、生成效果达到可落地水平。要突破这一目标,对3D 数据的认知是破局关键之所在。
光影焕像技术路线:用好3D 数据
2D 数据数量丰富,训练出的生成模型泛化能力强;3D 数据知识丰富度高,训练出的生成模型更懂3D 世界。因此,光影焕像在打造3D 模型时首创了基于多源数据的模型融合训练策略,把2D、3D 数据都充分利用了起来,重点提升了3D 数据的利用效率。
我们以一个熊的生成任务为例。单纯基于2D 图像训练的模型经常会生成多视角不一致的图像(如下图)。
所谓的多视角不一致可以从两个方面来理解:几何不一致(如多个头)和外观不一致(如多张脸)。在一项相关研究中,光影焕像发现,大多数的多视角不一致问题源于几何结构的错位。即在将2D 结果提升到3D 世界时,由于2D 生成模型仅学会了和视角无关的先验知识(颜色、纹理等在不同视角下都相同的信息),导致多视角不一致性问题。因此他们把主要目标定为通过改进2D 生成模型,使其能够产生3D 一致的几何结构,同时保持模型的通用性。
为了实现这一目标,团队提出了一种方法,即先用2D 图像训练扩散模型,然后再用3D 数据去对2D 扩散模型进行对齐(align),使2D 扩散模型具备视角感知能力,并生成规范坐标映射(CCM),从而在2D 到3D 的提升过程中与3D 几何结构对齐。利用这一方法,光影焕像仅使用相对少量的3D 数据,就能获得更强的结果,多视角不一致问题得到大大缓解。
而且,这样训练出的模型还保持了强大的泛化能力,支持更多样的创意(与仅基于3D 数据训练的模型相比)。
不同模型文生3D 效果。最右为光影焕像的模型生成效果。
当然,除了文生3D 之外,利用2D 图像重建3D 物体也是一个常见的方向。光影焕像的团队近期研发了一款通过手机拍照实现高质量三维重建的软件,这背后离不开更准确的相机姿态估计。
「我们团队过去有多年的三维视觉的技术积累,对于相机姿态求解更有经验,可以处理更复杂的数据。」谭平介绍说。
这些基础技术突破为光影焕像未来打造强大的3D 基础模型打下了基础。
谭平:3D 基础模型刚刚起步
先解决技术问题才能加速拐点的到来
虽然是一家以技术起家的公司,但从谭平目前透露的信息来看,光影焕像并不崇尚「闭门造车」的做事方式,而是已经按照存量市场和增量市场的划分,展开了商业化落地的探索。
在存量市场上,3D 视觉在游戏、影视制作、物体 / 场景三维重建等 ToB 领域有着广阔的应用场景。这些领域需要消耗大量的3D 资产,但资产的制作周期却很长,成本也很高,严重拖累了产品的迭代更新速度,这是谭平观察到的现象。
「不同于依赖专业人士制作3D 资产,目前海外的一些公司(比如 Minecraft、Roblox 等游戏公司)采取开放策略,让用户自己快速制作3D 内容,极大地挖掘了玩家的创意,提升了游戏的可玩性。但目前用户创建的内容质量都比较粗糙。我们的3D 基础模型有机会实现更高质量的内容创建。」谭平介绍说。
从目前公布的技术进展中,我们也能看到光影焕像在这方面所做的努力。比如,他们的文生3D 技术其实支持多种生成类型(模型、纹理、 空间布局)和多种三维数据表达(经典网格模型、NeRF 等)。这意味着,他们的模型更容易集成到现有的渲染引擎、接到不同的应用中去。相比而言,今天很多文生3D 的模型都是基于 NeRF 表达来设计的,这样可能就没办法直接应用于游戏等应用,而光影焕像的模型就更为灵活。
在以 XR、具身智能等前沿技术驱动的增量市场上,光影焕像同样大有可为。
比如,在研发3D 生成模型过程中,他们发现,生成模型可以增强机器的泛化能力,帮助机器处理从未遇到过的场景问题:给定一个未知物体的图像,生成模型可以生成出这个物体适合被机械手抓取的点,然后结合三维坐标的深度信息形成稳定的抓取位置,控制机器人去抓取过去从未见过的物体,极大地提高了机器的通用抓取能力。
当然,这只是3D 生成模型应用于机器人研究的一个例子。在更广阔的具身智能领域,许多任务(如物体的姿态估计、操作序列生成)都需要在3D 空间中来完成,也都可以受益于3D 基础模型的发展。「我们相信下一代消费级的计算终端终将到来,服务性机器人也终将会走到千家万户,3D 基础模型所带来的能力可以帮助这些智能设备理解真实物理世界,从而更好地完成各种任务。」谭平展望说。
不过,需要承认的一点是,现在的3D 基础模型尚不成熟,可能处于 ChatGPT1.0的水平。但是,我们还是可以明显看到技术的拐点。按照团队当前的研发规划,光影焕像有望在2-3年内达到生产级别的可用性。因此,谭平认为,现在的重心应该是解决底层的技术问题,所有的短期商业化策略都应该是为技术的迭代和公司实现自我造血服务的,真正的商业化爆发时间点将在技术成熟之后。
为此,他组建了一支精悍的技术团队。团队成员大都来自于互联网大厂,包括阿里、字节、美团等。他们在三维视觉领域都有多年的研发经验,也取得了很好的成绩,例如2019年 KITTI Depth Completion Benchmark 第一名、2020年 Multi-view Stereo Benchmark 第一名、2022年 KITTI/NYU Depth Estimation Benchmark 第一名等。他们研发出的一些底层技术也被外界广泛应用,比如在2022年 CVPR 的 Image Matching Challenge 中,前6名有一半的团队采用了他们提出的用于图像匹配的网络 QTA。
对于公司所选的这个方向,身为创始人的谭平有着坚定的信念。20多年前,他被射影几何的优雅、简洁以及3D 视觉理论的严谨、深邃所吸引,走进了这个领域。后来在企业工作的经历让他认识到,虽然3D 很难,但是应用很丰富,不论是自动驾驶、机器人还是 AR/VR,各种应用都需要让机器理解真实物理世界,都离不开3D 视觉。这坚定了他深耕3D 这个方向的信心。
「我非常笃定,在退休之前,我做的工作肯定只会是三维视觉,肯定都是跟自动驾驶、机器人、AR/VR 眼镜相关的东西,除了这个我可能什么都不想碰。」谭平曾对学生说。
目前,谭平带领的这支创业团队已经得到了不少投资人的青睐。种子轮领投方清智资本合伙人张煜表示:
目前,光影焕像在3D 基础模型方向的工作正在稳步推进,我们期待他们早日实现下一个突破。