12月29日 消息:近期,清华大学刘永进教授课题组在文生3D领域取得了重大突破,提出的TICD模型在SOTA水平上取得了显著的成绩。本文将介绍TICD的创新之处以及其在3D图形生成领域的应用。
TICD模型的关键创新在于引入多视角一致性先验,通过以文本和图像为条件的多视角图像纳入NeRF监督信号,提高了生成3D模型的一致性和质量。相较于传统的预训练扩散模型,TICD克服了生成几何结构较差的问题,为文生3D领域带来了新的突破。
论文地址:https://arxiv.org/pdf/2312.11774.pdf
TICD经过T3Bench数据集上的定性和定量测试,结果显示其在单对象、单对象带背景、多对象提示集上都取得了最佳的成绩。这不仅证实了TICD在生成质量和文本对齐性上的整体优势,同时也为其在实际应用中提供了可靠的验证。
TICD的工作流程包括采样正交相机视角、NeRF渲染参考视图、基于文本的条件扩散模型等步骤。通过结合两种扩散模型的监督信号,TICD能够循环迭代优化NeRF网络参数,最终渲染出高质量、几何清晰且与文本一致的3D内容。同时,TICD方法还解决了现有方法可能面临的几何信息消失、错误几何信息过量生成、颜色混淆等问题。
未来,TICD有望在更广泛的应用中发挥重要作用,为文本生成3D领域的发展提供新的思路与可能性。