一直以来,创作 3D 内容是设计和开发视频游戏、增强现实、虚拟现实以及影视特效中最重要的部分。
然而,3D 生成具有独特而艰巨的挑战,这是图像和视频等其他生成内容所不具备的。
首先,3D 内容在艺术质量、生成速度、3D 网格结构和拓扑质量、UV 贴图结构以及纹理清晰度和分辨率方面具有严格的标准;
其次,与其他研究相比,可用的数据量少。虽然该领域有数十亿张图像和视频可供学习,但可用于训练的 3D 内容数量要少三到四个数量级。因此,现阶段的3D 生成还必须从非 3D 的图像和视频中学习,而且需要从部分 2D 观察中推断出 3D 信息;
传统方法生成的3D 资源通常难以实现逼真的照明和材质属性,从而限制了它们在专业工作流程中的实用性;
3D生成是一个非常耗费算力的过程,主要因为它涉及到复杂的计算和大量的数据处理,如实时渲染、细节处理。并且由于算力不够,可能会导致生成速度非常慢。
刚刚,Meta发布了最新系统Meta 3D Gen (3DGen),其用不到一分钟的时间,就能直接从文本生成3D资产。
3DGen支持基于物理的渲染 (PBR),这是在实际应用中重新照明 3D 资产所必需的。此外,3DGen 还支持使用用户提供的额外文本输入对先前生成的(或艺术家创建的)3D 形状进行重新纹理化。
3DGen还能对生成的对象纹理进行进一步编辑和定制,同样的方法也可以应用于艺术家创建的3D网格纹理而不需要修改。如下所示,3DGen将艺术家创建的3D资产渲染成彩色的蝴蝶。
通过展示可以看出,即使是复杂的文本提示,3DGen也能很好地遵循指令,生成的3D形状和纹理质量也比较好。
这些技术协同工作,可生成具有高分辨率纹理和PBR材质的 3D 资产。Meta表示,该流程的速度是现有解决方案的 3 到 10 倍。
第一阶段为3D 资产生成阶段。在这一阶段,根据用户提供的文本提示,Meta 3D AssetGen(简称 AssetGen)创建初始 3D 资产。此步骤生成具有纹理和 PBR 材质贴图的 3D 网格。推理时间约为 30 秒。
接下来是第二阶段。给定第一阶段生成的 3D 资产和用于生成的初始文本提示,第二阶段将基于该资产和提示生成更高质量的纹理和 PBR 贴图。第二阶段用到了文本到纹理生成器 Meta 3D TextureGen(简称为 TextureGen)。推理时间约为 20 秒。
此外,给定一个无纹理的 3D 网格和描述其所需外观的提示,第二阶段还可用于从kb体育官方网站 kb体育登录头开始为该 3D 资产生成纹理(网格可以是先前生成的,也可以是艺术家创建的)。推理时间约为 20 秒。
下图为第一阶段和第二阶段可视化对比。后者往往具有更高的视觉美感,看起来更逼真,细节频率更高。
我们不难发现,3DGen 以 AssetGen 和 TextureGen 为基础,将3D 对象的三个关键信息进行了很好的互补:视图空间(对象的图像)、体积空间(3D 形状和外观)和 UV 空间(纹理)。
此过程从 AssetGen 开始,通过使用一个多视角和多通道的文本到图像生成器,生成关于物体的几个相对一致的视图。接着,AssetGen中的一个重建网络会在体积空间中提取出3D对象的第一个版本。此过程接着进行网格提取,建立对象的3D形状和其纹理的初步版本,这一系列步骤构成了从文本描述到3D模型的转换过程。最后,TextureGen 组件利用视图空间和 UV 空间生成的组合来重新生成纹理,提高纹理质量和分辨率,同时保持对初始提示的保真度。
在功能上,除了Rodin支持重拓扑之外,笔者实测Tripo3D也支持retopology。
分项评测方面,最简单的objects中表现最好的是Meshy v3。角色类和复杂组合概念的表现代表了技术水准,也是3D产业应用中最重要的部分,Meta在复杂组合上排名第一,Tripo3D则是难度越高表现越强,仅次于Meta,和第一名差距很小。
表3比较了Meta和其他方法的A/B win rate和loss rate结果,数字win rate越低代表所对比方法越强,loss rate越高代表所对比方法越强,可以得出:
All users和专业用户打分标准可以看出略有不同,但排名趋势是一样的:对几何和纹理的正确性给予了更多的权重;
上图横坐标是前面提到的prompt复杂度,纵坐标是Meta win rate,低于50%说明对比方法比Meta好,折线越低说明方法越好。图中比较了多个维度,包括prompt还原度、综合视觉质量、几何视觉质量、纹理细节、纹理瑕疵等指标。
Meta在论文中谈到越复杂的prompt,他们的方法优势越明显,这个其实和前面Table 2中Tripo3D的趋势和优势是一致的。可以推测如果这里加上Tripo3D,Tripo和Meta应该不分伯仲。
在这篇论文中,Meta还给出了几个模型的定性结果对比图,我们可以从这些图中看出一些差别。
从prompt遵循程度来看,3DGen表现优秀,比如对于第一行的羊驼雕塑,它可以把prompt中提到的logo文字写上。但以第三行的case为例,CSM的语义理解较弱,Tripo则展现了其他模型都失败的「被锻造的锤子」,甚至还基于推理生成了3DGen没有考虑到的炭火。
但综合几何细节和纹理细节来看,3DGen的纹理细节略显粗糙,Meshy和Rodin的第一行几乎没什么纹理,而Tripo3D的纹理结果则要好得多,几何细节非常丰富,人、物也更保线DGen一样有时候脸会垮掉。
图7表现了同一场景下的比较结果,包括 Tripo3D 、Meshy v3 、以及 3DGen。综合来看,Meshy方法生成的纹理瑕疵多一些、生成的几何粗糙一些;放大来看,Tripo和3DGen效果不相上下,但Tripo生成结果更形象、灵动一些。
3D生成赛道其实一直是资本市场的宠儿。A16Z接连对3D生成赛道出手,除了最近名声大噪的Luma Labs之外,Meta论文中提到的CSM,Google系的Yellow,还有曾经争议较大的Kaedim都是A16Z的被投明星企业。
据笔者根据Tripo官方海外媒体信息,全球开发者已经基于TRIPO生成了近四百万个3D模型,TripoSR上线一周就在Github上拿到了3K+的star量。基于这种人气,Tripo社区也推出了全球第一个AI 3D全球渲染大赛。
据笔者调研,不管是CG还是3D打印领域都有许多目前的落地探索,不管是全球最大的3D素材交易网站CG模型网定向邀请创作者测试,还是3D打印龙头开始探索AI,都体现出比想象中更快的商业化落地速度。
总体来看,3D生成技术在学术和行业落地层面都不断取得突破性进展,我们有理由相信,3D大模型会释放更多潜力。
本文为澎湃号作者或机构在澎湃新闻上传并发布,仅代表该作者或机构观点,不代表澎湃新闻的观点或立场,澎湃新闻仅提供信息发布平台。申请澎湃号请用电脑访问。