Zero123

3小时前发布 2 00

一种从单个图像到一致的多视图扩散基础模型,旨在使用单视图输入生成 3D 一致的多视图图像。

所在地:
美国
收录时间:
2025-11-07
比特指纹浏览器

今天,我们发布了稳定版 Zero123,这是我们内部训练的模型,用于生成视图条件图像。与之前最先进的 Zero123-XL 相比,稳定的 Zero123 产生了显着改善的结果。这是通过 3 项关键创新实现的:

1、改进的训练数据集,从 Objaverse 中大量过滤,只保留高质量的 3D 对象,我们渲染的对象比以前的方法更加真实。

2、在训练和推理过程中,我们为模型提供了估计的摄像机角度。这种海拔调节使其能够做出更明智、更高质量的预测。

3、预先计算的数据集(预先计算的潜在变量)和改进的数据加载器支持更高的批量大小,与第一个创新相结合,与 Zero123-XL 相比,训练效率提高了 40 倍。

数据统计

相关导航