OpenAI объявила о выпуске своей новейшей нейросети для создания изображений POINT-E, которая может создавать трехмерные объекты из текстовых описаний, которые вы ей пишете. При этом он работает очень быстро (в сравнении с конкурентами).
Системы преобразования текста в изображение, такие как DALL-E 2 и Stable Diffusion, быстро завоевали популярность в последние годы.
“Чтобы получить 3D-объект из текста, мы сначала делаем выборку изображения, используя модель “текст-изображение”, а затем делаем выборку 3D-объекта на основе этой выборки. Оба этих шага могут быть выполнены за несколько секунд и не требуют дорогостоящих процедур оптимизации”, – пишут авторы нейросети.
Если вы введете текстовый запрос, скажем, “Кот ест буррито”, Point-E сначала сгенерирует синтетическое 3D-изображение кота, поедающего буррито. Затем он пропустит это изображение через серию диффузионных моделей для создания трехмерного облака точек RGB исходного изображения.
Каждая из этих диффузионных моделей была обучена на “миллионах” 3d-моделей, преобразованных в стандартный формат. “Хотя наш метод показал худшие результаты в этой оценке, чем современные методы”, – признает команда, – “он создает образцы за небольшую часть времени”. Если вы хотите попробовать свои силы, OpenAI разместила код проекта на Github.
Источник: Ferra