Мировые новости математики

Представлена нейросеть POINT-E, которая по текстовому описанию создаёт 3D-модели

Источник изображения: Milad Fakurian/unsplash.com


OpenAI, уже прославившаяся благодаря генератору DALL-E, способному генерировать изображения по текстовым описаниям, выпустила новый революционный продукт. Компания сообщила о новейшей разработке POINT-E, готовой создавать 3D-фигуры из «облака» точек — тоже с помощью текстовых описаний. В то время, как у существующих систем вроде Google DreamFusion уходит на каждую попытку по несколько часов и огромные ресурсы GPU, POINT-E нужен минимум аппаратных ресурсов и минута-две времени.


Вполне возможно, что скоро мир увидит не только забастовки обычных авторов цифровых картин, но и художников, занимающихся 3D-моделированием, которое используется сегодня буквально повсеместно в медиасфере. CGI-эффекты применяются в современных кино, видеоиграх, AR и VR, и даже при создании карт лунных кратеров организациями вроде NASA. Технологию активно использует Google, буквально вся концепция метавселенной Meta* выстроена на использовании 3D-графики. Тем не менее создание трёхмерных изображений всё ещё остаётся очень ресурсоёмким процессом, отнимающим много времени, несмотря на попытки компаний вроде NVIDIA или Epic Games ускорить развитие отрасли.

В последнее время большую популярность приобрели генераторы изображений по текстовым описаниям: DALL-E 2 и Craiyon компании OpenAI, DeepAI, Lensa разработки Prisma Labs или Stable Diffusion компании HuggingFace. Преобразование текста в 3D является перспективным ответвлением подобных разработок.


Как сообщают в OpenAI, для создания трёхмерного объекта по описанию сначала создаётся по тексту обычное изображение, после чего на его основе создаётся 3D-облако точек. Всё происходит в течение секунд и не требует дорогостоящих процедур. Например, при вводе описания «кот, поедающий буррито» (a cat eating a burrito), POINT-E сначала сгенерирует синтетический 3D-рендер кота, после чего начнёт комбинировать серию моделей для создания трёхмерного объекта, сначала — из 1024 точек, потом из 4096. При этом сам объект непосредственно по описанию не создаётся.

Созданию 3D-объектов нейросеть обучена на основе анализа «миллионов» трёхмерных изображений. Разработчики заявляют, что, хотя по качеству готовые работы уступают некоторым конкурирующим технологиям, но образцы можно создавать очень быстро, причём желающие и имеющие необходимый опыт могут оценить предложенный код модели, посетив GitHub.