PanoHead: Геометрически осведомленный 3D-синтез полных голов в 360°

ОтСергей Лебедев 01.09.2023 Время чтения: 1 минута

Создание трехмерных изображений человеческих голов приобрело все большую популярность в области компьютерного зрения и компьютерной графики. Существующие передовые генеративные сети соперничества (GAN) для синтеза трехмерных голов ограничены близкими к фронтальным видам или с трудом сохраняют трехмерную согласованность в больших углах обзора. Мы представляем PanoHead — первую трехмерную генеративную модель, которая обеспечивает синтез изображений высокого качества с согласованным видом полных голов в 360° с разнообразным внешним видом и детальной геометрией, используя только неструктурированные изображения «в дикой природе» для обучения.

На самом деле PanoHead работает на самых разнообразных изображениях, что делает его мощным инструментом для создания трехмерных изображений. Наши ключевые инновации включают в себя двухэтапное самоадаптивное выравнивание изображений и трехмерное нейронное представление объема, которые справляются с особенностями фронтального и заднего вида, связанными с широко используемой формулировкой три-плоскости.

Суть нашего метода заключается в увеличении мощности представления современных 3D GAN и устранении разрыва в выравнивании данных при обучении на неструктурированных изображениях с широким распределением видов. Важным достижением является введение нейронного объемного представления, которое эффективно решает проблему взаимосвязи признаков передней и задней части головы, связанную с широко используемой трехплоскостной формулировкой.

Кроме того, наш метод интегрирует знания о сегментации двухмерных изображений в адверсарном обучении трехмерным структурам сцены. Это позволяет создавать композиционный синтез головы в различных фоновых условиях. Благодаря этим разработкам, наш метод значительно превосходит предыдущие 3D GAN, создавая трехмерные головы высокого качества с точной геометрией и разнообразным внешним видом, даже с длинными волнистыми и африканскими прическами, которые можно отображать с любых ракурсов.

Более того, мы демонстрируем, что наша система способна восстанавливать полные трехмерные головы из одиночных входных изображений для создания реалистичных трехмерных аватаров. Это открывает перед вами мир возможностей для создания персонализированных и реалистичных трехмерных изображений.

Требования:

Рекомендуется использовать Linux для лучшей производительности и совместимости.
1-8 высокопроизводительных видеокарт NVIDIA. Все тестирование и разработка проводились с использованием видеокарт V100, RTX3090 и A100.
Python 3.8 (или более поздняя версия) и PyTorch 1.11.0 (или более поздняя версия). Инструкции по установке PyTorch можно найти на сайте https://pytorch.org.
Набор инструментов CUDA 11.3 (или более поздняя версия). (Почему требуется отдельная установка набора инструментов CUDA? Мы используем настраиваемые расширения CUDA из репозитория StyleGAN3. См. раздел «Устранение неполадок»).
Python-библиотеки. Для точных зависимостей от библиотек можно обратиться к файлу environment.yml. Вы можете использовать следующие команды с Miniconda3 для создания и активации среды Python:

   cd PanoHead
   conda env create -f environment.yml
   conda activate panohead

Начало работы:

Для начала работы с PanoHead следуйте инструкциям:

Скачайте папку models по ссылке и поместите ее в корневой каталог.
Предварительно обученные сети хранятся как файлы с расширением .pkl и могут быть использованы с локальными именами файлов.

Генерация результатов:

Вы можете генерировать видеоролики и изображения с использованием предварительно обученной модели, используя соответствующие Python-скрипты. Ниже приведены примеры команд для генерации видеороликов и изображений:

Генерация видеороликов:

   python gen_videos.py --network

 models/easy-khair-180-gpc0.8-trans10-025000.pkl \
   --seeds 0-3 --grid 2x2 --outdir=out --cfg Head --trunc 0.7

Генерация изображений и форм (в формате .mrc):

   python gen_samples.py --outdir=out --trunc=0.7 --shapes=true --seeds=0-3 \
   --network models/easy-khair-180-gpc0.8-trans10-025000.pkl

Этот проект открывает новые возможности в создании трехмерных изображений и имеет большой потенциал для создания реалистичных трехмерных аватаров и других трехмерных визуализаций.

Сергей Лебедев

Сергей — технический энтузиаст и эксперт по нейронным сетям. Он основал Neiroseti Online, чтобы сделать нейронные сети доступными для всех.

Article Outline

AI-ROBO.RU: Нейросеть с уникальными возможностями

ОтСергей Лебедев 19.09.202319.09.2023

Искусственный интеллект играет все более важную роль в обработке текста, и одной из наиболее востребованных нейросетей…

Translumo: Продвинутый Экранный Переводчик

Translumo: Продвинутый Экранный Переводчик для Творчества и Продуктивности

ОтСергей Лебедев 22.08.202322.08.2023

В мире, где информация буквально находится у нас под рукой, возможность быстрого и точного перевода текста…

Нейросеть поможет сделать правильный выбор

Нейросеть поможет сделать выбор в любой ситуации

ОтKonstantin 14.08.202314.08.2023

Нейросеть для взвешенных решений Учитывая современный ритм жизни, часто приходится принимать решения на скорую руку. Но…

Стикеры в телеграм

Как сделать стикеры: подробное руководство с изображениями и советами

ОтСергей Лебедев 08.08.202310.10.2023

Магия Творчества и Удобства с Ботом для Стикеров и Аватарок Сегодняшний мир насыщен технологиями, приносящими радость…

Нейросети в образовании: Как технологии меняют школьное обучение

Нейросети в образовании: Как технологии меняют школьное обучение

ОтСергей Лебедев 23.09.202323.09.2023

Введение Современное образование находится в постоянном развитии, и одним из ключевых факторов, определяющих его будущее, являются…

FaceChain

Нейросеть FaceChain: Создание Цифрового Двойника с Помощью Глубокого Обучения

ОтСергей Лебедев 06.09.202320.09.2023

FaceChain — это цепочка инструментов машинного обучения для создания вашего цифрового двойника. Имея как минимум 1…