PanoHead: Геометрически осведомленный 3D-синтез полных голов в 360°
Создание трехмерных изображений человеческих голов приобрело все большую популярность в области компьютерного зрения и компьютерной графики. Существующие передовые генеративные сети соперничества (GAN) для синтеза трехмерных голов ограничены близкими к фронтальным видам или с трудом сохраняют трехмерную согласованность в больших углах обзора. Мы представляем PanoHead — первую трехмерную генеративную модель, которая обеспечивает синтез изображений высокого качества с согласованным видом полных голов в 360° с разнообразным внешним видом и детальной геометрией, используя только неструктурированные изображения «в дикой природе» для обучения.
На самом деле PanoHead работает на самых разнообразных изображениях, что делает его мощным инструментом для создания трехмерных изображений. Наши ключевые инновации включают в себя двухэтапное самоадаптивное выравнивание изображений и трехмерное нейронное представление объема, которые справляются с особенностями фронтального и заднего вида, связанными с широко используемой формулировкой три-плоскости.
Суть нашего метода заключается в увеличении мощности представления современных 3D GAN и устранении разрыва в выравнивании данных при обучении на неструктурированных изображениях с широким распределением видов. Важным достижением является введение нейронного объемного представления, которое эффективно решает проблему взаимосвязи признаков передней и задней части головы, связанную с широко используемой трехплоскостной формулировкой.
Кроме того, наш метод интегрирует знания о сегментации двухмерных изображений в адверсарном обучении трехмерным структурам сцены. Это позволяет создавать композиционный синтез головы в различных фоновых условиях. Благодаря этим разработкам, наш метод значительно превосходит предыдущие 3D GAN, создавая трехмерные головы высокого качества с точной геометрией и разнообразным внешним видом, даже с длинными волнистыми и африканскими прическами, которые можно отображать с любых ракурсов.
Более того, мы демонстрируем, что наша система способна восстанавливать полные трехмерные головы из одиночных входных изображений для создания реалистичных трехмерных аватаров. Это открывает перед вами мир возможностей для создания персонализированных и реалистичных трехмерных изображений.
Требования:
- Рекомендуется использовать Linux для лучшей производительности и совместимости.
- 1-8 высокопроизводительных видеокарт NVIDIA. Все тестирование и разработка проводились с использованием видеокарт V100, RTX3090 и A100.
- Python 3.8 (или более поздняя версия) и PyTorch 1.11.0 (или более поздняя версия). Инструкции по установке PyTorch можно найти на сайте https://pytorch.org.
- Набор инструментов CUDA 11.3 (или более поздняя версия). (Почему требуется отдельная установка набора инструментов CUDA? Мы используем настраиваемые расширения CUDA из репозитория StyleGAN3. См. раздел «Устранение неполадок»).
- Python-библиотеки. Для точных зависимостей от библиотек можно обратиться к файлу environment.yml. Вы можете использовать следующие команды с Miniconda3 для создания и активации среды Python:
cd PanoHead
conda env create -f environment.yml
conda activate panohead
Начало работы:
Для начала работы с PanoHead следуйте инструкциям:
- Скачайте папку models по ссылке и поместите ее в корневой каталог.
- Предварительно обученные сети хранятся как файлы с расширением .pkl и могут быть использованы с локальными именами файлов.
Генерация результатов:
Вы можете генерировать видеоролики и изображения с использованием предварительно обученной модели, используя соответствующие Python-скрипты. Ниже приведены примеры команд для генерации видеороликов и изображений:
- Генерация видеороликов:
python gen_videos.py --network
models/easy-khair-180-gpc0.8-trans10-025000.pkl \
--seeds 0-3 --grid 2x2 --outdir=out --cfg Head --trunc 0.7
- Генерация изображений и форм (в формате .mrc):
python gen_samples.py --outdir=out --trunc=0.7 --shapes=true --seeds=0-3 \
--network models/easy-khair-180-gpc0.8-trans10-025000.pkl
Этот проект открывает новые возможности в создании трехмерных изображений и имеет большой потенциал для создания реалистичных трехмерных аватаров и других трехмерных визуализаций.