Zyphra представляет Zonos: открытый набор инструментов для синтеза речи с функцией клонирования голоса

Zyphra анонсировала бета-релиз Zonos-v0.1 — набора открытых моделей для синтеза речи (Text-to-Speech, TTS), которые включают функции высококачественного клонирования голоса и работы в реальном времени. Этот релиз представляет собой значительный шаг вперед в области открытых технологий синтеза речи, предлагая исследователям и разработчикам мощные инструменты для создания реалистичных голосовых моделей.
Что такое Zonos?
Zonos — это набор моделей TTS, включающий две модели с 1,6 миллиардами параметров: одну на основе трансформеров и другую гибридную модель, использующую state-space models (SSM). Обе модели доступны под лицензией Apache 2.0, что делает их свободными для использования, модификации и распространения. Это открывает широкие возможности для интеграции Zonos в различные проекты, от научных исследований до коммерческих приложений.
The simulation is sounding ever smarter…
— Steve Jurvetson (@FutureJurvetson) February 10, 2025
from the DeepSeek of the free world: @ZyphraAI pic.twitter.com/2ZXuze2Jpc
Основные особенности Zonos
- Высококачественное клонирование голоса
Zonos позволяет клонировать голос на основе аудиозаписей длительностью всего 5-30 секунд. Это делает его идеальным инструментом для создания персонализированных голосовых помощников, озвучки контента и других задач, требующих уникальных голосовых характеристик. - Поддержка эмоций и параметров речи
Модели Zonos поддерживают настройку эмоций (например, грусть, гнев), темпа речи, высоты тона и качества звука. Это позволяет создавать более выразительные и естественные аудиозаписи. - Высокое качество звука
Zonos генерирует речь с разрешением 44 кГц, что обеспечивает превосходное качество звучания. Однако это также увеличивает вычислительные затраты, особенно при использовании высокопроизводительных GPU. - Гибридная модель для снижения задержек
Гибридная модель Zonos, основанная на архитектуре Mamba2, оптимизирована для работы с меньшей задержкой и сниженным использованием памяти по сравнению с трансформерной моделью. Это делает её более подходящей для приложений, требующих работы в реальном времени. - Многоязычная поддержка
Модели Zonos были обучены на наборе данных объемом около 200 000 часов, включающем английский, китайский, японский, французский, испанский и немецкий языки. Однако производительность на менее представленных языках пока ограничена.
Ограничения и планы на будущее
Несмотря на впечатляющие возможности, Zonos сталкивается с некоторыми вызовами:
- Артефакты звука: Иногда в генерируемом аудио могут возникать небольшие искажения.
- Проблемы с выравниванием текста: Модели могут испытывать трудности с точным воспроизведением длинных или сложных текстов.
- Высокие требования к вычислительным ресурсам: Для достижения наилучшего качества требуется мощное оборудование, такое как NVIDIA RTX 4090, где задержка составляет 200-300 мс.
Zyphra планирует улучшить Zonos в будущих обновлениях, сосредоточившись на следующих аспектах:
- Расширение поддержки языков.
- Повышение точности произношения.
- Улучшение контроля над эмоциями.
- Оптимизация эффективности вывода.
Конкуренция с проприетарными решениями
Zyphra позиционирует Zonos как альтернативу проприетарным решениям, таким как ElevenLabs. Открытый характер Zonos позволяет исследователям и разработчикам вносить свой вклад в развитие технологии, что способствует прогрессу в области синтеза речи.
Заключение
Zonos от Zyphra — это мощный инструмент для синтеза речи, который сочетает в себе высокое качество звука, поддержку клонирования голоса и открытый исходный код. Хотя модель всё ещё находится на стадии бета-тестирования, её потенциал уже впечатляет. С дальнейшими улучшениями Zonos может стать одним из ведущих решений в области TTS, доступных для широкого круга пользователей.
Для тех, кто хочет опробовать Zonos, модели уже доступны на платформах Huggingface и GitHub. Это отличная возможность для разработчиков и исследователей внести свой вклад в развитие открытых технологий синтеза речи.