Zyphra анонсировала бета-релиз Zonos-v0.1 — набора открытых моделей для синтеза речи (Text-to-Speech, TTS), которые включают функции высококачественного клонирования голоса и работы в реальном времени. Этот релиз представляет собой значительный шаг вперед в области открытых технологий синтеза речи, предлагая исследователям и разработчикам мощные инструменты для создания реалистичных голосовых моделей.

Что такое Zonos?

Zonos — это набор моделей TTS, включающий две модели с 1,6 миллиардами параметров: одну на основе трансформеров и другую гибридную модель, использующую state-space models (SSM). Обе модели доступны под лицензией Apache 2.0, что делает их свободными для использования, модификации и распространения. Это открывает широкие возможности для интеграции Zonos в различные проекты, от научных исследований до коммерческих приложений.

The simulation is sounding ever smarter…

from the DeepSeek of the free world: @ZyphraAI pic.twitter.com/2ZXuze2Jpc
— Steve Jurvetson (@FutureJurvetson) February 10, 2025

Основные особенности Zonos

Высококачественное клонирование голоса
Zonos позволяет клонировать голос на основе аудиозаписей длительностью всего 5-30 секунд. Это делает его идеальным инструментом для создания персонализированных голосовых помощников, озвучки контента и других задач, требующих уникальных голосовых характеристик.
Поддержка эмоций и параметров речи
Модели Zonos поддерживают настройку эмоций (например, грусть, гнев), темпа речи, высоты тона и качества звука. Это позволяет создавать более выразительные и естественные аудиозаписи.
Высокое качество звука
Zonos генерирует речь с разрешением 44 кГц, что обеспечивает превосходное качество звучания. Однако это также увеличивает вычислительные затраты, особенно при использовании высокопроизводительных GPU.
Гибридная модель для снижения задержек
Гибридная модель Zonos, основанная на архитектуре Mamba2, оптимизирована для работы с меньшей задержкой и сниженным использованием памяти по сравнению с трансформерной моделью. Это делает её более подходящей для приложений, требующих работы в реальном времени.
Многоязычная поддержка
Модели Zonos были обучены на наборе данных объемом около 200 000 часов, включающем английский, китайский, японский, французский, испанский и немецкий языки. Однако производительность на менее представленных языках пока ограничена.

Ограничения и планы на будущее

Несмотря на впечатляющие возможности, Zonos сталкивается с некоторыми вызовами:

Артефакты звука: Иногда в генерируемом аудио могут возникать небольшие искажения.
Проблемы с выравниванием текста: Модели могут испытывать трудности с точным воспроизведением длинных или сложных текстов.
Высокие требования к вычислительным ресурсам: Для достижения наилучшего качества требуется мощное оборудование, такое как NVIDIA RTX 4090, где задержка составляет 200-300 мс.

Zyphra планирует улучшить Zonos в будущих обновлениях, сосредоточившись на следующих аспектах:

Расширение поддержки языков.
Повышение точности произношения.
Улучшение контроля над эмоциями.
Оптимизация эффективности вывода.

Конкуренция с проприетарными решениями

Zyphra позиционирует Zonos как альтернативу проприетарным решениям, таким как ElevenLabs. Открытый характер Zonos позволяет исследователям и разработчикам вносить свой вклад в развитие технологии, что способствует прогрессу в области синтеза речи.

Заключение

Zonos от Zyphra — это мощный инструмент для синтеза речи, который сочетает в себе высокое качество звука, поддержку клонирования голоса и открытый исходный код. Хотя модель всё ещё находится на стадии бета-тестирования, её потенциал уже впечатляет. С дальнейшими улучшениями Zonos может стать одним из ведущих решений в области TTS, доступных для широкого круга пользователей.

Для тех, кто хочет опробовать Zonos, модели уже доступны на платформах Huggingface и GitHub. Это отличная возможность для разработчиков и исследователей внести свой вклад в развитие открытых технологий синтеза речи.