--- language: - ru license: apache-2.0 tags: - audio - speech - tts - vae - neural-codec metrics: - pesq - utmos library_name: torch pipeline_tag: audio-to-audio --- # E-VAE-44100-25hz **E-VAE** — это высококачественный стриминговый аудио-VAE Модель разработана для задач синтеза речи. Она сжимает аудио 44.1 кГц в компактное латентное представление с частотой обновления 25 Гц. ## Метрики качества | Metric | Value (Mean) | Min / Max | Description | | :--- | :--- | :--- | :--- | | **PESQ** | **3.072** | 1.076 / 3.933 | Perceptual Evaluation of Speech Quality (Wideband) | | **UTMOS** | **3.052** | 1.335 / 3.813 | MOS prediction for naturalness | | **V/UV F1** | **0.975** | - | Точность определения тональных/шумовых участков | ## Технические характеристики * **Sample Rate:** 44100 Hz * **Frame Rate (Latent):** 25 Hz * **Downsampling Factors:** `[2, 3, 6, 7, 7]` * **Архитектура:** Fully Causal Conv1d + Snake Activations. ## Использование В файлах репозитория используйте ebanyvae.py и ebanyvae.pt