Universal TTS Guide

A comprehensive guide to TTS dataset prep and training

View on GitHub

Ръководство 6: Отстраняване на проблеми и ресурси

Навигация: Главно README Предишна стъпка: Пакетиране и споделяне

Това ръководство предоставя решения за често срещани проблеми, възникващи по време на процеса на подготовка на данни, обучение и извеждане на TTS, заедно със списък с полезни инструменти и ресурси.


8. Отстраняване на често срещани проблеми

Обърнете се към тази таблица, когато срещнете проблеми. Проблемите често се проследяват обратно до качеството на данните или настройките на конфигурацията.

Категория проблем Конкретен проблем Възможни причини и решения Съответни ръководства
Подготовка на данни Грешки в скриптовете по време на разделяне/нормализация Неправилни пътища на файлове; първоначално неподдържан аудио формат; липсващи зависимости (ffmpeg, pydub); изключително шумно/тихо аудио, объркващо откриването на тишина. Проверете пътищата на скриптовете, инсталирайте зависимостите, настройте параметрите за тишина. 1_DATA_PREPARATION.md
  Генерирането на манифест пропуска много файлове Несъответстващи имена на файлове между аудио и транскрипции; празни файлове с транскрипции; неправилни пътища, посочени в скрипта; не-UTF8 кодиране в текстовите файлове. Проверете именуването, проверете пътищата, уверете се, че текстовите файлове имат съдържание и UTF-8 кодиране. 1_DATA_PREPARATION.md
Настройка за обучение pip install се проваля Липсващи системни библиотеки (напр. libsndfile-dev); несъвместима версия на Python; проблеми с мрежата; конфликти между пакети. Прочетете внимателно съобщенията за грешки, инсталирайте системните библиотеки, използвайте виртуална среда, проверете документацията на рамката за предпоставки. 2_TRAINING_SETUP.md
  PyTorch cuda is not available Инсталирана неправилна версия на PyTorch (само CPU); несъвместима версия на NVIDIA драйвер/CUDA toolkit; GPU не се открива от ОС. Преинсталирайте PyTorch с правилната CUDA версия от официалния сайт, актуализирайте драйверите. 2_TRAINING_SETUP.md
Изпълнение на обучението CUDA Out-of-Memory (OOM) грешка в началото/по време на обучението batch_size твърде голям за GPU VRAM; архитектурата на модела твърде сложна; изтичане на памет в рамката/персонализирания код. Намалете batch_size в конфигурацията; активирайте Automatic Mixed Precision (AMP/FP16), ако е налично; проверете за актуализации на рамката. 2_TRAINING_SETUP.md, 3_MODEL_TRAINING.md
  Загубата при обучение е NaN или дивергира (експлодира) Скоростта на обучение твърде висока; нестабилни градиенти; лоша партида данни (напр. повредено аудио/текст); проблеми с числената прецизност. Намалете скоростта на обучение; проверете качеството на данните; използвайте клипиране на градиента (често активирано по подразбиране); опитайте FP32, ако използвате AMP/FP16. 2_TRAINING_SETUP.md, 3_MODEL_TRAINING.md
  Загубата при обучение стагнира (не намалява) Скоростта на обучение твърде ниска; лошо качество/разнообразие на данните; моделът заседнал в локален минимум; неправилна конфигурация на модела. Увеличете леко скоростта на обучение; подобрете/увеличете данните; проверете конфигурацията (особено аудио параметрите); опитайте различен оптимизатор. 1_DATA_PREPARATION.md, 2_TRAINING_SETUP.md, 3_MODEL_TRAINING.md
  Загубата при валидация се увеличава, докато загубата при обучение намалява (Свръхобучение) Моделът запаметява данните за обучение; недостатъчен/непредставителен набор за валидация; обучение за твърде дълго време. Спрете обучението рано (въз основа на най-добрата загуба при валидация); добавете повече разнообразни данни за обучение; използвайте регуляризация (weight decay, dropout - проверете конфигурацията); подобрете набора за валидация. 1_DATA_PREPARATION.md, 3_MODEL_TRAINING.md
Качество на извеждането Изходът звучи роботизирано/монотонно Недостатъчно обучение; лоша прозодия в данните за обучение; ограничения на архитектурата на модела; проблеми с нормализацията на текста. Обучавайте по-дълго; подобрете разнообразието/качеството на данните; опитайте различна архитектура на модела; уверете се, че текстът е добре пунктуиран/нормализиран. 1_DATA_PREPARATION.md, 3_MODEL_TRAINING.md, 4_INFERENCE.md
  Изходът е шумен/неразбираем/неразбираем Лошо качество на данните (вграден шум); моделът не е сходил; несъответствие между конфигурацията за обучение и конфигурацията/контролната точка за извеждане; неправилна честота на семплиране, използвана при извеждане. Почистете старателно данните за обучение; обучавайте по-дълго; осигурете ТОЧНО съвпадение на конфигурацията/контролната точка; проверете аудио параметрите. Всички ръководства
  Изходът звучи като грешен говорител (фина настройка) Предварително обученият модел не е зареден правилно; скоростта на обучение твърде висока първоначално; недостатъчни данни/стъпки за фина настройка; несъответствие на ID на говорителя. Проверете pretrained_model_path и ignore_layers в конфигурацията; използвайте по-ниска скорост на обучение за фина настройка; обучавайте по-дълго; проверете ID на говорителя. 2_TRAINING_SETUP.md, 3_MODEL_TRAINING.md, 4_INFERENCE.md
  Извеждането прекъсва рано или говори твърде бързо/бавно Ограничение на модела (предсказване на продължителността); настройка за извеждане, ограничаваща максималната дължина на изхода; неправилен параметър за мащаб на дължината/скоростта. Проверете документацията на рамката за настройки за максимални стъпки на декодера / максимална дължина; настройте параметрите за контрол на скоростта. 4_INFERENCE.md
Използване на модела Не може да зареди файла с контролната точка Повреден изтеглен/файл; използване на контролна точка с несъвместима версия на рамката или конфигурационен файл; неправилен път на файла. Изтеглете отново/проверете целостта на файла; използвайте правилната конфигурация; уверете се, че версията на рамката съответства на тази, използвана за обучение; проверете пътя. 5_PACKAGING_AND_SHARING.md, 4_INFERENCE.md

10. Полезни ресурси и инструменти

Този списък включва софтуер, библиотеки и общности, полезни за TTS проекти.

Обработка и анализ на аудио:

Транскрипция (ASR):

TTS рамки и кодови бази (Примери - Проверете за активни разклонения/наследници):

Python среда и дълбоко обучение:

Общности:


Това завършва основната серия от ръководства. Не забравяйте, че изграждането на добри TTS модели често включва итерация – преразглеждане на подготовката на данни или настройка на параметрите за обучение въз основа на резултатите е обичайна практика. Успех!


Навигация: Главно README | Предишна стъпка: Пакетиране и споделяне | Обратно към началото