Universal TTS Guide

A comprehensive guide to TTS dataset prep and training

View on GitHub

Guide Universel pour l’Entraînement de Modèles TTS et la Préparation de Jeux de Données

Langues Disponibles

Vous souhaitez contribuer à une traduction ? Consultez le Guide de Traduction.

Introduction

Bienvenue ! Ce guide complet fournit un processus universel pour préparer vos propres jeux de données vocales et entraîner un modèle Text-to-Speech (TTS) personnalisé. Que vous ayez un petit jeu de données (par exemple, 10 heures) ou un plus grand (plus de 100 heures), ces étapes vous aideront à organiser correctement vos données et à naviguer dans le processus d’entraînement pour la plupart des frameworks TTS modernes.

Objectif : Vous permettre d’affiner ou d’entraîner un modèle TTS sur une voix ou une langue spécifique en utilisant vos propres paires audio-texte.

Ce que couvre ce guide : Ce guide est divisé en plusieurs parties, couvrant l’ensemble du flux de travail, de la planification à l’utilisation de votre modèle entraîné :

  1. Planification : Considérations initiales avant de commencer votre projet.
  2. Préparation des données : Acquisition, traitement et structuration des données audio et texte.
  3. Configuration de l’entraînement : Préparation de votre environnement et configuration des paramètres d’entraînement.
  4. Entraînement du modèle : Lancement, surveillance et ajustement fin du modèle TTS.
  5. Inférence : Utilisation de votre modèle entraîné pour synthétiser la parole.
  6. Empaquetage et partage : Organisation et documentation de votre modèle pour une utilisation future ou une distribution.
  7. Dépannage et ressources : Problèmes courants et outils utiles.

Note : Ceci est une traduction en cours. Les sections restantes seront traduites prochainement.