Universal TTS Guide

A comprehensive guide to TTS dataset prep and training

View on GitHub

Guía Universal para Entrenamiento de Modelos TTS y Preparación de Conjuntos de Datos

Idiomas Disponibles

¿Quieres contribuir con una traducción? Consulta la Guía de Traducción.

Introducción

¡Bienvenido! Esta guía completa proporciona un proceso universal para preparar tus propios conjuntos de datos de voz y entrenar un modelo personalizado de Text-to-Speech (TTS). Ya sea que tengas un conjunto de datos pequeño (por ejemplo, 10 horas) o uno más grande (más de 100 horas), estos pasos te ayudarán a organizar tus datos correctamente y navegar por el proceso de entrenamiento para la mayoría de los frameworks modernos de TTS.

Objetivo: Capacitarte para ajustar o entrenar un modelo TTS en una voz o idioma específico utilizando tus propios pares de audio-texto.

Lo que cubre esta guía: Esta guía se divide en varias partes, cubriendo todo el flujo de trabajo desde la planificación hasta el uso de tu modelo entrenado:

  1. Planificación: Consideraciones iniciales antes de comenzar tu proyecto.
  2. Preparación de Datos: Adquisición, procesamiento y estructuración de datos de audio y texto.
  3. Configuración de Entrenamiento: Preparación de tu entorno y configuración de los parámetros de entrenamiento.
  4. Entrenamiento del Modelo: Lanzamiento, monitoreo y ajuste fino del modelo TTS.
  5. Inferencia: Uso de tu modelo entrenado para sintetizar voz.
  6. Empaquetado y Compartición: Organización y documentación de tu modelo para uso futuro o distribución.
  7. Solución de Problemas y Recursos: Problemas comunes y herramientas útiles.

Nota: Esta es una traducción en progreso. Las secciones restantes se traducirán próximamente.