Síntesis de Voz

La síntesis de voz, o texto a voz, es la tecnología que genera habla artificial a partir de texto. Explicamos su evolución desde la unión de fragmentos grabados hasta los modelos neuronales que hoy producen voces casi humanas, cómo se organiza el proceso, con qué métrica se mide la calidad y los dilemas éticos de la clonación de voz.

Admin IA360 17 febrero 2023 5 min de lectura Generado con IA Read in English

La síntesis de voz, o conversión de texto a voz (TTS, por sus siglas en inglés), es la tecnología que genera habla artificial a partir de un texto. Es la tarea inversa del reconocimiento de voz: donde este pasa de audio a texto, la síntesis va de texto a audio.

De los fragmentos grabados a las redes neuronales

La técnica ha recorrido un largo camino. Los sistemas clásicos usaban síntesis concatenativa, que unía pequeños fragmentos de voz humana pregrabada; más tarde llegó la síntesis paramétrica, que generaba los parámetros del sonido con modelos estadísticos, ganando flexibilidad a costa de algo de naturalidad. El salto definitivo lo trajo el aprendizaje profundo: WaveNet (DeepMind, 2016) generó audio realista muestra a muestra y redujo drásticamente la distancia con la voz humana, y Tacotron (Google, 2017-2018) aprendió a producir el sonido directamente desde el texto. Documentación: artículo original de WaveNet; artículo original de Tacotron 2.

Cómo funciona hoy

Un sistema neuronal típico trabaja en dos etapas. Primero, un modelo acústico convierte el texto en una representación intermedia del sonido, habitualmente un espectrograma. Después, un vocoder transforma ese espectrograma en la onda de audio final que escuchamos. Documentación: arquitectura de Tacotron 2.

Cómo se mide la calidad

La naturalidad de una voz sintética se evalúa sobre todo con el MOS (Mean Opinion Score): un panel de personas puntúa la calidad del audio en una escala del 1 al 5, y se promedian sus valoraciones. Los mejores sistemas actuales rozan las puntuaciones del habla humana grabada. Documentación: evaluación MOS de Tacotron 2.

Voces clonadas y ética

El avance más llamativo es la clonación de voz: sistemas capaces de imitar la voz de una persona a partir de muy pocos segundos de grabación. Esto abre usos valiosos —accesibilidad, doblaje, audiolibros— pero también riesgos serios, como la suplantación fraudulenta de identidad mediante voces falsas (deepfakes de audio). El consentimiento y la transparencia se han convertido en el centro del debate legal y ético en torno a esta tecnología. Documentación: evaluación pública de riesgos de la FTC.

Síntesis de Voz

De los fragmentos grabados a las redes neuronales

Cómo funciona hoy

Cómo se mide la calidad

Voces clonadas y ética

Piezas que usan este término

Artículos relacionados

Pesos

Codificación de Huffman

Inferencia Bayesiana