Reconocimiento de Voz

El reconocimiento de voz es la tecnología que convierte el lenguaje hablado en texto. Explicamos qué la distingue de tareas afines, su evolución desde los modelos ocultos de Markov hasta el aprendizaje profundo de extremo a extremo (wav2vec 2.0, Whisper), la métrica con que se evalúa (la tasa de error de palabra) y sus retos pendientes.

Admin IA360 14 febrero 2023 4 min de lectura Generado con IA Read in English

El reconocimiento de voz (ASR, por sus siglas en inglés) es la tecnología que convierte el lenguaje hablado —una señal de audio— en texto. Conviene distinguirlo de dos tareas vecinas: el reconocimiento del hablante (averiguar quién habla) y la comprensión del lenguaje (extraer el significado o la intención). El reconocimiento de voz se ocupa solo de la transcripción.

El enfoque clásico

Durante los años noventa y dos mil dominó un esquema basado en modelos ocultos de Markov (HMM), que modelaban la evolución temporal del habla, combinados con modelos de mezcla de gaussianas para la señal acústica y con un modelo de lenguaje aparte. Hacia 2010, las redes neuronales profundas reemplazaron a las gaussianas y mejoraron notablemente la precisión, en un híbrido que fue el nuevo estado del arte. Documentación: tutorial original de Rabiner sobre HMM.

La era de extremo a extremo

El salto siguiente fue prescindir de las piezas separadas y entrenar un único modelo de extremo a extremo, que va del audio al texto directamente. Fue posible gracias a técnicas como la clasificación temporal conexionista (CTC, 2006) y los modelos con atención. Dos hitos recientes lo ilustran: wav2vec 2.0 (Meta, 2020), que aprende de audio sin etiquetar mediante aprendizaje autosupervisado y logra buenos resultados con poquísimos datos transcritos, y Whisper (OpenAI, 2022), un modelo entrenado con cientos de miles de horas de audio de internet, robusto a acentos y ruido y capaz de transcribir muchos idiomas. Documentación: artículo de Deep Speech 2.

Cómo se mide

La calidad de un sistema se evalúa con la tasa de error de palabra (WER, word error rate): la proporción de palabras mal transcritas —sustituidas, borradas o insertadas— respecto al texto de referencia. Cuanto más baja, mejor. Se calcula, precisamente, alineando la hipótesis y la referencia con una distancia de edición. Documentación: protocolo y resultados de Deep Speech 2.

Los retos

Pese a sus avances, el reconocimiento de voz sigue teniendo puntos débiles: el ruido de fondo, el habla espontánea o solapada, y la variabilidad de acentos y dialectos. Y persiste una brecha importante: los sistemas rinden muy bien en las lenguas con muchos datos, pero mucho peor en las lenguas con pocos recursos. Documentación: artículo original de Whisper.

Reconocimiento de Voz

El enfoque clásico

La era de extremo a extremo

Cómo se mide

Los retos

Piezas que usan este término

Artículos relacionados

Pesos

Codificación de Huffman

Inferencia Bayesiana