Sistemas Text To Speech, para todos los gustos

Sistemas Text To Speech, para todos los gustos

Asterisk 2012-06-21 4 min de lectura Por hellc2

Un sistema Text To Speech (Texto a Conversación), también llamado TTS, es una aplicación que convierte un texto escrito a audio, permitiendo a un invidente visual escuchar un documento, un email o incluso llamar a un número de teléfono y poder escuchar una información que previamente alguien ha escrito.

Los Text To Speech son muy complejos de desarrollar, ya que se basan en crear la «onda de audio» correspondiente a cada fonema, de forma que hay que generar audio en tiempo real utilizando únicamente ecuaciones matemáticas bastante complejas y que requieren de un gran uso de procesador.

Por este motivo, un TTS utiliza unas ecuaciones completamente diferentes en función del idioma que vayamos a utilizar, ya que en diferentes idiomas, las letras se pronuncian de una forma completamente distinta, es por eso por lo que un TTS que funciona muy bien en inglés, no tiene porqué funcionar igual de bien en español o en francés.

En este artículo vamos a ver algunos TTS que funcionan en español.

Festival

Uno de los primeros TTS que se les pasa por la cabeza es el famoso Festival, una aplicación desarrollada principalmente en lenguaje LISP y creada en la Universidad de Edinburgo (UK) que, de forma sorprendente, es capaz de reproducir cualquier texto en audio, permitiendo escuchar un documento, un email recibido o incluso conectarlo a un sistema Asterisk y que nos lea una información que alguien previamente ha escrito. Festival es software libre y, pese a ser uno de los más utilizados, en español es muy recomendable utilizar unas «ecuaciones» diferentes desarrolladas a petición de la Junta de Andalucía y distribuidas libremente bajo el nombre de «hispavoces» y son las que utiliza Elastix (saber más). Por supuesto, otra de sus ventajas es la posibilidad de utilizarlo junto con Asterisk.

eSpeak

Este TextToSpeech es otra muestra de las ventajas del software libre y es que eSpeak es el motor de voz que ofrece accesibilidad a invidentes en sistemas Linux. También es posible utilizarlo con Asterisk y en español.
Más información: http://espeak.sourceforge.net/index.html

Verbio

Con bastante mejor calidad y soporte, existen otros que, aunque no son libres y tampoco son gratuitos, son mucho más profesionales, como es el caso de Verbio, una empresa catalana que ofrece tanto TTS como ASR (Automatic Speech Recognition) lo que permite hacer el paso contrario (de audio, convertirlo a texto, algo bastante más complicado si cabe). Verbio también soporta sistemas Asterisk tanto para el TextToSpeech como para el sistema de reconocimiento de voz (ASR).
Más información: http://www.verbio.com/

Loquendo

Otra de las soluciones conocidas es Loquendo, una compañía italiana cuya popularidad por ser de las primeras en disponer de una demo pública, ha hecho que se extienda por todo el mundo.
Más información: http://www.loquendo.com

Otras opciones

Debido a la gran demanda, hay bastantes sistemas TextToSpeech disponibles en el mercado, no todos tienen la misma calidad y tampoco todos soportan el español, aunque cualquiera que esté interesado puede echarle un vistazo a estos:

Cepstral (que además ofrece soporte nativo con Asterisk, aunque la calidad no es comparable a otras opciones comerciales)
Google TTS (más que un producto, es un servicio que Google pone a disposición del usuario haciendo una pequeña trampa)
Ivona (un producto bastante interesante aunque poco conocido)
Flite (otra alternativa opensource)
… y muchos más.

«One more thing…»

Parafraseando al difunto Steve Jobs y haciendo gala de un descubrimiento más o menos «reciente», si me tuviera que decantar por uno para utilizarlo con Asterisk, me decantaría por Verbio por su profesionalidad… aunque debo confesar que si pensabais que habíais escuchado el mejor TTS de todos… deberíais oir el TTS de la empresa Vocaloid (seguramente alguno ya lo conocerá), y es que el TTS de Vocaloid creado por Yamaha en colaboración con la Universidad Pompeu Fabra, no está pensado para conectarlo a Asterisk ni tampoco para leer emails… si no para cantar… y si no, ved este vídeo y me decís qué os parece en los comentarios:

3 comentarios

Abierto

Angel
Cada vez que lo oigo el vocaloid me quedo mas alucianado.
hace 14 años ↩ Responder
Ricardo
Chachi el artículo, mucho que probar !!!!
Gracias por compartir 😉
hace 14 años ↩ Responder
Ivan
Impresionante.
Me parece incrible que una maquina pueda cantar con tanto acierto, a la música se le presupone una mínima ración de espiritualidad.
¿que pensará de esto la SGAE?
hace 14 años ↩ Responder

¿Quieres seguir la conversación? Únete a nuestro canal de Telegram

✕

Comunidad abierta

Únete a la comunidad Sinologic

Crea tu cuenta gratuita y participa en las conversaciones sobre VoIP, Asterisk, Kamailio y telecomunicaciones IP.

⭐

Nombre verificado Tu nombre aparece con insignia de miembro en cada comentario.

🔔

Notificaciones Recibe avisos cuando alguien responda a tus comentarios.

👍

Reacciones Reacciona con emojis a los comentarios de otros usuarios.

👤

Perfil personalizable Avatar, bio, enlaces a tu Twitter, GitHub y Telegram.

📬

Newsletter exclusivaPróximamente Contenido técnico y novedades directamente en tu bandeja.

🧪

Acceso anticipadoPróximamente Prueba herramientas y funciones antes que nadie.

Crear cuenta gratuita