VOZ logo

Sistemas Text To Speech, para todos los gustos

Un sistema Text To Speech (Texto a Conversación), también llamado TTS, es una aplicación que convierte un texto escrito a audio, permitiendo a un invidente visual escuchar un documento, un email o incluso llamar a un número de teléfono y poder escuchar una información que previamente alguien ha escrito.

Los Text To Speech son muy complejos de desarrollar, ya que se basan en crear la «onda de audio» correspondiente a cada fonema, de forma que hay que generar audio en tiempo real utilizando únicamente ecuaciones matemáticas bastante complejas y que requieren de un gran uso de procesador.

Por este motivo, un TTS utiliza unas ecuaciones completamente diferentes en función del idioma que vayamos a utilizar, ya que en diferentes idiomas, las letras se pronuncian de una forma completamente distinta, es por eso por lo que un TTS que funciona muy bien en inglés, no tiene porqué funcionar igual de bien en español o en francés.

En este artículo vamos a ver algunos TTS que funcionan en español.

Festival

Uno de los primeros TTS que se les pasa por la cabeza es el famoso Festival, una aplicación desarrollada principalmente en lenguaje LISP y creada en la Universidad de Edinburgo (UK) que, de forma sorprendente, es capaz de reproducir cualquier texto en audio, permitiendo escuchar un documento, un email recibido o incluso conectarlo a un sistema Asterisk y que nos lea una información que alguien previamente ha escrito. Festival es software libre y, pese a ser uno de los más utilizados, en español es muy recomendable utilizar unas «ecuaciones» diferentes desarrolladas a petición de la Junta de Andalucía y distribuidas libremente bajo el nombre de «hispavoces» y son las que utiliza Elastix (saber más). Por supuesto, otra de sus ventajas es la posibilidad de utilizarlo junto con Asterisk.

eSpeak

Este TextToSpeech es otra muestra de las ventajas del software libre y es que eSpeak es el motor de voz que ofrece accesibilidad a invidentes en sistemas Linux. También es posible utilizarlo con Asterisk y en español.
Más información: http://espeak.sourceforge.net/index.html

Verbio

Con bastante mejor calidad y soporte, existen otros que, aunque no son libres y tampoco son gratuitos, son mucho más profesionales, como es el caso de Verbio, una empresa catalana que ofrece tanto TTS como ASR (Automatic Speech Recognition) lo que permite hacer el paso contrario (de audio, convertirlo a texto, algo bastante más complicado si cabe). Verbio también soporta sistemas Asterisk tanto para el TextToSpeech como para el sistema de reconocimiento de voz (ASR).
Más información: http://www.verbio.com/

Loquendo

Otra de las soluciones conocidas es Loquendo, una compañía italiana cuya popularidad por ser de las primeras en disponer de una demo pública, ha hecho que se extienda por todo el mundo.
Más información: http://www.loquendo.com

Otras opciones

Debido a la gran demanda, hay bastantes sistemas TextToSpeech disponibles en el mercado, no todos tienen la misma calidad y tampoco todos soportan el español, aunque cualquiera que esté interesado puede echarle un vistazo a estos:

  • Cepstral (que además ofrece soporte nativo con Asterisk, aunque la calidad no es comparable a otras opciones comerciales)
  • Google TTS (más que un producto, es un servicio que Google pone a disposición del usuario haciendo una pequeña trampa)
  • Ivona (un producto bastante interesante aunque poco conocido)
  • Flite (otra alternativa opensource)
  • … y muchos más.

«One more thing…»

Parafraseando al difunto Steve Jobs y haciendo gala de un descubrimiento más o menos «reciente», si me tuviera que decantar por uno para utilizarlo con Asterisk, me decantaría por Verbio por su profesionalidad… aunque debo confesar que si pensabais que habíais escuchado el mejor TTS de todos… deberíais oir el TTS de la empresa Vocaloid (seguramente alguno ya lo conocerá), y es que el TTS de Vocaloid creado por Yamaha en colaboración con la Universidad Pompeu Fabra, no está pensado para conectarlo a Asterisk ni tampoco para leer emails… si no para cantar… y si no, ved este vídeo y me decís qué os parece en los comentarios:

Anterior artículoDCAC: El departamento del FBI que te espía mientras hablamos
Siguiente artículo 8053-8039El Ayuntamiento de Madrid implanta VoIP para ahorrar 30.000€ mensualmente