Icono del sitio Sinologic

Los mejores 7 proyectos Text-To-Speech TTS que han aparecido este mes.

Los TTS más importantes que han aparecido este mes.

Hasta hace apenas unos meses, la barrera del sonido en la inteligencia artificial no era la fidelidad, sino la latencia. Podíamos generar voces indistinguibles de un humano, pero el tiempo de espera (el «pensado») hacía imposible una conversación fluida. Microsoft rompió el hielo con su sistema de menos de 100ms, pero la comunidad Open Source ha respondido con una velocidad asombrosa.

No obstante, en menos de un mes han aparecido, como setas, una gran cantidad de TTS de fantástica calidad, orientados a telefonía, con un retardo muy, muy pequeño y con características que sorprenderían a cualquiera.

Lo mejor es que TODOS son opensource y con licencia libre, por lo que es cuestión de ir probándolos poco a poco y descubriendo cual es el que más nos interesa.

1. Qwen3-TTS: La Integración Multimodal

Qwen3-TTS destaca por ser hijo de una arquitectura LLM (Large Language Model) potente, lo que le permite entender el contexto antes de pronunciar la primera sílaba.

https://www.sinologic.net/wp-content/uploads/2026/01/test_output.wav

2. Pocket-TTS: Potencia en el Edge

De la mano de Kyutai Labs, este modelo de solo 100M de parámetros es el rey de la eficiencia.

3. LuxTTS: La Bestia de la Velocidad

Si necesitas procesar horas de audio en segundos, LuxTTS es lo que buscas.

4. PersonaPlex-7B: El «Full-Duplex» de NVIDIA

No es solo un TTS, es un sistema conversacional que puede escucharte mientras él mismo habla (barge-in).

5. VoxCPM: El Rey del Realismo Zero-Shot

Un modelo que abandona los «tokens» tradicionales para modelar la voz de forma continua.

6. Soprano: La Joya Acústica

Orientado a quienes buscan una voz que «enamore» por su claridad y ritmo.

7. VibeVoice Realtime (0.5B): El Estándar de Referencia

La apuesta de Microsoft para demostrar que un modelo pequeño (0.5B) puede sonar increíblemente bien.


Sobre esta cantidad de TTS que han aparecido, y que todas permiten clonar la voz con una muestra de apenas 3 segundos (en serio, con 3 segundos de audio te pueden clonar la voz) es quizá el momento de pensar que, aunque hayan muchas ventajas de cara a funcionalidades, los fraudes también se van a disparar, la identificación por voz puede dejar de ser un sistema de autenticación válida y si te llama alguien conocido pidiéndote que le hagas una transferencia, que busques un código en el móvil o algo así, hay motivos para empezar a sospechar.

Es para un debate serio a donde vamos, qué queremos lograr con todo esto y si realmente va a ser tan beneficioso para la sociedad que cualquiera, sin una mínima formación y con muchas ganas de ganar dinero a toda costa, se va a aprovechar de la IA para hacer cosas de «dudosa legalidad».

Mientras tanto, desde Sinologic seguimos alucinando con las novedades que aparecen día a día y viendo a donde nos lleva todo este boom de las tarjetas pensantes que algún día habrá que pagar.

Salir de la versión móvil