Hasta hace apenas unos meses, la barrera del sonido en la inteligencia artificial no era la fidelidad, sino la latencia. Podíamos generar voces indistinguibles de un humano, pero el tiempo de espera (el «pensado») hacía imposible una conversación fluida. Microsoft rompió el hielo con su sistema de menos de 100ms, pero la comunidad Open Source ha respondido con una velocidad asombrosa.
No obstante, en menos de un mes han aparecido, como setas, una gran cantidad de TTS de fantástica calidad, orientados a telefonía, con un retardo muy, muy pequeño y con características que sorprenderían a cualquiera.
Lo mejor es que TODOS son opensource y con licencia libre, por lo que es cuestión de ir probándolos poco a poco y descubriendo cual es el que más nos interesa.
1. Qwen3-TTS: La Integración Multimodal
Qwen3-TTS destaca por ser hijo de una arquitectura LLM (Large Language Model) potente, lo que le permite entender el contexto antes de pronunciar la primera sílaba.
- Calidad de audio: 24kHz (Fidelidad alta con texturas humanas).
- Clonación de voz: Sí. Permite clonación rápida (Zero-shot) con solo 3 segundos de audio de referencia.
- Licencia: Apache 2.0 (Uso comercial permitido).
- Ventajas: Increíble comprensión del contexto y soporte para 10 idiomas.
- Inconvenientes: El modelo base es pesado; requiere una GPU decente para mantener la latencia bajo los 100ms.
- https://huggingface.co/spaces/Qwen/Qwen3-TTS
2. Pocket-TTS: Potencia en el Edge
De la mano de Kyutai Labs, este modelo de solo 100M de parámetros es el rey de la eficiencia.
- Calidad de audio: 24kHz (Sorprendente para su tamaño, compite con modelos 10 veces más grandes).
- Clonación de voz: Sí. Soporta clonación zero-shot con 5 segundos de audio.
- Licencia: MIT (Altamente permisiva).
- Ventajas: Corre en CPU y dispositivos móviles sin despeinarse. 100% privado (offline).
- Inconvenientes: Actualmente muy optimizado para inglés; el soporte multilingüe es más limitado que en Qwen3.
- https://github.com/kyutai-labs/pocket-tts
3. LuxTTS: La Bestia de la Velocidad
Si necesitas procesar horas de audio en segundos, LuxTTS es lo que buscas.
- Calidad de audio: 48kHz (Calidad de estudio profesional, audio cristalino).
- Clonación de voz: Sí. Soporta clonación y múltiples hablantes.
- Licencia: Apache 2.0.
- Ventajas: Velocidad de hasta 150x-200x en tiempo real. Ideal para generación masiva de contenido.
- Inconvenientes: Al estar tan optimizado para la velocidad, la expresividad emocional es algo más plana que en Soprano o VoxCPM.
- https://github.com/ysharma3501/LuxTTS
4. PersonaPlex-7B: El «Full-Duplex» de NVIDIA
No es solo un TTS, es un sistema conversacional que puede escucharte mientras él mismo habla (barge-in).
- Calidad de audio: 24kHz (Utiliza el códec Mimi).
- Clonación de voz: Sí. Permite definir la voz del agente mediante una muestra de audio.
- Licencia: NVIDIA Open Model License (Permite uso comercial, pero bajo términos de NVIDIA).
- Ventajas: Permite interrupciones naturales. Es lo más parecido a hablar con un humano por teléfono.
- Inconvenientes: Requerimientos de hardware altísimos (VRAM de 24GB+ recomendada).
- https://huggingface.co/nvidia/personaplex-7b-v1
5. VoxCPM: El Rey del Realismo Zero-Shot
Un modelo que abandona los «tokens» tradicionales para modelar la voz de forma continua.
- Calidad de audio: 24kHz (v1.0) y hasta 44.1kHz (v1.5).
- Clonación de voz: Sí. Especialista en capturar no solo el timbre, sino el acento y la emoción.
- Licencia: Apache 2.0.
- Ventajas: La clonación es de las más fieles del mercado open source actual.
- Inconvenientes: La arquitectura de difusión puede ser más lenta en GPUs antiguas.
- https://github.com/OpenBMB/VoxCPM
6. Soprano: La Joya Acústica
Orientado a quienes buscan una voz que «enamore» por su claridad y ritmo.
- Calidad de audio: 32kHz (Muy equilibrado entre peso y fidelidad).
- Clonación de voz: Sí, mediante fine-tuning con su herramienta Soprano-Factory.
- Licencia: Apache 2.0.
- Ventajas: Latencia ultra baja (<15ms en GPU) con una naturalidad extrema.
- Inconvenientes: La clonación no es tan instantánea como en VoxCPM; requiere un pequeño proceso de entrenamiento para resultados óptimos.
- https://github.com/ekwek1/soprano
7. VibeVoice Realtime (0.5B): El Estándar de Referencia
La apuesta de Microsoft para demostrar que un modelo pequeño (0.5B) puede sonar increíblemente bien.
- Calidad de audio: Alta fidelidad (Basado en difusión de nueva generación).
- Clonación de voz: No (En la versión Realtime 0.5B). Utiliza presets de voz optimizados para latencia. La clonación se reserva para los modelos 1.5B y 7B.
- Licencia: MIT (Aunque los pesos del modelo suelen publicarse bajo licencias de investigación de Microsoft).
- Ventajas: Estabilidad total en textos largos y latencia de primer nivel (~300ms de respuesta inicial).
- Inconvenientes: Limitado a un solo hablante en su versión más rápida.
- https://huggingface.co/microsoft/VibeVoice-Realtime-0.5B
Sobre esta cantidad de TTS que han aparecido, y que todas permiten clonar la voz con una muestra de apenas 3 segundos (en serio, con 3 segundos de audio te pueden clonar la voz) es quizá el momento de pensar que, aunque hayan muchas ventajas de cara a funcionalidades, los fraudes también se van a disparar, la identificación por voz puede dejar de ser un sistema de autenticación válida y si te llama alguien conocido pidiéndote que le hagas una transferencia, que busques un código en el móvil o algo así, hay motivos para empezar a sospechar.
Es para un debate serio a donde vamos, qué queremos lograr con todo esto y si realmente va a ser tan beneficioso para la sociedad que cualquiera, sin una mínima formación y con muchas ganas de ganar dinero a toda costa, se va a aprovechar de la IA para hacer cosas de «dudosa legalidad».
Mientras tanto, desde Sinologic seguimos alucinando con las novedades que aparecen día a día y viendo a donde nos lleva todo este boom de las tarjetas pensantes que algún día habrá que pagar.

