Configuración de fluidez y transcripción
El canal de voz incorpora controles avanzados para optimizar la fluidez conversacional, el endpointing y la calidad de transcripción (ASR).🎙️ Fluidez conversacional (presets)
Puedes definir el comportamiento general de la conversación mediante presets preconfigurados que ajustan automáticamente parámetros internos de VAD (Voice Activity Detection) y endpointing:- Ágil
- Menor tiempo de espera antes de responder
- Mayor reactividad del asistente
- Permite interrupciones frecuentes
- Ideal para conversaciones dinámicas (ventas, atención rápida)
- Equilibrado (default)
- Balance entre latencia y precisión
- Buen comportamiento en la mayoría de los casos
- Recomendado como configuración estándar
- Paciente
- Mayor tiempo de espera antes de responder
- Evita interrupciones innecesarias
- Más tolerante a pausas del usuario
- Ideal para soporte o usuarios menos técnicos
⚙️ Configuración avanzada (fine-tuning)
Si necesitas mayor control, puedes sobrescribir el preset seleccionado y ajustar manualmente los parámetros de detección de voz:- Tiempo de espera antes de responder
Define cuánto tiempo espera el sistema antes de asumir que el usuario terminó de hablar. - Duración mínima para detectar voz
Cantidad mínima de audio necesaria para considerar que hay una intervención válida del usuario. - Nivel de confianza para clasificar audio como habla
Umbral de sensibilidad para distinguir entre voz y ruido de fondo. - Audio previo preservado antes de cambio de turno
Define cuánto audio previo se conserva para mejorar la interpretación del contexto antes de responder.
🧠 Mejoras en transcripción (ASR)
Se incorporan nuevas opciones para mejorar la calidad, legibilidad y utilidad de la transcripción de voz:- Puntuación automática
Agrega signos de puntuación (comas, puntos) para mejorar la lectura del texto. - Priorización de velocidad
Reduce la latencia de transcripción, sacrificando levemente la precisión. - Inclusión de muletillas
Conserva expresiones como “eh”, “mm”, etc., útil para análisis conversacional. - Formato inteligente
Estructura automáticamente elementos como fechas, emails, números, etc. - Filtro de lenguaje ofensivo
Detecta y bloquea o modera contenido inapropiado. - Números como dígitos
Convierte texto hablado (“veinte”) en formato numérico (“20”). - Vocabulario personalizado
Permite mejorar el reconocimiento de términos específicos del negocio (marcas, productos, nombres propios).
Recomendaciones
- Usa Equilibrado como configuración base y ajusta solo si detectas problemas de latencia o interrupciones.
- Para entornos ruidosos, aumenta el nivel de confianza de voz y la duración mínima de detección.
- Si tu caso requiere análisis de conversación, activa muletillas y formato inteligente.
- Para canales de voz en tiempo real, prioriza configuraciones que minimicen la latencia.

