Skip to main content

Configuración de fluidez y transcripción

El canal de voz incorpora controles avanzados para optimizar la fluidez conversacional, el endpointing y la calidad de transcripción (ASR).

🎙️ Fluidez conversacional (presets)

Puedes definir el comportamiento general de la conversación mediante presets preconfigurados que ajustan automáticamente parámetros internos de VAD (Voice Activity Detection) y endpointing:
  • Ágil
    • Menor tiempo de espera antes de responder
    • Mayor reactividad del asistente
    • Permite interrupciones frecuentes
    • Ideal para conversaciones dinámicas (ventas, atención rápida)
  • Equilibrado (default)
    • Balance entre latencia y precisión
    • Buen comportamiento en la mayoría de los casos
    • Recomendado como configuración estándar
  • Paciente
    • Mayor tiempo de espera antes de responder
    • Evita interrupciones innecesarias
    • Más tolerante a pausas del usuario
    • Ideal para soporte o usuarios menos técnicos

⚙️ Configuración avanzada (fine-tuning)

Si necesitas mayor control, puedes sobrescribir el preset seleccionado y ajustar manualmente los parámetros de detección de voz:
  • Tiempo de espera antes de responder
    Define cuánto tiempo espera el sistema antes de asumir que el usuario terminó de hablar.
  • Duración mínima para detectar voz
    Cantidad mínima de audio necesaria para considerar que hay una intervención válida del usuario.
  • Nivel de confianza para clasificar audio como habla
    Umbral de sensibilidad para distinguir entre voz y ruido de fondo.
  • Audio previo preservado antes de cambio de turno
    Define cuánto audio previo se conserva para mejorar la interpretación del contexto antes de responder.

🧠 Mejoras en transcripción (ASR)

Se incorporan nuevas opciones para mejorar la calidad, legibilidad y utilidad de la transcripción de voz:
  • Puntuación automática
    Agrega signos de puntuación (comas, puntos) para mejorar la lectura del texto.
  • Priorización de velocidad
    Reduce la latencia de transcripción, sacrificando levemente la precisión.
  • Inclusión de muletillas
    Conserva expresiones como “eh”, “mm”, etc., útil para análisis conversacional.
  • Formato inteligente
    Estructura automáticamente elementos como fechas, emails, números, etc.
  • Filtro de lenguaje ofensivo
    Detecta y bloquea o modera contenido inapropiado.
  • Números como dígitos
    Convierte texto hablado (“veinte”) en formato numérico (“20”).
  • Vocabulario personalizado
    Permite mejorar el reconocimiento de términos específicos del negocio (marcas, productos, nombres propios).

Recomendaciones

  • Usa Equilibrado como configuración base y ajusta solo si detectas problemas de latencia o interrupciones.
  • Para entornos ruidosos, aumenta el nivel de confianza de voz y la duración mínima de detección.
  • Si tu caso requiere análisis de conversación, activa muletillas y formato inteligente.
  • Para canales de voz en tiempo real, prioriza configuraciones que minimicen la latencia.