Acabo de ver a Simon probar en Mac el nuevo modelo de código abierto de Microsoft, VibeVoice-ASR, esto tiene potencial.


9 mil millones de parámetros, procesa 60 minutos de audio continuo en una sola pasada, y además puede identificar quién habla, cuándo habla y qué dice.
Los métodos tradicionales combinan Whisper + pyannote, ahora un solo modelo lo hace todo, soporta más de 50 idiomas y mezcla chino e inglés en una misma conversación.
Usando la versión cuantificada en 4 bits (5.71GB), tardó 8 minutos y 45 segundos en transcribir un podcast de una hora en un M5 Max, con un pico de memoria de 61.5GB, no funciona en un portátil normal de 32GB.
Lo interesante es que el modelo reconoce una conversación entre dos personas como si fuera de tres, porque Lenny habla en diferentes entornos de grabación.
Ejecutarlo localmente requiere al menos 64GB de memoria, para transcribir podcasts y actas de reuniones, ahora el proceso en múltiples pasos puede comprimirse en una sola inferencia.

¿Qué opinan de este modelo?
Ver original
post-image
Esta página puede contener contenido de terceros, que se proporciona únicamente con fines informativos (sin garantías ni declaraciones) y no debe considerarse como un respaldo por parte de Gate a las opiniones expresadas ni como asesoramiento financiero o profesional. Consulte el Descargo de responsabilidad para obtener más detalles.
  • Recompensa
  • Comentar
  • Republicar
  • Compartir
Comentar
Añadir un comentario
Añadir un comentario
Sin comentarios
  • Anclado