Berita dari Jiema.com, Jiéyuè Xingchen merilis model pengenalan suara otomatis generasi baru StepAudio 2.5 ASR, yang saat ini telah sepenuhnya diluncurkan di platform terbuka mereka. Versi ini pertama kali memperkenalkan teknologi prediksi multi-token (MTP) dari model bahasa besar ke bidang pengenalan suara, meningkatkan kecepatan inferensi secara signifikan, sambil memanfaatkan jendela konteks 32K dari model besar, memecahkan batasan transkripsi audio panjang tradisional yang memerlukan pemotongan dan penyambungan. Model baru ini secara langsung memanfaatkan jendela konteks 32K, mendukung input audio lengkap hingga 30 menit dalam satu kali baca secara end-to-end. Dalam pengujian input penuh selama 30 menit, model tidak menunjukkan penurunan akurasi seiring waktu, dan tingkat kesalahan gabungan pada 10 set pengujian sumber terbuka resmi berbahasa Inggris dan Mandarin seperti Librispeech semuanya lebih rendah dibandingkan produk kompetitor.

Lihat Asli
Halaman ini mungkin berisi konten pihak ketiga, yang disediakan untuk tujuan informasi saja (bukan pernyataan/jaminan) dan tidak boleh dianggap sebagai dukungan terhadap pandangannya oleh Gate, atau sebagai nasihat keuangan atau profesional. Lihat Penafian untuk detailnya.
  • Hadiah
  • Komentar
  • Posting ulang
  • Bagikan
Komentar
Tambahkan komentar
Tambahkan komentar
Tidak ada komentar
  • Sematkan