Tin tức Gate News, ngày 19 tháng 3, Xiaomi chính thức ra mắt dòng mô hình AI MiMo-V2 gồm ba sản phẩm: mô hình suy luận hàng đầu Pro, nền tảng đa phương thức Omni và công cụ tổng hợp giọng nói TTS.
MiMo-V2-Pro có tổng số tham số vượt quá 1 nghìn tỷ (42B tham số kích hoạt), hỗ trợ ngữ cảnh dài hơn 1 triệu token, được thiết kế đặc biệt cho các tình huống làm việc của Agent. Trong bảng xếp hạng Artificial Analysis, đứng thứ tám toàn cầu và thứ hai trong nước, trong các đánh giá của PinchBench và ClawEval đều xếp thứ ba toàn cầu. Hiệu năng tổng thể vượt qua Claude Sonnet 4.6, gần bằng Opus 4.6, nhưng giá chỉ bằng 1/5 của nó: nhập dữ liệu trong phạm vi 256K token với giá 1 USD, xuất ra 3 USD/triệu token; trong phạm vi 1 triệu token, nhập 2 USD, xuất 6 USD/triệu token. Module MiMo Claw đã tích hợp vào hệ sinh thái WebOffice của Kingsoft, WPS Lingxi đồng bộ kết nối.
MiMo-V2-Omni là nền tảng đa phương thức, hỗ trợ đầu vào gồm văn bản, hình ảnh, âm thanh và video, ngữ cảnh 256K, giá nhập 0.4 USD, xuất 2 USD/triệu token. Về âm thanh, hỗ trợ hiểu liên tục hơn 10 giờ âm thanh dài, đánh giá tổng thể vượt Gemini 3 Pro; về hiểu hình ảnh, vượt qua Claude Opus 4.6, gần bằng Gemini 3 Pro.
MiMo-V2-TTS dựa trên Audio Tokenizer tự phát triển, đã được huấn luyện trước bằng hơn trăm triệu giờ dữ liệu âm thanh, hỗ trợ kiểm soát đa cấp độ từ phong cách tổng thể đến cảm xúc cục bộ, có thể tổng hợp giọng hát chất lượng cao, bao gồm các phương ngữ như tiếng Bắc, tiếng Tứ Xuyên, tiếng Hà Nam, tiếng Quảng Đông và giọng Đài Loan.
Ba mô hình hiện đã tích hợp vào Xiaomi miclaw, MiMo Studio, Kingsoft Office và trình duyệt Xiaomi, và có thể gọi qua năm khung phát triển Agent: OpenClaw, OpenCode, KiloCode, Blackbox, Cline, trong thời gian miễn phí một tuần.