Moonshine Voice: AI phiên dịch thời gian thực chính xác hơn Whisper, hỗ trợ tiếng Việt

(Ảnh: TechnoEdge)

Đây là phần tiếp theo của loạt bài "AI tạo sinh hàng tuần", trong đó chúng tôi tuyển chọn và giải thích các công nghệ và nghiên cứu AI tạo sinh đáng chú ý trong tuần. Lần này, chúng tôi sẽ tập trung vào "Moonshine Voice", một AI phiên dịch thời gian thực có thể chạy cục bộ.

Xem thêm ảnh của bài viết này

▲ Ảnh chụp màn hình kho lưu trữ Moonshine Voice

Mô hình nhận dạng giọng nói "Whisper" của OpenAI có một số hạn chế khi tích hợp làm giao diện giọng nói thời gian thực. Đầu tiên, do đặc tả xử lý âm thanh 30 giây liên tục, nó lãng phí tài nguyên tính toán vào việc xử lý khoảng lặng ngay cả với những câu nói ngắn, dẫn đến độ trễ phản hồi (latency) dễ xảy ra.

Ngoài ra, việc không có cơ chế bộ nhớ đệm cho đầu vào âm thanh liên tục, tính toán lại từ đầu mỗi lần, độ chính xác giảm đối với các ngôn ngữ không phải tiếng Anh như tiếng Nhật, và việc môi trường tích hợp trên các thiết bị di động và IoT bị phân mảnh theo từng nền tảng, gây khó khăn cho việc phát triển, là những rào cản lớn khi xây dựng ứng dụng âm thanh trực tiếp.

Để giải quyết những thách thức này, "Moonshine Voice" đã được phát triển, một bộ công cụ AI mã nguồn mở dành cho các ứng dụng âm thanh thời gian thực. Tất cả các xử lý đều được thực hiện hoàn toàn cục bộ trên thiết bị, không yêu cầu đăng ký tài khoản hay khóa API, hoạt động bảo vệ quyền riêng tư. Nó có thể được triển khai với trải nghiệm người dùng giống nhau trên mọi môi trường, kể cả các thiết bị IoT như Raspberry Pi.

Nó áp dụng một kiến trúc chuyên dụng cho phát trực tiếp và có thể nhận âm thanh với độ dài tùy ý một cách linh hoạt. Nó tiến hành phiên dịch đồng thời ngay khi người dùng đang nói, giảm độ trễ phản hồi bằng cách lưu trữ trạng thái tính toán và loại bỏ các xử lý không cần thiết. Trên thực tế, mô hình Medium Streaming của Moonshine (250 triệu tham số) đạt độ chính xác vượt trội so với Whisper Large v3 (1.5 tỷ tham số) mặc dù có số lượng tham số ít hơn đáng kể.

▲ Bảng so sánh tỷ lệ lỗi từ (WER), số lượng tham số và độ trễ xử lý trên các thiết bị khác nhau giữa Moonshine Voice và các mô hình Whisper

Ngoài ra, không chỉ dừng lại ở việc phiên dịch, nó còn tích hợp sẵn các chức năng thực tế có thể sử dụng ngay cho việc phát triển ứng dụng giọng nói. Bao gồm chức năng nhận dạng người nói để xác định ai đang nói và chức năng nhận dạng lệnh cho phép thực thi các lệnh từ ngôn ngữ tự nhiên như "bật đèn".

Về hỗ trợ ngôn ngữ, ngoài tiếng Anh, nó còn hỗ trợ tiếng Nhật, tiếng Tây Ban Nha, tiếng Trung, tiếng Hàn, tiếng Việt, tiếng Ukraina và tiếng Ả Rập. Khác với Whisper nhồi nhét nhiều ngôn ngữ vào một mô hình, Moonshine Voice áp dụng phương pháp chuẩn bị các mô hình chuyên dụng cho từng ngôn ngữ (mô hình nhỏ nhất có 26 triệu tham số, tiếng Việt có 58 triệu tham số) để duy trì độ chính xác cao ngay cả trên các thiết bị có tài nguyên tính toán hạn chế.

▲ Danh sách số lượng tham số và tỷ lệ lỗi từ/ký tự của các mô hình theo ngôn ngữ và kiến trúc mà Moonshine Voice cung cấp

Cần lưu ý về cách xử lý giấy phép. Mã nguồn gốc và mô hình tiếng Anh được cung cấp theo giấy phép MIT cho phép sử dụng thương mại, nhưng các mô hình ngôn ngữ khác bao gồm cả tiếng Việt được cung cấp theo "Moonshine Community License" chỉ cho phép sử dụng phi thương mại.

▲ Sơ đồ kiến trúc của Moonshine Voice

Yamashita (Seamless) từ TechnoEdge