Cabin AI của nhà phát triển Việt Nam cung cấp khả năng giải thích gần như thời gian thực tại các sự kiện với tính năng học trước

81 lần đọc

Tóm tắt:Tại một diễn đàn đổi mới quốc tế ở Thành phố Hồ Chí Minh vào cuối tháng 10, ban tổ chức đã yêu cầu h

Tại một diễn đàn đổi mới quốc tế ở Thành phố Hồ Chí Minh vào cuối tháng 10, ban tổ chức đã yêu cầu hàng trăm người tham dự quét mã QR ngay tại cửa. Một trang web hiện lên với nội dung "chọn ngôn ngữ của bạn, chọn âm thanh hoặc phụ đề trên màn hình. Không có tai nghe. Không có buồng phiên dịch. "

Mọi người chỉ cần làm theo trên điện thoại của họ. Đó là buổi giới thiệu trực tiếp về Cabin AI, một hệ thống do Anh và nhóm của anh phát triển nhằm đơn giản hóa việc phiên dịch tại các hội nghị, hội thảo và cuộc họp.

Giải quyết vấn đề 'dịch trong khi họ đang nói'. Cabin AI nhắm đến một thách thức khó khăn: dịch trong khi diễn giả vẫn đang nói chứ không phải sau mỗi câu. "Chúng tôi muốn có một công cụ có khả năng phản ứng giống con người, đồng thời nghe, hiểu và dịch nhưng được hỗ trợ bởi trí tuệ nhân tạo," Anh nói.

Sau khi ra mắt nền tảng dịch tài liệu DocTranslate.io, nhóm đã dành hơn một năm để mở rộng công việc của mình sang lĩnh vực giọng nói và video. Bản dịch trong thời gian thực phụ thuộc vào tốc độ và tính năng nhận dạng giọng nói đáng tin cậy.

Các hệ thống cũ thường chờ ngắt câu, tạo ra sự chậm trễ khó xử và chúng thường vấp phải tên, ngày, số, thuật ngữ nước ngoài, các giọng khác nhau và ngôn ngữ hỗn hợp.

AI cabin giải quyết vấn đề này bằng các mô hình dịch và nhận dạng giọng nói chuyên dụng được tinh chỉnh bằng cách sử dụng dữ liệu tuyển chọn. Anh cho biết, tính năng nổi bật của nó là khả năng tìm hiểu ngữ cảnh trước một sự kiện: từ các bản trình chiếu, chương trình nghị sự và các chủ đề đã lên kế hoạch.

Với nền tảng đó, hệ thống xử lý thuật ngữ dành riêng cho từng miền chính xác hơn trong khi vẫn giữ độ trễ ở mức thấp. Trong điều kiện lý tưởng, nó phản hồi trong vòng ba đến năm giây kể từ khi loa bắt đầu.

Nó hoạt động tốt với giọng nói có trọng âm và chuyển mã, đồng thời hiện hỗ trợ hơn 32 ngôn ngữ, bao gồm tiếng Việt, tiếng Anh, tiếng Trung, tiếng Nhật, tiếng Hàn, tiếng Thái, tiếng Pháp, tiếng Đức, tiếng Tây Ban Nha, tiếng Ý, tiếng Nga và tiếng Hindi.

Thử nghiệm trực tiếp tại các diễn đàn lớn Vào tháng 10, Cabin AI đã được thử nghiệm tại các sự kiện lớn, bao gồm Diễn đàn Đổi mới Mở và Hội thảo Công nghệ Lượng tử. Nó đóng vai trò là thông dịch viên chính thức cho toàn bộ chương trình và hàng chục bảng không có kịch bản.

"Phụ đề xuất hiện gần như đồng thời với bài phát biểu, có cảm giác như diễn giả đang sử dụng ngôn ngữ mẹ đẻ của tôi! " một người tham dự cho biết.

Bài thuyết trình không nhằm mục đích thay thế các chuyên gia mà để mở rộng phạm vi đưa tin và đơn giản hóa công tác hậu cần. Ban tổ chức có thể triển khai Cabin AI với giá khoảng 500.000–1.000.000 VNĐ (khoảng 19–38 USD) mỗi giờ, tùy thuộc vào quy mô sự kiện, số lượng ngôn ngữ và hỗ trợ kỹ thuật. Thay vì duy trì mạng tai nghe hoặc bố trí nhiều phiên dịch viên cho các phiên họp song song, khán giả sử dụng thiết bị của riêng họ.

Sau đó, hệ thống có thể xuất bản ghi hoặc phút tóm tắt để tiết kiệm thời gian. Ngoài phòng hội nghị, nền tảng này còn được tối ưu hóa cho các cuộc họp trực tuyến và trò chuyện trực tiếp. "Giải pháp giúp các nhóm đa quốc gia giao tiếp hiệu quả mà không gặp rào cản ngôn ngữ", Anh nói.

Người sáng lậpAnh được vinh danh là một trong 10 nhà lãnh đạo công nghệ trẻ tại Hội nghị thượng đỉnh CTO 2022 do VnExpress tổ chức. Dự án DocTranslate trước đây của anh đã lọt vào Top 5 tại Techfest do Bộ Khoa học và Công nghệ tổ chức và được chọn vào Chương trình tăng tốc khởi nghiệp của Google.

Đọc ngẫu nhiên