Ngoài khả năng biểu cảm theo cao độ, âm lượng, giai điệu hệ thống dịch thuật trí tuệ nhân tạo của Meta còn có thể phiên dịch theo thời gian thực.
Meta, công ty mẹ của Facebook, vừa công bố bản cập nhật mới cho hệ thống trí tuệ nhân tạo (AI) mang tên SeamlessM4T. Hệ thống này được xây dựng nhằm nâng cao khả năng dịch thuật cho cả văn bản và giọng nói.
Meta đã thêm vào hai tính năng mới mang tính đột phá, giúp khả năng dịch giọng nói của AI này trở nên tự nhiên và biểu cảm hơn. Tính năng đầu tiên, được gọi là “SeamlessExpressive”, giúp chuyển đổi các biểu thức trong lời nói đã dịch. Cụ thể, nó bao gồm cao độ, âm lượng, giai điệu cảm xúc (như phấn khích, buồn bã hoặc thì thầm), tốc độ nói và thời gian nghỉ. Điều này giúp AI tạo ra bản dịch giọng nói có tính biểu cảm cao, tránh được cảm giác máy móc mà nhiều công nghệ dịch thuật trước đây thường gặp.
Các ngôn ngữ được hỗ trợ bao gồm tiếng Anh, tiếng Tây Ban Nha, tiếng Đức, tiếng Pháp, tiếng Ý và tiếng Trung.
Tính năng thứ hai, “SeamlessStreaming”, cho phép AI bắt đầu dịch bài phát biểu theo thời gian thực. Điều này giúp người nghe hiểu nhanh hơn và giảm độ trễ, giảm thời gian chờ đợi.
Theo Meta, thách thức của dịch thuật là các ngôn ngữ khác nhau có cấu trúc câu khác nhau, do đó, phải phát triển một thuật toán dành riêng cho việc nghiên cứu một phần âm thanh đầu vào, để quyết định xem có đủ ngữ cảnh để bắt đầu tạo đầu ra được dịch hay có nên tiếp tục nghe hay không.
Meta hy vọng, những cải tiến này sẽ đem lại trải nghiệm dịch giọng nói chưa từng thấy trước đây và có thể thay đổi cách chúng ta giao tiếp trong tương lai.
Nguồn: vtv.vn