Trung Quốc vừa giới thiệu công cụ trí tuệ nhân tạo (AI), có khả năng chuyển văn bản thành video, tương tự ứng dụng gây sốt Sora của OpenAI.
Ứng dụng mang tên Vidu, là sự kết hợp giữa công ty khởi nghiệp Shengshu Technology với Đại học Thanh Hoa. Video tạo ra từ văn bản có độ phân giải cao. Tuy nhiên, mô hình mới này chỉ có thể tạo video có thời lượng không quá 16 giây.
Zhu Jun, nhà khoa học trưởng tại Shengshu, đồng thời là Phó trưởng khoa tại Viện AI thuộc Đại học Thanh Hoa, cho biết: “Vidu là thành tựu mới nhất của sự đổi mới tự lực, với những đột phá trong nhiều lĩnh vực”.
Vidu đạt được những cải tiến đáng kể về hiệu ứng video, chủ yếu thể hiện ở việc mô phỏng thế giới vật lý thực, ngôn ngữ đa ống kính, tính nhất quán cao về không gian – thời gian và sự hiểu biết về các yếu tố Trung Quốc.
Theo ông Zhu Jun, Vidu “có trí tưởng tượng”, “có thể mô phỏng thế giới vật chất” và “sản xuất video dài 16 giây với các nhân vật, cảnh và dòng thời gian nhất quán”. Ông nói thêm rằng, mô hình trí tuệ nhân tạo này cũng có thể hiểu được “các yếu tố Trung Quốc”.
Trong buổi ra mắt mô hình, Shengshu đã phát hành một số clip demo, bao gồm một clip có cảnh gấu trúc chơi guitar khi ngồi trên bãi cỏ và một clip khác về một chú chó con đang bơi trong hồ, cả hai đều hiển thị các chi tiết sống động.
Mô hình chuyển văn bản thành video bằng AI đầu tiên của Trung Quốc ra đời 2 tháng sau khi Sora – một mô hình tương tự do công ty OpenAI có trụ sở tại Mỹ phát hành, gây được tiếng vang lớn trên thế giới.
Sự ra mắt của Vidu đã làm dấy lên hy vọng ở quốc gia đang chạy đua để bắt kịp những công ty AI hàng đầu thế giới, như OpenAI do Microsoft hậu thuẫn.
Nguồn: vtv.vn