Sự phát triển của trí tuệ nhân tạo mang đến nhiều lợi thế nhưng cũng đặt ra không ít thách thức. Và với sự xuất hiện của Sora, cuộc đua công nghệ sẽ trở nên “nóng” hơn.
Vào tháng 2/2024, OpenAI – công ty tạo ra ứng dụng trí tuệ nhân tạo nổi tiếng ChatGPT – cho biết, họ đang thử nghiệm mô hình chuyển văn bản thành video mang tên Sora, cho phép người dùng tạo ra những video với độ chân thực cao chỉ bằng một câu lệnh đơn giản.
Sự xuất hiện của Sora ngay lập tức đã tạo nên cơn sốt nhưng cũng gây ra nhiều tranh cãi. Vậy công cụ này là gì mà được mọi người quan tâm đến như vậy?
Sora – “Bầu trời” sáng tạo không giới hạn của OpenAI
Sora được đánh giá là một bước tiến lớn của OpenAI khi cho phép chuyển thể từ văn bản thành hình ảnh với chất lượng đáng kinh ngạc.
Trong tiếng Nhật, “Sora” có nghĩa là “bầu trời”. Nhóm nghiên cứu đứng sau công nghệ này chọn tên Sora bởi nó gợi lên ý tưởng về tiềm năng sáng tạo không giới hạn.
“Sora” trong tiếng Nhật có nghĩa là “bầu trời”
Tương tự như chuyển thể từ truyện thành phim, Sora cho phép chuyển đổi văn bản thành hình ảnh nhưng với tốc độ chỉ tính bằng giây và chất lượng vô cùng bất ngờ.
Thông qua đoạn video giới thiệu của OpenAI, có thể thấy, Sora mang tới khả năng sáng tạo hoạt cảnh gồm nhiều nhân vật, chuyển động với bối cảnh chi tiết. Công cụ này không chỉ hiểu những gợi ý trong câu lệnh của người dùng mà còn cả cách nó biểu hiện trong thực tế.
Những video do Sora tạo ra giống thực đến kinh ngạc. Người xem khó có thể phân biệt đâu là thật và đâu là giả. Theo đánh giá, Sora có khả năng đẩy nhanh tốc độ làm việc của các nhà làm phim, đồng thời thay thế hoàn toàn những kỹ sư đồ họa ít kinh nghiệm.
Mặc dù OpenAI đã gắn nhãn tất cả các video do Sora tạo ra để người dùng có thể phân biệt được nhưng chính công ty cũng nhận định rằng, các nhãn dán này có thể dễ dàng bị loại bỏ và khá khó để phát hiện.
Những hình ảnh do Sora tạo ra được gắn nhãn để người dùng có thể phân biệt
Hiện tại, OpenAI mới chỉ thử nghiệm Sora nhằm đánh giá những lĩnh vực trọng yếu có thể có nguy hại. Công ty muốn đảm bảo rằng, Sora không bị lạm dụng để tạo ra những thông tin sai lệch, thù địch hoặc thiên vị.
Công nghệ đứng sau Sora
Để có thể tạo ra những video giống như thật, Sora phải có khả năng hiểu được ngôn từ, các yêu cầu, mệnh lệnh của người dùng. Không chỉ dừng ở đó, mô hình của OpenAI còn phải hiểu được các quy tắc vật lý, cách mọi vật chuyển động, ánh sáng, bóng tối sẽ thay đổi như thế nào khi nhân vật di chuyển…
Với mệnh lệnh đặt ra là một cô gái đi giữa đường phố đêm ở Tokyo, sản phẩm mà Sora tạo ra khá hoàn hảo. Nếu không tinh mắt, người xem khó có thể soi ra được những khuyết điểm nhỏ của video.
Hình ảnh cô gái sải bước trên đường phố Tokyo do Sora tạo ra
Video giống thực tế tới 99% với độ sinh động của những ánh đèn đường hắt bóng qua những vũng nước mưa dưới đất. Đây là những thứ không có trong mệnh lệnh mà tự Sora hiểu được các quy tắc vật lý của thế giới thực và vẽ ra.
Theo trang AI News, công nghệ phía sau Sora có một phần là GPT-4. Đây là một mô hình đa phương thức lớn có thể xử lý đầu vào văn bản và hình ảnh. GPT-4 cập nhật mô hình ngôn ngữ lớn của OpenAI, được đào tạo trên lượng lớn dữ liệu trực tuyến để tạo phản hồi phức tạp cho các truy vấn của người dùng.
OpenAI giới thiệu Sora với lời khẳng định mang tới bước đột phá lớn
Phần còn lại của Sora là mô hình khuếch tán, biến nhiễu tĩnh thành một video mạch lạc bằng cách giảm dần độ nhiễu đó qua nhiều bước. Sora cũng sử dụng công nghệ tương tự như Dalle-3, cho phép biến văn bản thành hình ảnh, ở đây là những video giống thật đến khó tin.
Những ứng dụng tương tự Sora
Sora không phải chương trình AI duy nhất chuyển thể thành công từ văn bản thành hình ảnh. Trong những năm qua, đã có khá nhiều các phần mềm khác cũng có chung một chức năng.
Vào tháng 4/2023, RunwayAI – một công ty khởi nghiệp tại New York (Mỹ) – đã giới thiệu công nghệ cho phép người dùng có thể tạo ra video chỉ bằng cách gõ một câu lệnh. Tuy nhiên, các video chỉ có thời gian ngắn, khoảng 4 giây, thường rất nhòe và méo mó.
Cuối tháng 1 năm nay, Google Research đã công bố một bài báo nghiên cứu về Lumiere – mô hình cho phép tạo ra video từ lệnh nhập văn bản, hoạt động dựa trên mô hình phân tán cấu trúc STUNet (Space-Time-U-Net). Thay vì ghép các khung hình tĩnh với nhau, Lumiere xác định những chi tiết có trong video như phần không gian, cách nhân vật hoặc vật thể chuyển động, phần thời gian…, từ đó trợ giúp quá trình vận hành video diễn ra mượt mà. Cũng như Sora, Lumiere chưa được đưa vào ứng dụng trong thực tế.
Ngoài Google và OpenAI, Meta cũng là một trong những ông lớn công nghệ đầu tư vào cuộc đua phát triển AI. Công ty đã phát triển ứng dụng AI tạo video mang tên Emu Video, có khả năng chuyển hình ảnh thành văn bản rồi từ đó sử dụng làm dữ liệu để tạo ra video. Emu Video đang nhận được nhiều đánh giá tích cực từ những người tham gia thử nghiệm khi có tới 81% cho rằng thích công cụ này hơn ứng dụng Imagen Video của Google, trên 90% chọn mô hình của Meta thay vì PYOCO của Nvidia và 96% cho rằng Emu Video tốt hơn công cụ Make-A-Video cũng do Meta phát triển.
AI sẽ tác động thế nào tới lĩnh vực sáng tạo?
Những người làm về mặt hình ảnh, quay phim, thiết kế đồ hoạ rất quan tâm tới sự phát triển của AI. Tại Hollywood, kinh đô điện ảnh thế giới, các chuyên gia đã đo đạc được tác động của AI.
Theo báo cáo, 21,4 % các nhà làm phim, truyền hình và hoạt hình tại Hollywood dự đoán sẽ bị thay thế bởi AI vào năm 2026.
Hè năm ngoái, Netflix đã bắt đầu tuyển dụng cho vị trí quản lý sản phẩm AI với mức lương ngất ngưởng, từ 300.000 – 900.000 USD, cao gấp hàng chục lần lương của một diễn viên bình thường không nổi tiếng.
Tyler Perry – “ông trùm” tại Hollywood trong lĩnh vực sản xuất phim và chương trình truyền hình – cũng cảm thấy kinh ngạc trước sức mạnh của Sora. Tyler Perry đã dự định đầu tư 800 triệu USD để mở rộng, nâng cấp phim trường tại Atlanta. Tuy nhiên, kế hoạch này phải tạm ngưng vô thời hạn sau khi ông biết về Sora.
“Ông trùm” Hollywood Tyler Perry bất ngờ khi xem sản phẩm do Sora tạo ra (Ảnh: AFP)
Với tư cách là chủ của các studio sản xuất, Tyler Perry cho rằng, ông không thể đứng ngoài xu hướng sử dụng AI trong lĩnh vực điện ảnh. Với sự hỗ trợ của AI, hai bộ phim của Tyler Perry đã tiết kiệm rất nhiều thời gian, công sức trong việc hóa trang, hậu kỳ… Mặc dù vậy, ông cũng chia sẻ sự lo lắng về tương lai khi nhiều lĩnh vực trong ngành công nghiệp giải trí bị tác động bởi AI, thậm chí nhiều người lao động, quy trình sản xuất bị thay thế bằng trí tuệ nhân tạo.
Lo ngại về sự phát triển vượt tầm kiểm soát của AI
Xu hướng trí tuệ nhân tạo được ví như một cơn sóng lớn. Đi kèm với thời cơn luôn có cả những nguy cơ. Những chương trình trí tuệ nhân tạo siêu việt có thể gây ra những rủi ro. Và với sự phát triển vượt sức tưởng tượng của AI, những rủi ro này lại càng đáng quan ngại hơn.
Theo các chuyên gia, mặc dù Sora hiện tại còn nhiều thiếu sót như nhầm lẫn bên trái và bên phải, không duy trì được hình ảnh liên tục trong suốt thời lượng của video, tuy nhiên, nguy cơ Sora tạo ra thông tin sai lệch là hoàn toàn có thể, khiến việc xác định đâu là sự thật trên Internet càng trở nên khó khăn hơn.
Trước Sora, OpenAI đã phát hành hai sản phẩm AI, bao gồm ChatGPT có thể tạo văn bản giống như con người và công nghệ DALL-E tạo nên “Deepfake” – kỹ thuật sử dụng AI để tạo ra âm thanh, hình ảnh và video giả mạo. Rất nhiều người đã bị biến thành nạn nhân của Deepfake khi bị ghép mặt để tạo ra hình ảnh giả mạo.
Tại châu Âu, mối lo bị giả mạo với mục đích xấu xa còn lớn hơn cả lo bị lừa tiền. Người dân châu Âu quan tâm nhiều hơn tới nguy cơ kẻ xấu dùng công nghệ Deepfake để hủy hoại thanh danh của cá nhân hoặc của doanh nghiệp, thao túng dư luận, vận động đám đông, hoặc tác động vào quá trình bầu cử.
Với sự xuất hiện của Sora, các chuyên gia lo ngại, công nghệ Deepfake có thể tạo ra những video giả mạo tinh vi và hoàn thiện hơn, dễ dùng hơn trong tương lai.
Cùng ngày khi Sora được giới thiệu, Uỷ ban Thương mại Liên bang Mỹ đã đề xuất quy định mới nhằm ngăn chặn AI tạo ra các nội dung giả về người thật, nhất là những quan chức, người nổi tiếng và có ảnh hưởng.
Nguồn: vtv.vn