Logo Zephyrnet

OpenAI tiết lộ mô hình chuyển văn bản thành video mới mạnh mẽ và đáng sợ

Ngày:

Công ty trí tuệ nhân tạo đằng sau ChatGPT và DALL-E có một món đồ chơi mới: Sora, một mô hình chuyển văn bản thành video có thể (đôi khi) tạo ra các đoạn clip dài 60 giây khá thuyết phục từ những lời nhắc như “một người phụ nữ sành điệu bước xuống đường phố Tokyo…” và “đoạn giới thiệu phim kể về cuộc phiêu lưu của người đàn ông ngoài không gian 30 tuổi đội chiếc mũ bảo hiểm xe máy dệt kim len màu đỏ…”

Rất nhiều thế hệ video AI mà chúng ta đã thấy cho đến nay không duy trì được tính thực tế nhất quán, thiết kế lại khuôn mặt, quần áo và đồ vật từ khung hình này sang khung hình tiếp theo. Tuy nhiên, Sora “không chỉ hiểu những gì người dùng yêu cầu trong lời nhắc mà còn hiểu những thứ đó tồn tại như thế nào trong thế giới thực,” OpenAI cho biết trong bài đăng thông báo của nó (dùng từ “hiểu” một cách lỏng lẻo).

Xem bài đăng trên imgur.com”

Các clip của Sora rất ấn tượng. Nếu tôi không nhìn kỹ—giả sử, tôi chỉ lướt qua chúng trên mạng xã hội—có lẽ tôi sẽ nghĩ nhiều trong số chúng là thật. Lời nhắc “video mừng Tết Nguyên đán với Rồng Trung Hoa” thoạt nhìn giống như những thước phim tài liệu điển hình về một cuộc diễu hành. Nhưng sau đó bạn nhận ra rằng mọi người có vóc dáng cân đối một cách kỳ lạ và dường như đang vấp ngã - giống như khoảnh khắc trong giấc mơ khi bạn chợt nhận ra rằng mọi thứ có chút không ổn. Rùng mình.

OpenAI viết: “Mô hình hiện tại có điểm yếu”. “Nó có thể gặp khó khăn trong việc mô phỏng chính xác tính chất vật lý của một khung cảnh phức tạp và có thể không hiểu được các trường hợp cụ thể về nguyên nhân và kết quả. Ví dụ, một người có thể cắn một miếng bánh quy, nhưng sau đó, chiếc bánh quy có thể không có vết cắn. Mô hình cũng có thể nhầm lẫn các chi tiết không gian của lời nhắc, chẳng hạn như trộn lẫn trái và phải và có thể gặp khó khăn với các mô tả chính xác về các sự kiện diễn ra theo thời gian, chẳng hạn như đi theo một quỹ đạo camera cụ thể.”

Minh chứng yêu thích của tôi về điểm yếu của Sora là đoạn video trong đó một chiếc ghế nhựa bắt đầu biến thành dạng sống Cronenberg. Kìa:

Xem bài đăng trên imgur.com”

Sora hiện không được cung cấp rộng rãi và OpenAI cho biết họ đang đánh giá các rủi ro xã hội của mô hình và nỗ lực giảm thiểu chúng, chẳng hạn như với “một trình phân loại phát hiện có thể cho biết thời điểm video được Sora tạo ra”.

Nó là một dự án nghiên cứu hấp dẫn, nhưng OpenAI không chỉ quan tâm đến việc nghiên cứu khoa học máy tính thú vị. Nếu nó có thể qua mặt các nhà phê bình bản quyền và các nhà lập pháp, thì nó sẽ đến đây để kiếm tiền. Công ty cho biết họ hiện đang "cấp cho [Sora] quyền truy cập vào một số nghệ sĩ thị giác, nhà thiết kế và nhà làm phim để nhận phản hồi về cách cải tiến mô hình sao cho hữu ích nhất cho các chuyên gia sáng tạo." 

Một người bình luận về X lạc quan tự hỏi liệu một ngày nào đó những người mẫu như Sora có cho phép công chúng giành quyền kiểm soát việc làm phim khỏi Hollywood bằng cách làm phim hoàn toàn có sự nhắc nhở hay không—nhưng tôi tự hỏi họ nghĩ nguồn nguyên liệu cho tất cả video được tạo ra này sẽ đến từ đâu nếu không, bạn biết đấy, nhà làm phim? Các bộ phim Hollywood có thể trông khá đồng nhất, nhưng các cảnh quay bằng máy bay không người lái thương mại và CGI theo phong cách Marvel Cinematic Universe tự động tái tạo không hẳn là mang lại sự thể hiện sáng tạo cho đại chúng, nếu bạn hỏi tôi. (Đáng chú ý là bài đăng trên blog không đề cập đến tài liệu đào tạo của Sora.)

Xem bài đăng trên imgur.com”

Bất chấp những kết quả thường vụng về của AI tạo ra và vũng lầy pháp lý, đạo đức mà nó mang lại, chúng ta đã thấy nó được sử dụng trong các phương tiện sáng tạo chuyên nghiệp. Điều đó bao gồm các trò chơi điện tử, cả theo những cách mà chúng ta có thể nhìn thấy trực tiếp, chẳng hạn như tạo ra nghệ thuật và giọng nói cũng như đối thoại nhanh chóng, lẫn theo những cách ít rõ ràng hơn, như tạo đoạn mã hoặc ý tưởng nghệ thuật ban đầu. MỘT cuộc khảo sát gần đây cho thấy 31% chuyên gia phát triển trò chơi sử dụng AI tổng quát ở một mức độ nào đó. Kết hợp với phần mềm khác, tôi tự hỏi loại mô phỏng video dựa trên máy học này có thể làm được gì ngoài việc tạo ra các clip hơi giống CG?

Tôi không nghĩ có ai thực sự biết AI sáng tạo sẽ được sử dụng như thế nào trong 5 hoặc 10 năm tới hay hậu quả của việc tiếp tục phát triển sẽ ra sao, nhưng nó không hề chậm lại, vì vậy có vẻ như chúng ta sẽ tìm hiểu. OpenAI và các công ty khác rõ ràng đang nỗ lực không chỉ hướng tới những công cụ tạo hình ảnh, video và văn bản tốt hơn mà còn hướng tới “trí thông minh nhân tạo tổng hợp” hay AGI — như trong ý tưởng khoa học viễn tưởng về AI là gì.

OpenAI cho biết: “Sora đóng vai trò là nền tảng cho các mô hình có thể hiểu và mô phỏng thế giới thực, khả năng mà chúng tôi tin rằng sẽ là một cột mốc quan trọng để đạt được AGI”.

tại chỗ_img

Tin tức mới nhất

tại chỗ_img