Logo Zephyrnet

AI của Google đã xem 30,000 giờ trò chơi điện tử—Bây giờ nó đã tự tạo ra trò chơi của riêng mình

Ngày:

AI tiếp tục tạo ra nhiều ánh sáng và nhiệt. Những mô hình tốt nhất về văn bản và hình ảnh—hiện đang thu hút người đăng ký và được đưa vào các sản phẩm tiêu dùng—đang cạnh tranh nhau về inch. OpenAI, Google và Anthropic ít nhiều đều ngang hàng nhau.

Không có gì ngạc nhiên khi các nhà nghiên cứu AI đang tìm cách đẩy các mô hình sáng tạo vào lãnh thổ mới. Vì AI đòi hỏi lượng dữ liệu khổng lồ, nên một cách để dự đoán mọi thứ sẽ diễn ra tiếp theo là xem dữ liệu nào có sẵn rộng rãi trên mạng nhưng phần lớn vẫn chưa được khai thác.

Video, trong đó có rất nhiều, là bước tiếp theo hiển nhiên. Quả thực, tháng trước, OpenAI đã xem trước AI chuyển văn bản thành video mới có tên Sora khiến người xem choáng váng.

Nhưng còn trò chơi điện tử thì sao?

Hỏi và nhận

Hóa ra có khá nhiều video game thủ trực tuyến. Google DeepMind cho biết họ đã đào tạo AI mới, Genie, trên 30,000 giờ đoạn video được tuyển chọn cho thấy các game thủ chơi các trò chơi platformer đơn giản—hãy nghĩ đến các trò chơi Nintendo thời kỳ đầu—và bây giờ nó có thể tạo ra các ví dụ của riêng mình.

Genie biến một hình ảnh, bức ảnh hoặc bản phác thảo đơn giản thành trò chơi điện tử tương tác.

Khi được gợi ý, chẳng hạn như bản vẽ về một nhân vật và môi trường xung quanh, AI sau đó có thể lấy thông tin đầu vào từ người chơi để di chuyển nhân vật đó qua thế giới của nó. Trong một bài đăng trên blog, DeepMind đã cho thấy những sáng tạo của Genie trong việc điều hướng phong cảnh 2D, đi bộ xung quanh hoặc nhảy giữa các nền tảng. Giống như con rắn ăn đuôi, một số thế giới thậm chí còn được lấy từ hình ảnh do AI tạo ra.

Ngược lại với các trò chơi điện tử truyền thống, Genie tạo ra các thế giới tương tác này theo từng khung hình. Đưa ra lời nhắc và lệnh di chuyển, nó sẽ dự đoán các khung hình tiếp theo có khả năng xảy ra nhất và tạo chúng một cách nhanh chóng. Nó thậm chí còn học cách đưa vào cảm giác thị sai, một tính năng phổ biến trong các nền tảng trong đó tiền cảnh di chuyển nhanh hơn hậu cảnh.

Đáng chú ý, quá trình đào tạo AI không bao gồm nhãn. Thay vào đó, Genie đã học cách liên hệ các lệnh đầu vào—chẳng hạn như rẽ trái, phải hoặc nhảy—với các chuyển động trong trò chơi chỉ bằng cách quan sát các ví dụ trong quá trình huấn luyện. Tức là khi một nhân vật trong video di chuyển sang trái, sẽ không có nhãn nào liên kết lệnh với chuyển động đó. Genie đã tự mình tìm ra phần đó. Điều đó có nghĩa là, các phiên bản trong tương lai có thể được đào tạo dựa trên nhiều video có thể áp dụng được như trực tuyến.

AI là một bằng chứng ấn tượng về khái niệm, nhưng nó vẫn còn rất sớm trong quá trình phát triển và DeepMind chưa có kế hoạch công khai mô hình này.

Bản thân các trò chơi là những thế giới pixel được phát trực tuyến với tốc độ chậm một khung hình mỗi giây. Để so sánh, các trò chơi điện tử hiện đại có thể đạt tốc độ 60 hoặc 120 khung hình mỗi giây. Ngoài ra, giống như tất cả các thuật toán tổng quát, Genie tạo ra các tạo tác hình ảnh kỳ lạ hoặc không nhất quán. Nó cũng dễ bị ảo giác về “những tương lai không thực tế”, nhóm đã viết trong bài báo mô tả AI.

Điều đó nói lên rằng, có một số lý do để tin rằng Genie sẽ cải thiện từ đây.

Đánh bật thế giới

Bởi vì AI có thể học hỏi từ các video trực tuyến không được gắn nhãn và vẫn có kích thước khiêm tốn—chỉ 11 tỷ thông số—nên có rất nhiều cơ hội để mở rộng quy mô. Các mô hình lớn hơn được đào tạo dựa trên nhiều thông tin hơn có xu hướng cải thiện đáng kể. Và với một ngành công nghiệp đang phát triển tập trung vào suy luận—quá trình mà AI được đào tạo thực hiện các tác vụ, như tạo hình ảnh hoặc văn bản—có thể sẽ nhanh hơn.

DeepMind cho biết Genie có thể giúp mọi người, như các nhà phát triển chuyên nghiệp, tạo ra trò chơi điện tử. Nhưng giống như OpenAI—tin rằng Sora không chỉ có video—nhóm đang suy nghĩ lớn hơn. Cách tiếp cận này có thể vượt xa các trò chơi điện tử.

Một ví dụ: AI có thể điều khiển robot. Nhóm đã đào tạo một mô hình riêng biệt trên video về các cánh tay robot hoàn thành nhiều nhiệm vụ khác nhau. Mô hình đã học cách điều khiển robot và xử lý nhiều loại đồ vật.

DeepMind cũng cho biết môi trường trò chơi điện tử do Genie tạo ra có thể được sử dụng để đào tạo các đặc vụ AI. Đó không phải là một chiến lược mới. Trong một bài báo năm 2021, một bài báo khác Nhóm DeepMind đã phác thảo một trò chơi điện tử có tên XLand được tạo ra bởi các đặc vụ AI và một lãnh chúa AI tạo ra các nhiệm vụ và trò chơi để thách thức họ. Ý tưởng rằng bước tiến lớn tiếp theo trong AI sẽ yêu cầu các thuật toán có thể huấn luyện lẫn nhau hoặc tạo ra dữ liệu huấn luyện tổng hợp là tăng sức kéo.

Tất cả đây là loạt đạn mới nhất trong cuộc cạnh tranh khốc liệt giữa OpenAI và Google để thể hiện sự tiến bộ trong AI. Trong khi những người khác trong lĩnh vực này, giống như nhân loại, đang phát triển các mô hình đa phương thức tương tự như GPT-4, Google và OpenAI dường như cũng tập trung vào các thuật toán mô phỏng thế giới. Các thuật toán như vậy có thể tốt hơn trong việc lập kế hoạch và tương tác. Cả hai đều sẽ là những kỹ năng quan trọng đối với các tác nhân AI mà cả hai tổ chức đều có ý định sản xuất.

Các nhà nghiên cứu viết trong bài báo: “Thần có thể được nhắc nhở bằng những hình ảnh mà nó chưa từng thấy trước đây, chẳng hạn như những bức ảnh hoặc bản phác thảo trong thế giới thực, cho phép mọi người tương tác với thế giới ảo tưởng tượng của họ - về cơ bản đóng vai trò như một mô hình thế giới nền tảng”. Bài đăng trên blog của Genie. "Chúng tôi tập trung vào video về trò chơi platformer 2D và robot nhưng phương pháp của chúng tôi mang tính tổng quát và có thể hoạt động với mọi loại miền, đồng thời có thể mở rộng sang các tập dữ liệu internet lớn hơn bao giờ hết.”

Tương tự, khi OpenAI xem trước Sora vào tháng trước, các nhà nghiên cứu cho rằng nó có thể báo trước một điều gì đó nền tảng hơn: một trình mô phỏng thế giới. Nghĩa là, cả hai nhóm dường như đều xem bộ nhớ đệm khổng lồ của video trực tuyến như một cách để huấn luyện AI tạo ra video của riêng mình, đúng vậy, nhưng cũng để hiểu và vận hành hiệu quả hơn trên thế giới, dù trực tuyến hay ngoại tuyến.

Liệu điều này có trả cổ tức hay bền vững lâu dài hay không vẫn là một câu hỏi mở. Bộ não con người hoạt động dựa trên năng lượng của một bóng đèn; AI tổng hợp sử dụng toàn bộ trung tâm dữ liệu. Nhưng tốt nhất không nên đánh giá thấp các lực lượng đang hoạt động hiện nay—về tài năng, công nghệ, khối óc và tiền mặt—nhằm mục đích không chỉ cải thiện AI mà còn làm cho nó hiệu quả hơn.

Chúng tôi đã thấy sự tiến bộ ấn tượng về văn bản, hình ảnh, âm thanh và cả ba yếu tố này. Video là thành phần tiếp theo được đưa vào nồi và chúng có thể tạo ra một loại bia thậm chí còn mạnh hơn.

Ảnh: Google DeepMind

tại chỗ_img

Tin tức mới nhất

tại chỗ_img