AI của Google đã xem 30,000 giờ trò chơi điện tử—Bây giờ nó đã tự mình làm được điều đó

AI tiếp tục tạo ra nhiều ánh sáng và nhiệt. Những mô hình tốt nhất về văn bản và hình ảnh—hiện đang thu hút người đăng ký và được đưa vào các sản phẩm tiêu dùng—đang cạnh tranh nhau về inch. OpenAI, Google và Anthropic ít nhiều đều ngang hàng nhau.

Không có gì ngạc nhiên khi các nhà nghiên cứu AI đang tìm cách đẩy các mô hình sáng tạo vào lãnh thổ mới. Vì AI đòi hỏi lượng dữ liệu khổng lồ, nên một cách để dự đoán mọi thứ sẽ diễn ra tiếp theo là xem dữ liệu nào có sẵn rộng rãi trên mạng nhưng phần lớn vẫn chưa được khai thác.

Video, trong đó có rất nhiều, là bước tiếp theo hiển nhiên. Quả thực, tháng trước, OpenAI đã xem trước AI chuyển văn bản thành video mới có tên Sora khiến người xem choáng váng.

Nhưng còn trò chơi điện tử thì sao?

Hỏi và nhận

Hóa ra có khá nhiều video game thủ trực tuyến. Google DeepMind cho biết họ đã đào tạo AI mới, Genie, trên 30,000 giờ đoạn video được tuyển chọn cho thấy các game thủ chơi các trò chơi platformer đơn giản—hãy nghĩ đến các trò chơi Nintendo thời kỳ đầu—và bây giờ nó có thể tạo ra các ví dụ của riêng mình.

Genie biến một hình ảnh, bức ảnh hoặc bản phác thảo đơn giản thành trò chơi điện tử tương tác.

Khi được gợi ý, chẳng hạn như bản vẽ về một nhân vật và môi trường xung quanh, AI sau đó có thể lấy thông tin đầu vào từ người chơi để di chuyển nhân vật đó qua thế giới của nó. Trong một bài đăng trên blog, DeepMind đã cho thấy những sáng tạo của Genie trong việc điều hướng phong cảnh 2D, đi bộ xung quanh hoặc nhảy giữa các nền tảng. Giống như con rắn ăn đuôi, một số thế giới thậm chí còn được lấy từ hình ảnh do AI tạo ra.

Ngược lại với các trò chơi điện tử truyền thống, Genie tạo ra các thế giới tương tác này theo từng khung hình. Đưa ra lời nhắc và lệnh di chuyển, nó sẽ dự đoán các khung hình tiếp theo có khả năng xảy ra nhất và tạo chúng một cách nhanh chóng. Nó thậm chí còn học cách đưa vào cảm giác thị sai, một tính năng phổ biến trong các nền tảng trong đó tiền cảnh di chuyển nhanh hơn hậu cảnh.

Đáng chú ý, quá trình đào tạo AI không bao gồm nhãn. Thay vào đó, Genie đã học cách liên hệ các lệnh đầu vào—chẳng hạn như rẽ trái, phải hoặc nhảy—với các chuyển động trong trò chơi chỉ bằng cách quan sát các ví dụ trong quá trình huấn luyện. Tức là khi một nhân vật trong video di chuyển sang trái, sẽ không có nhãn nào liên kết lệnh với chuyển động đó. Genie đã tự mình tìm ra phần đó. Điều đó có nghĩa là, các phiên bản trong tương lai có thể được đào tạo dựa trên nhiều video có thể áp dụng được như trực tuyến.

AI là một bằng chứng ấn tượng về khái niệm, nhưng nó vẫn còn rất sớm trong quá trình phát triển và DeepMind chưa có kế hoạch công khai mô hình này.

Bản thân các trò chơi là những thế giới pixel được phát trực tuyến với tốc độ chậm một khung hình mỗi giây. Để so sánh, các trò chơi điện tử hiện đại có thể đạt tốc độ 60 hoặc 120 khung hình mỗi giây. Ngoài ra, giống như tất cả các thuật toán tổng quát, Genie tạo ra các tạo tác hình ảnh kỳ lạ hoặc không nhất quán. Nó cũng dễ bị ảo giác về “những tương lai không thực tế”, nhóm đã viết trong bài báo mô tả AI.

Điều đó nói lên rằng, có một số lý do để tin rằng Genie sẽ cải thiện từ đây.

Đánh bật thế giới

Bởi vì AI có thể học hỏi từ các video trực tuyến không được gắn nhãn và vẫn có kích thước khiêm tốn—chỉ 11 tỷ thông số—nên có rất nhiều cơ hội để mở rộng quy mô. Các mô hình lớn hơn được đào tạo dựa trên nhiều thông tin hơn có xu hướng cải thiện đáng kể. Và với một ngành công nghiệp đang phát triển tập trung vào suy luận—quá trình mà AI được đào tạo thực hiện các tác vụ, như tạo hình ảnh hoặc văn bản—có thể sẽ nhanh hơn.

DeepMind cho biết Genie có thể giúp mọi người, như các nhà phát triển chuyên nghiệp, tạo ra trò chơi điện tử. Nhưng giống như OpenAI—tin rằng Sora không chỉ có video—nhóm đang suy nghĩ lớn hơn. Cách tiếp cận này có thể vượt xa các trò chơi điện tử.

Một ví dụ: AI có thể điều khiển robot. Nhóm đã đào tạo một mô hình riêng biệt trên video về các cánh tay robot hoàn thành nhiều nhiệm vụ khác nhau. Mô hình đã học cách điều khiển robot và xử lý nhiều loại đồ vật.

DeepMind cũng cho biết môi trường trò chơi điện tử do Genie tạo ra có thể được sử dụng để đào tạo các đặc vụ AI. Đó không phải là một chiến lược mới. Trong một bài báo năm 2021, một bài báo khác Nhóm DeepMind đã phác thảo một trò chơi điện tử có tên XLand được tạo ra bởi các đặc vụ AI và một lãnh chúa AI tạo ra các nhiệm vụ và trò chơi để thách thức họ. Ý tưởng rằng bước tiến lớn tiếp theo trong AI sẽ yêu cầu các thuật toán có thể huấn luyện lẫn nhau hoặc tạo ra dữ liệu huấn luyện tổng hợp là tăng sức kéo.

Tất cả đây là loạt đạn mới nhất trong cuộc cạnh tranh khốc liệt giữa OpenAI và Google để thể hiện sự tiến bộ trong AI. Trong khi những người khác trong lĩnh vực này, giống như nhân loại, đang phát triển các mô hình đa phương thức tương tự như GPT-4, Google và OpenAI dường như cũng tập trung vào các thuật toán mô phỏng thế giới. Các thuật toán như vậy có thể tốt hơn trong việc lập kế hoạch và tương tác. Cả hai đều sẽ là những kỹ năng quan trọng đối với các tác nhân AI mà cả hai tổ chức đều có ý định sản xuất.

Các nhà nghiên cứu viết trong bài báo: “Thần có thể được nhắc nhở bằng những hình ảnh mà nó chưa từng thấy trước đây, chẳng hạn như những bức ảnh hoặc bản phác thảo trong thế giới thực, cho phép mọi người tương tác với thế giới ảo tưởng tượng của họ - về cơ bản đóng vai trò như một mô hình thế giới nền tảng”. Bài đăng trên blog của Genie. "Chúng tôi tập trung vào video về trò chơi platformer 2D và robot nhưng phương pháp của chúng tôi mang tính tổng quát và có thể hoạt động với mọi loại miền, đồng thời có thể mở rộng sang các tập dữ liệu internet lớn hơn bao giờ hết.”

Tương tự, khi OpenAI xem trước Sora vào tháng trước, các nhà nghiên cứu cho rằng nó có thể báo trước một điều gì đó nền tảng hơn: một trình mô phỏng thế giới. Nghĩa là, cả hai nhóm dường như đều xem bộ nhớ đệm khổng lồ của video trực tuyến như một cách để huấn luyện AI tạo ra video của riêng mình, đúng vậy, nhưng cũng để hiểu và vận hành hiệu quả hơn trên thế giới, dù trực tuyến hay ngoại tuyến.

Liệu điều này có trả cổ tức hay bền vững lâu dài hay không vẫn là một câu hỏi mở. Bộ não con người hoạt động dựa trên năng lượng của một bóng đèn; AI tổng hợp sử dụng toàn bộ trung tâm dữ liệu. Nhưng tốt nhất không nên đánh giá thấp các lực lượng đang hoạt động hiện nay—về tài năng, công nghệ, khối óc và tiền mặt—nhằm mục đích không chỉ cải thiện AI mà còn làm cho nó hiệu quả hơn.

Chúng tôi đã thấy sự tiến bộ ấn tượng về văn bản, hình ảnh, âm thanh và cả ba yếu tố này. Video là thành phần tiếp theo được đưa vào nồi và chúng có thể tạo ra một loại bia thậm chí còn mạnh hơn.

Ảnh: Google DeepMind

Phân phối nội dung và PR được hỗ trợ bởi SEO. Được khuếch đại ngay hôm nay.
PlatoData.Network Vertical Generative Ai. Trao quyền cho chính mình. Truy cập Tại đây.
PlatoAiStream. Thông minh Web3. Kiến thức khuếch đại. Truy cập Tại đây.
Trung tâmESG. Than đá, công nghệ sạch, Năng lượng, Môi trường Hệ mặt trời, Quản lý chất thải. Truy cập Tại đây.
PlatoSức khỏe. Tình báo thử nghiệm lâm sàng và công nghệ sinh học. Truy cập Tại đây.
nguồn: https://singularityhub.com/2024/03/07/a-google-ai-watched-30000-hours-of-video-games-now-it-makes-its-own/

Trí thông minh dữ liệu tạo

AI của Google đã xem 30,000 giờ trò chơi điện tử—Bây giờ nó đã tự tạo ra trò chơi của riêng mình

Hỏi và nhận

Đánh bật thế giới

OpenAI trong các cuộc đàm phán hợp tác với Worldcoin (WLD)

Pháp đề nghị mua tài sản chiến lược từ công ty CNTT Atos đang gặp khó khăn

Tin tức mới nhất

Tàu ngầm lớp Virginia New Jersey được bàn giao cho Hải quân Mỹ

Bỉ trở thành quốc gia quan sát FCAS/SCAF

Tóm tắt tin tức lượng tử, ngày 29 tháng 2024 năm XNUMX: Tin tức từ Rigetti Computing • Máy tính lượng tử “Xiaohong” của Trung Quốc • Các nhóm của Vương quốc Anh đang xem xét sự đa dạng di truyền • mật mã...

Total Active Hub hợp tác với Cleo để nâng cao công cụ phần thưởng bằng công nghệ chuỗi khối

BING CROSBY: GIỌNG NÓI VÀNG ĐỊNH HÌNH ÂM NHẠC MỸ VÀ ĐÁNH GIÁ TRÁI TIM TRÊN TOÀN THẾ GIỚI

Nền tảng kết nối sọc và huy động vốn từ cộng đồng: Hướng dẫn kỹ thuật