Logo Zephyrnet

Google ra mắt hệ thống Gemini AI với ba loại

Ngày:

Google đã tiết lộ Gemini, loại mô hình dựa trên máy biến áp mạnh mẽ nhất, có khả năng xử lý văn bản, hình ảnh, âm thanh và video. 

Gemini là một mô hình đa phương thức với cửa sổ ngữ cảnh 32k có thể lấy các loại dữ liệu khác nhau làm đầu vào và tạo hình ảnh cũng như văn bản làm đầu ra và có ba kích cỡ khác nhau. Phiên bản lớn nhất, Gemini Ultra, là phiên bản mạnh mẽ nhất được thiết kế cho các tác vụ phức tạp đòi hỏi “lý luận” hoặc xử lý nhiều loại dữ liệu.

Gemini Pro là mẫu máy cỡ trung bình đã được tối ưu hóa để chạy hiệu quả hơn và thực hiện nhiều tác vụ hơn. Gemini Nano nhỏ nhất được chia thành hai, Nano-1 có 1.8 tỷ thông số và Nano-2 có 3.25 tỷ thông số và được thiết kế để chạy trên các thiết bị nhỏ. Google không tiết lộ các mẫu Gemini Pro và Gemini Ultra mạnh hơn của họ chứa bao nhiêu thông số. 

Vậy Google sử dụng Gemini để làm gì? Bắt đầu từ hôm nay, chatbot AI Bard của nó hiện đã được cập nhật để chạy Gemini Pro, nghĩa là nó sẽ hiểu và tóm tắt văn bản tốt hơn so với phiên bản trước được cung cấp bởi mô hình ngôn ngữ PaLM 2 của Google. Tuy nhiên, khả năng đa phương thức vẫn chưa hoàn toàn sẵn sàng và phiên bản Gemini-Pro của Bard chỉ có thể xử lý và tạo văn bản cũng như hiện chỉ hỗ trợ tiếng Anh. 

Google cũng đang lên kế hoạch cải tiến một số sản phẩm AI Tìm kiếm, Quảng cáo, Chrome và Duet với Gemini Pro, như Gmail, Google Docs, v.v. trong vài tháng tới.

Trong khi đó, Pixel 8 Pro mới nhất của Google sẽ chạy Gemini Nano để hỗ trợ hai tính năng mới, tóm tắt các tệp âm thanh trong ứng dụng Ghi âm và tạo phản hồi nhanh cho tin nhắn văn bản thông qua ứng dụng bàn phím ảo Gboard. Google cho biết sẽ xây dựng nhiều tính năng AI hơn trên Gemini Nano cho điện thoại thông minh của mình và có kế hoạch mở phần mềm để cho phép các nhà phát triển Android bên thứ ba sử dụng dịch vụ AICore của mình.

AICore chạy trên Android 14 và cung cấp cho các nhà phát triển quyền truy cập vào mô hình thông qua API nguồn mở, đồng thời sẽ xử lý những thứ như thời gian chạy và sự an toàn.

Thật không may, những người đang chờ dùng thử Gemini Ultra sẽ phải đợi lâu hơn một chút. “Chúng tôi hiện đang hoàn tất các cuộc kiểm tra rộng rãi về độ tin cậy và an toàn, bao gồm cả việc hợp tác lại bởi các bên đáng tin cậy bên ngoài, đồng thời cải tiến thêm mô hình bằng cách tinh chỉnh và tăng cường học hỏi từ phản hồi của con người trước khi cung cấp rộng rãi,” Google Giải thích

Nhà máy Sôcôla có kế hoạch cung cấp Gemini Ultra vào năm tới và sẽ bắt đầu thử nghiệm các khả năng của mô hình này với các khách hàng và nhà phát triển được chọn trước khi ra mắt chatbot Bard Advanced. 

Các nhà cung cấp đang tìm cách xây dựng các công cụ AI chuyên dụng do Gemini cung cấp cho các ứng dụng cụ thể, chẳng hạn như những ứng dụng làm việc trong ngành pháp lý, nhân sự, y tế hoặc tài chính, sẽ có thể truy cập Gemini Pro dưới dạng API trong Google AI Studio hoặc Google Cloud Nền tảng AI của Vertex từ ngày 13 tháng XNUMX. 

Google vs OpenAI

Google đã bị chỉ trích vì chậm cung cấp các sản phẩm AI mặc dù là công ty đi đầu trong nghiên cứu và phát triển công nghệ.

OpenAI đã ra mắt ứng dụng web lan truyền ChatGPT một năm trước và giúp Microsoft phát hành chatbot AI Bing của riêng mình ngay sau đó, khiến Google phải bắt kịp. Giờ đây, phiên bản ChatGPT và AI Bing mới nhất được cung cấp bởi GPT-4 cũng có thể xử lý hình ảnh. Gemini là động lực giúp Google duy trì tính cạnh tranh. Vậy nó so sánh với các mô hình của OpenAI như thế nào?

Câu trả lời ngắn gọn là: Gemini Pro có vẻ tốt hơn GPT-3.5 một chút, trong khi Gemini Ultra tốt hơn GPT-4 một chút, theo một số bài kiểm tra điểm chuẩn mà Google đưa ra.

Nhóm Gemini cho biết trong một bài báo: “Nhìn chung, chúng tôi thấy rằng hiệu suất của Gemini Pro vượt trội hơn các mô hình được tối ưu hóa suy luận như GPT-3.5 và hoạt động tương đương với một số mô hình có khả năng nhất hiện có và Gemini Ultra vượt trội hơn tất cả các mô hình hiện tại”. [PDF]

Những người thử nghiệm đã so sánh khả năng của Gemini với nhiều mô hình khác nhau từ OpenAI, Anthropic, X và Meta qua mười bài kiểm tra khác nhau. Họ chủ yếu liên quan đến các nhiệm vụ dựa trên văn bản như giải các bài toán và mã hóa Python, đặt câu hỏi và trả lời để hiểu văn bản, kiểm tra ý thức chung và dịch máy. 

Gemini Ultra hoạt động tốt hơn GPT-4, Claude, Grok-1 và Llama-2 ở tám trên mười nhiệm vụ, trong khi Gemini Pro vượt qua GPT-3.5 và tất cả các mẫu khác ở bảy trên chín nhiệm vụ. Tuy nhiên, những kết quả điểm chuẩn này không nên được coi trọng.

Mặc dù công nghệ AI đang được cải thiện nhưng chúng không hoàn hảo và hành vi của chúng không thể đoán trước được. Song Tử vẫn có những hạn chế giống như tất cả các mô hình ngôn ngữ lớn (LLM) trong việc tạo ra thông tin không chính xác về mặt thực tế, một quá trình được gọi là ảo giác.

“Mặc dù có những khả năng ấn tượng nhưng chúng ta cần lưu ý rằng việc sử dụng LLM vẫn có những hạn chế. Nhóm Gemini cảnh báo vẫn cần tiếp tục nghiên cứu và phát triển về 'ảo giác' do LLM tạo ra để đảm bảo rằng kết quả đầu ra của mô hình đáng tin cậy và có thể kiểm chứng hơn.

“LLM cũng gặp khó khăn với các nhiệm vụ đòi hỏi khả năng suy luận cấp cao như hiểu biết nhân quả, suy luận logic và lý luận phản thực tế mặc dù họ đạt được thành tích ấn tượng trong các điểm chuẩn của kỳ thi.”

Tuy nhiên, Google vẫn đang đầu tư rất nhiều vào công nghệ. Dưới sự dẫn dắt của Giám đốc điều hành Sundar Pichai, gã khổng lồ tìm kiếm đã tự định hướng lại mình thành “một công ty ưu tiên AI” và hiện đang nỗ lực thương mại hóa những nỗ lực của mình cũng như duy trì khả năng cạnh tranh với làn sóng khởi nghiệp AI mới. 

“Gần tám năm trong hành trình trở thành công ty ưu tiên AI của chúng tôi, tốc độ tiến bộ ngày càng tăng nhanh: Hàng triệu người hiện đang sử dụng AI tổng quát trên các sản phẩm của chúng tôi để làm những việc mà họ thậm chí không thể làm cách đây một năm, từ tìm câu trả lời cho đến hơn thế nữa những câu hỏi phức tạp đến việc sử dụng các công cụ mới để cộng tác và sáng tạo,” ông nói".

“Đồng thời, các nhà phát triển đang sử dụng các mô hình và cơ sở hạ tầng của chúng tôi để xây dựng các ứng dụng AI tổng quát mới, đồng thời các công ty khởi nghiệp và doanh nghiệp trên khắp thế giới đang phát triển nhờ các công cụ AI của chúng tôi. Đây là một động lực đáng kinh ngạc, tuy nhiên, chúng tôi chỉ mới bắt đầu bước vào giai đoạn sơ khai của những gì có thể.” ®

tại chỗ_img

Tin tức mới nhất

tại chỗ_img