Logo Zephyrnet

Nvidia: Phần mềm trong tương lai chỉ là tập hợp các LLM

Ngày:

Đừng bận tâm đến việc sử dụng các mô hình ngôn ngữ lớn (LLM) để giúp viết mã, Giám đốc điều hành Nvidia Jensen Huang tin rằng trong tương lai, phần mềm doanh nghiệp sẽ chỉ là một tập hợp các bot trò chuyện được xâu chuỗi lại với nhau để hoàn thành nhiệm vụ.

“Không chắc là bạn sẽ viết nó từ đầu hoặc viết cả đống mã Python hay bất cứ thứ gì tương tự,” anh ấy nói trên sân khấu trong GTC của mình bài phát biểu Thứ hai. “Rất có khả năng bạn đã tập hợp được một nhóm AI.”

Jensen giải thích, nhóm AI này có thể bao gồm một mô hình được thiết kế để chia nhỏ và ủy thác yêu cầu cho nhiều mô hình khác. Một số mô hình này có thể được đào tạo để hiểu các dịch vụ kinh doanh như SAP hoặc Service Now, trong khi những mô hình khác có thể thực hiện phân tích số về dữ liệu được lưu trữ trong cơ sở dữ liệu vectơ. Dữ liệu này sau đó có thể được kết hợp và trình bày cho người dùng cuối bằng một mô hình khác.

“Chúng tôi có thể nhận được báo cáo hàng ngày hoặc bạn biết đấy, vào đầu giờ có liên quan đến kế hoạch xây dựng, một số dự báo, hoặc một số cảnh báo khách hàng, hoặc một số cơ sở dữ liệu về lỗi hoặc bất cứ điều gì xảy ra,” anh ấy giải thích

Để kết nối tất cả các mô hình này lại với nhau, Nvidia đang lấy một trang từ cuốn sách của Docker và đã tạo thời gian chạy vùng chứa cho AI.

Được đặt tên là Nvidia Inference Microservices, hay gọi tắt là NIM, về cơ bản đây là các hình ảnh chứa chứa cả mô hình, cho dù đó là nguồn mở hay độc quyền, cùng với tất cả các phụ thuộc cần thiết để mô hình chạy. Sau đó, các mô hình được đóng gói này có thể được triển khai trên bất kỳ số lượng thời gian chạy nào, bao gồm cả các nút Kubernetes được tăng tốc bởi Nvidia.

“Bạn có thể triển khai nó trên cơ sở hạ tầng của chúng tôi có tên là DGX Cloud hoặc bạn có thể triển khai nó tại chỗ hoặc bạn có thể triển khai nó ở bất cứ đâu bạn muốn. Một khi bạn phát triển nó, bạn có thể mang nó đi bất cứ đâu,” Jensen nói.

Tất nhiên, trước tiên bạn sẽ cần đăng ký bộ AI Enterprise của Nvidia, mức giá này không hề rẻ ở mức 4,500 USD/năm cho mỗi GPU hoặc 1 USD/giờ cho mỗi GPU trên đám mây. Chiến lược định giá này dường như khuyến khích các hệ thống có hiệu suất cao hơn, dày đặc hơn nói chung vì nó có giá như nhau bất kể bạn đang chạy trên L40 hay LXNUMX. B100s.

Nếu ý tưởng chứa khối lượng công việc tăng tốc GPU nghe có vẻ quen thuộc thì đây chính xác không phải là một ý tưởng mới đối với Nvidia. Tăng tốc CUDA đã được hỗ trợ trên nhiều thời gian chạy container khác nhau, bao gồm Docker, Podman, Containerd hoặc CRI-O trong nhiều năm và có vẻ như Container Runtime của Nvidia sẽ không đi đến đâu cả.

Đề xuất giá trị đằng sau NIM dường như là Nvidia sẽ xử lý việc đóng gói và tối ưu hóa các mô hình này để chúng có phiên bản CUDA, Triton Inference Server hoặc TensorRT LLM phù hợp, cần thiết để chúng đạt được hiệu suất tốt nhất.

Lập luận là nếu Nvidia phát hành một bản cập nhật giúp tăng đáng kể hiệu suất suy luận của một số loại mô hình nhất định, thì việc tận dụng chức năng đó sẽ chỉ cần kéo xuống hình ảnh NIM mới nhất.

Ngoài việc tối ưu hóa mô hình phần cứng cụ thể, Nvidia cũng đang nỗ lực cho phép liên lạc nhất quán giữa các vùng chứa để chúng có thể trò chuyện với nhau thông qua lệnh gọi API.

Theo hiểu biết của chúng tôi, các lệnh gọi API được sử dụng bởi các mô hình AI khác nhau trên thị trường hiện nay không phải lúc nào cũng nhất quán, dẫn đến việc kết hợp một số mô hình lại với nhau dễ dàng hơn và trong khi những mô hình khác có thể yêu cầu công việc bổ sung.

Cho mượn kiến ​​thức thể chế vào các mô hình có mục đích chung

Bất cứ ai đã sử dụng chatbot AI đều sẽ biết rằng mặc dù chúng thường xử lý khá tốt các câu hỏi kiến ​​thức tổng quát nhưng không phải lúc nào chúng cũng đáng tin cậy nhất với các yêu cầu kỹ thuật hoặc khó hiểu.

Jensen nhấn mạnh thực tế này trong bài phát biểu quan trọng của mình. Khi được hỏi về một chương trình nội bộ được sử dụng trong Nvidia, mô hình ngôn ngữ lớn Llama 2 70B của Meta không ngạc nhiên khi cung cấp định nghĩa cho một thuật ngữ không liên quan.

Thay vì cố gắng yêu cầu các doanh nghiệp đào tạo mô hình của riêng họ - thứ sẽ bán được nhiều GPU nhưng sẽ hạn chế đáng kể thị trường có thể định địa chỉ - Nvidia đã phát triển các công cụ để tinh chỉnh NIM của mình bằng dữ liệu và quy trình của khách hàng.

“Chúng tôi có một dịch vụ tên là NeMo Microservices giúp bạn quản lý dữ liệu, chuẩn bị dữ liệu để bạn có thể… tích hợp AI này. Bạn tinh chỉnh nó và sau đó bạn bảo vệ nó; sau đó bạn có thể đánh giá… hiệu suất của nó so với các ví dụ khác,” Huang giải thích.

Anh ấy cũng đề cập đến dịch vụ NeMo Retriever của Nvidia dựa trên khái niệm sử dụng thế hệ tăng cường truy xuất (RAG) để hiển thị thông tin mà mô hình chưa được đào tạo cụ thể.

Ý tưởng ở đây là các tài liệu, quy trình và dữ liệu khác có thể được tải vào cơ sở dữ liệu vectơ được kết nối với mô hình. Dựa trên một truy vấn, mô hình có thể tìm kiếm cơ sở dữ liệu đó, truy xuất và tóm tắt thông tin liên quan.

Các mô hình NIM và NeMo Retriever để tích hợp RAG hiện đã có sẵn, trong khi NeMo Microservices đang ở giai đoạn truy cập sớm. ®

tại chỗ_img

Tin tức mới nhất

tại chỗ_img