Logo Zephyrnet

Cisco, Nvidia mở rộng hợp tác để thúc đẩy Ethernet trong mạng AI

Ngày:

Tại Cisco Live ở Amsterdam hôm thứ Ba, gã khổng lồ mạng doanh nghiệp đã công bố một loạt nền tảng phần cứng và phần mềm hợp tác với Nvidia được điều chỉnh cho phù hợp với từ thông dụng yêu thích của mọi người hiện nay: AL/ML.

Trọng tâm chính của sự hợp tác là làm cho các hệ thống AI dễ triển khai và quản lý hơn bằng cách sử dụng Ethernet tiêu chuẩn, điều mà chúng tôi chắc chắn rằng tất cả những người gặp khó khăn trong việc lấy chứng chỉ CCNA và/hoặc CCNP sẽ đánh giá cao.

Trong khi các GPU hỗ trợ cụm AI có xu hướng chiếm ưu thế trong cuộc trò chuyện, thì các mạng hiệu suất cao, độ trễ thấp cần thiết để hỗ trợ có thể khá phức tạp. Mặc dù sự thật là các nút GPU hiện đại được hưởng lợi rất nhiều từ tốc độ kết nối mạng 200Gb/s, 400Gb/s và sắp tới là 800Gb/s, đây chỉ là một phần của phương trình, đặc biệt là khi nói đến đào tạo. Vì những khối lượng công việc này thường phải được phân phối trên nhiều máy chủ chứa bốn hoặc tám GPU nên bất kỳ độ trễ bổ sung nào cũng có thể dẫn đến thời gian đào tạo kéo dài.

Vì điều này, InfiniBand của Nvidia tiếp tục thống trị việc triển khai mạng AI. Trong một cuộc phỏng vấn gần đây với nhà phân tích doanh nghiệp Sameh Boujelbene của Tập đoàn Dell'Oro ước tính rằng khoảng 90% hoạt động triển khai đang sử dụng InfiniBand của Nvidia/Mellanox — không phải Ethernet.

Điều đó không có nghĩa là Ethernet không còn thu hút được sự chú ý. Các công nghệ mới nổi, như smartNIC và ASIC chuyển mạch được tối ưu hóa bằng AI với bộ đệm gói sâu đã giúp hạn chế tình trạng mất gói, khiến Ethernet ít nhất hoạt động giống InfiniBand hơn.

Ví dụ: bộ chuyển mạch ASIC Silicon One G200 của Cisco mà chúng tôi nhìn mùa hè năm ngoái, tự hào có một số tính năng có lợi cho mạng AI, bao gồm quản lý tắc nghẽn nâng cao, kỹ thuật phun gói và chuyển đổi dự phòng liên kết. Nhưng điều quan trọng cần lưu ý là những tính năng này không chỉ có ở Cisco, Nvidia và Broadcom đều đã công bố các thiết bị chuyển mạch có khả năng tương tự trong những năm gần đây.

Dell'Oro dự đoán vai trò của Ethernet trong mạng AI sẽ chiếm khoảng 20 điểm chia sẻ doanh thu vào năm 2027. Một trong những lý do cho điều này là do ngành đã quen thuộc với Ethernet. Mặc dù việc triển khai AI vẫn có thể yêu cầu điều chỉnh cụ thể nhưng các doanh nghiệp đã biết cách triển khai và quản lý cơ sở hạ tầng Ethernet.

Chỉ riêng thực tế này đã khiến việc hợp tác với các nhà cung cấp mạng như Cisco trở thành một triển vọng hấp dẫn đối với Nvidia. Mặc dù nó có thể làm giảm doanh số bán các thiết bị chuyển mạch InfiniBand hoặc Spectrum Ethernet của Nvidia, nhưng lợi ích thu được là khả năng đưa nhiều GPU hơn vào tay các doanh nghiệp có thể đã chùn bước trước triển vọng triển khai một ngăn xếp mạng hoàn toàn riêng biệt.

Cisco đóng vai trò ở góc độ AI dành cho doanh nghiệp

Để hỗ trợ những nỗ lực này, Cisco và Nvidia đã triển khai các hệ thống và thiết kế tham chiếu nhằm đảm bảo tính tương thích và giúp giải quyết các lỗ hổng kiến ​​thức để triển khai cơ sở hạ tầng mạng, lưu trữ và điện toán nhằm hỗ trợ triển khai AI của họ.

Các thiết kế tham chiếu này nhắm đến các nền tảng mà doanh nghiệp có thể đã đầu tư vào, bao gồm bộ công cụ từ Pure Storage, NetApp và Red Hat. Không có gì ngạc nhiên khi chúng cũng đóng vai trò thúc đẩy các hệ thống tăng tốc GPU của Cisco. Chúng bao gồm các thiết kế tham chiếu và tập lệnh tự động hóa để áp dụng các khung FlexPod và FlashStack cho khối lượng công việc suy luận AI. Suy luận, đặc biệt là trên các mô hình miền cụ thể nhỏ, dự kiến bởi nhiều người để chiếm phần lớn việc triển khai AI của doanh nghiệp vì việc vận hành và đào tạo chúng tương đối tiết kiệm.

FlashStack AI Thiết kế được xác minh của Cisco (CVD) về cơ bản là một cẩm nang dành cho làm thế nào để triển khai các hệ thống UCS được tăng tốc bằng GPU và mạng của Cisco cùng với mảng lưu trữ flash của Pure Storage. Trong khi đó, FlexPod AI (CVD) dường như theo một mẫu tương tự, nhưng hoán đổi Pure lấy nền tảng lưu trữ của NetApp. Cisco cho biết những sản phẩm này sẽ sẵn sàng ra mắt vào cuối tháng này và sẽ có thêm nhiều CVD được Nvidia hỗ trợ trong tương lai.

Nói về nền tảng điện toán UCS của Cisco, sơ đồ mạng cũng đã tung ra phiên bản tập trung vào biên của hệ thống phiến X-Series có thể được trang bị GPU mới nhất của Nvidia.

Khung gầm X Direct Tính năng, đặc điểm tám khe cắm có thể được lắp đặt bằng sự kết hợp của các phiến điện toán kép hoặc bốn ổ cắm hoặc các nút mở rộng PCIe để tính toán GPU. Các mô-đun X-Fabric bổ sung cũng có thể được sử dụng để mở rộng dung lượng GPU của hệ thống.

Tuy nhiên, cần lưu ý rằng không giống như nhiều nút GPU mà chúng tôi đã thấy từ Supermicro, Dell, HPE và các nút khác sử dụng mô-đun SXM mạnh mẽ nhất của Nvidia, hệ thống UCS X Direct của Cisco dường như chỉ hỗ trợ các GPU dựa trên TDP PCIe thấp hơn.

Theo bảng dữ liệu, mỗi máy chủ có thể được trang bị tối đa sáu GPU nhỏ gọn cho mỗi máy chủ hoặc tối đa hai GPU hai khe, chiều dài đầy đủ, chiều cao đầy đủ.

Điều này có thể sẽ hạn chế đối với những người muốn chạy các mô hình ngôn ngữ lớn tiêu tốn hàng trăm gigabyte bộ nhớ GPU. Tuy nhiên, nó có lẽ là quá đủ để chạy khối lượng công việc suy luận nhỏ hơn, cho những việc như xử lý trước dữ liệu ở biên.

Cisco đang nhắm mục tiêu nền tảng này vào lĩnh vực sản xuất, chăm sóc sức khỏe và những nơi đang vận hành các trung tâm dữ liệu nhỏ. ®

tại chỗ_img

Tin tức mới nhất

tại chỗ_img