Logo Zephyrnet

Các công tắc quang trình diễn mạch lạc cho các cụm AI lớn hơn nữa

Ngày:

Networking biz Coherent đã tiết lộ một bộ chuyển mạch quang được thiết kế để hỗ trợ các cụm AI mật độ cao tại Hội nghị Truyền thông Sợi quang vào thứ Hai.

Công tắc này không giống như những công tắc bạn thường thấy trong các cụm AI ở chỗ việc chuyển đổi thực tế được xử lý hoàn toàn bằng quang học, thay vì sử dụng bộ thu phát để chuyển đổi photon thành electron và ngược lại. Ánh sáng laser chỉ cần đi vào một cổng và thoát ra một cổng khác – tất nhiên là có một chút suy giảm.

Sản phẩm thiết bị, dự kiến ​​sẽ xuất xưởng với số lượng lớn vào năm tới, có 300 cổng đầu vào và 300 cổng đầu ra và dựa trên công nghệ Kết nối chéo sóng ánh sáng trung tâm dữ liệu của Coherent. Theo chúng tôi hiểu, nó hoạt động bằng cách điều khiển các tế bào tinh thể lỏng để kiểm soát bước sóng ánh sáng đi đến đâu.

Công tắc mạch quang mới nhất của Coherent được trưng bày tại OFC tự hào có 300 cổng đầu vào và 300 cổng đầu ra.

Công tắc mạch quang mới nhất của Coherent được trưng bày tại OFC tự hào có 300 cổng đầu vào và 300 cổng đầu ra – Nhấp để phóng to

Nhà phân tích Sameh Boujelbene của Tập đoàn Dell'Oro nói với Đăng ký rằng các công tắc mạch quang mang lại một số lợi ích. Ngoài băng thông cao và mạng có độ trễ thấp, các thiết bị chuyển mạch loại này có xu hướng vận hành ít tốn kém hơn – vì chúng yêu cầu ít thiết bị chuyển mạch điện và bộ thu phát quang hơn đáng kể.

Ngoài ra, Coherent lưu ý rằng loại chuyển mạch quang học này có xu hướng đáng tin cậy hơn – thứ sẽ mang lại lợi ích trong các cụm rất lớn hơn, trong đó thời gian dẫn đến thất bại có xu hướng khá thấp.

Đây là một trong những lý do khiến Google phát triển các công tắc mạch quang học riêng cho vỏ TPUv4 của mình. Phát biểu tại Hot Chips năm ngoái, Andy Swing, trưởng nhóm kỹ thuật của nhóm TPU của Google, Giải thích [Video] rằng bằng cách sử dụng OCS, Google có thể chuyển đổi số lượng rất lớn máy gia tốc lại với nhau.

Các nhóm này bao gồm 64 giá đỡ, mỗi giá chứa 64 Bộ xử lý Tensor (TPU). Mỗi giá đỡ này được kết nối quang học trở lại với một trong các bộ chuyển mạch OCS được phát triển nội bộ của Google để tạo ra một mạng lưới tổng thể.

Swing giải thích cách tiếp cận này có một số lợi ích – bao gồm khả năng tự động cấu hình lại kích thước cụm. Một điều nữa là tất cả các bộ tăng tốc đều được kết nối với nhau, giúp cải thiện độ tin cậy – một chất lượng mong muốn vì khối lượng công việc đào tạo có thể kéo dài hàng tháng tùy thuộc vào số lượng tham số của mô hình và kích thước của tập dữ liệu.

Trong trường hợp nhóm TPUv4 của Google, nếu một trong các nút bị lỗi, công tắc có thể được cấu hình lại để khắc phục sự cố.

Swing cũng lưu ý rằng cách tiếp cận này cho phép sử dụng nhiều cấu trúc liên kết mạng khác nhau tùy thuộc vào mô hình. Ví dụ: trong quá trình thử nghiệm, Google đã thấy băng thông mạng tăng đáng kể bằng cách sử dụng cấu trúc liên kết hình xuyến xoắn, trong đó các bộ tăng tốc được nối với nhau thành một cái gì đó giống như một vòng xoắn.

Nhưng trong khi các thiết bị OCS mới của Coherent có thể cho phép những người khác xây dựng các cụm chuyển đổi quang học tương tự như của Google, Boujelbene của Dell Oro lưu ý rằng OCS vẫn là một công nghệ tương đối mới trong trung tâm dữ liệu.

“Cho đến nay chỉ có Google, sau nhiều năm phát triển, mới có thể triển khai nó hàng loạt trong mạng trung tâm dữ liệu của mình,” cô nói. “Ngoài ra, các bộ chuyển mạch OCS có thể yêu cầu thay đổi cơ sở cáp quang được cài đặt tùy thuộc vào nhà cung cấp dịch vụ đám mây.” ®

tại chỗ_img

Tin tức mới nhất

tại chỗ_img