제퍼넷 로고

코히런트, 더 큰 규모의 AI 클러스터를 위한 광 스위치 시연

시간

네트워킹 사업 코히런트(Coherent)는 월요일 광섬유 통신 컨퍼런스에서 고밀도 AI 클러스터를 지원하도록 설계된 광회로 스위치를 공개했습니다.

스위치는 광자를 전자로 변환하고 다시 변환하기 위해 트랜시버를 사용하는 대신 실제 스위칭이 완전히 광학적으로 처리된다는 점에서 AI 클러스터에서 일반적으로 찾을 수 있는 스위치와 다릅니다. 레이저 광은 한 포트에 들어가서 다른 포트로 빠져나갑니다. 물론 약간의 감쇠가 발생합니다.

XNUMXD덴탈의 기구내년에 대량 출시될 예정인 는 300개의 입력 포트와 300개의 출력 포트를 갖추고 있으며 코히런트의 Datacenter Light Wave Cross Connect 기술을 기반으로 합니다. 우리가 알고 있듯이, 이는 빛의 파장이 어디로 가는지 제어하기 위해 액정 셀을 조작함으로써 작동합니다.

OFC에 전시된 코히런트의 최신 광 회로 스위치는 300개의 입력 포트와 300개의 출력 포트를 자랑합니다.

OFC에 전시된 코히런트의 최신 광 회로 스위치는 300개의 입력 포트와 300개의 출력 포트를 자랑합니다. – 확대하려면 클릭하세요.

Dell'Oro Group 분석가 Sameh Boujelbene은 다음과 같이 말했습니다. 등록 광회로 스위치는 몇 가지 이점을 제공합니다. 높은 대역폭과 낮은 대기 시간 네트워킹 외에도 이러한 유형의 스위치는 훨씬 적은 수의 전기 스위치와 광 트랜시버가 필요하므로 작동 비용이 저렴한 경향이 있습니다.

또한 Coherent는 이러한 종류의 광 스위칭이 더 안정적인 경향이 있다고 지적합니다. 이는 평균 장애 시간이 매우 낮은 경향이 있는 매우 큰 클러스터에서 배당금을 지불할 것입니다.

이것이 Google이 TPUv4 포드용 광학 회로 스위치를 자체 개발한 이유 중 하나입니다. 작년 Hot Chips에서 Google TPU 그룹의 기술 책임자인 Andy Swing은 다음과 같이 말했습니다. 설명 [동영상] Google은 OCS를 사용하여 매우 많은 양의 가속기를 함께 전환할 수 있었습니다.

이 포드는 64개의 랙으로 구성되며 각 랙에는 64개의 TPU(텐서 처리 장치)가 포함되어 있습니다. 이러한 각 랙은 올투올 메시를 위해 Google이 내부에서 개발한 OCS 스위치 중 하나에 광학적으로 다시 연결되었습니다.

Swing은 이 접근 방식에 클러스터 크기를 동적으로 재구성하는 기능을 포함하여 몇 가지 이점이 있다고 설명했습니다. 또 다른 점은 모든 가속기가 서로 연결되어 있어 신뢰성이 향상된다는 것입니다. 모델의 매개변수 수와 데이터 세트의 크기에 따라 훈련 워크로드가 몇 달 동안 지속될 수 있으므로 바람직한 품질입니다.

Google TPUv4 포드의 경우 노드 중 하나에 장애가 발생하면 문제를 해결하도록 스위치를 재구성할 수 있습니다.

Swing은 또한 이 접근 방식을 통해 모델에 따라 다양한 네트워크 토폴로지를 사용할 수 있다고 언급했습니다. 예를 들어, 테스트에서 Google은 가속기가 꼬인 루프와 유사한 형태로 서로 맞물려 있는 꼬인 토러스 토폴로지를 사용하여 네트워크 대역폭이 크게 향상되는 것을 확인했습니다.

그러나 Coherent의 새로운 OCS 어플라이언스를 통해 다른 사람들은 Google과 유사한 광 전환 클러스터를 구축할 수 있지만 Dell Oro의 Boujelbene은 OCS가 여전히 데이터 센터에서 상대적으로 새로운 기술이라고 지적했습니다.

“수년간의 개발 끝에 지금까지는 Google만이 이를 배포할 수 있었습니다. 한꺼번에 데이터 센터 네트워크에서요.”라고 그녀는 말했습니다. "게다가 OCS 스위치는 클라우드 서비스 제공업체에 따라 광섬유 설치 기반을 변경해야 할 수도 있습니다." ®

spot_img

최신 인텔리전스

spot_img