제퍼넷 로고

Meta의 차세대 AI 칩은 전력을 마시면서 광고를 제공합니다.

시간

지난 16월 XNUMX세대 AI 가속기를 공개한 후 Meta는 이미 XNUMX개 지역에서 광고 추천을 지원하고 있는 것으로 알려진 이 자체 개발 실리콘에 대한 정보를 유출할 준비가 되어 있습니다.

Facebook의 골리앗은 광고 제국을 뒷받침하는 추천 모델을 구동하기 위해 비디오 스트리밍부터 기계 학습에 이르기까지 모든 방식의 작업 부하에 대한 맞춤형 가속기를 설계해 왔습니다.

XNUMXD덴탈의 최근 추가 MTIA(Meta Training Inference Accelerator) 제품군은 The Next Platform의 친구들이 3세대 부품에 비해 1.5배 더 높은 성능과 XNUMX배의 전력 효율성 이점을 주장합니다. 분석 작년에.

Meta에 따르면 일관성을 위해 MTIA v2라고 부르는 XNUMX세대 칩은 하이퍼스케일러의 내부 순위 및 추천 모델에 대해 가능한 최고의 성능을 얻기 위해 컴퓨팅, 메모리 용량 및 대역폭의 균형을 맞추도록 설계되었습니다. .

설계를 자세히 살펴보면 가속기는 MTIA v8에 비해 8배 더 높은 밀도의 컴퓨팅 성능 또는 희소성이 활성화된 3.5배 더 높은 성능을 함께 제공하는 7×1 처리 요소(PE) 그리드를 갖추고 있습니다.

Meta의 AI 가속기는 이미 하이퍼스케일러의 순위 및 추천 모델을 지원하고 있습니다.

위의 Meta의 최신 AI 가속기는 이미 하이퍼스케일러의 순위 및 추천 모델을 지원하고 있습니다. 확대하려면 클릭하세요. 출처 : 메타

더 작은 5nm TSMC 프로세스 노드를 사용하고 클럭 속도를 800MHz에서 1.35GHz로 높이는 것 외에도 Meta는 최신 부품의 성능 향상에 기여한 몇 가지 아키텍처 및 설계 개선에 대해 언급합니다. 여기에는 희소 계산 지원, 더 많은 온다이 및 오프 다이 메모리, 이전 모델보다 대역폭이 XNUMX배 증가한 업그레이드된 NoC(네트워크 온 칩)가 포함됩니다. XNUMX세대와 XNUMX세대를 비교하면 다음과 같습니다.

  MTIA v1 MTIA v2
프로세스 기술 7nm TSMC 5nm TSMC
다이 영역 373mm2 421mm2
PE 8 × 8 그리드 8 × 8 그리드
시계 속도 800MHz 1.35GHz
INT8 성능 102 상단 354/708* 탑
FP16/BF16 성능 51.2 TFLOPS 177/354* 테플롭스
체육멤버 PE당 128KB PE당 384KB
온칩 메모리 128MB 256MB
오프칩 메모리 64GB 128GB
오프칩 메모리 BW 176GB / s 204GB / s
입/출력 라인 8x PCIe Gen 4.0 – 16GB/s 8x PCIe Gen 5.0 – 32GB/s
TDP 25W 90W

* 부족한 성능. 두 칩의 전체 분석을 찾을 수 있습니다. 여기에서 지금 확인해 보세요..

MTIA v2가 GPU에 대한 웹 골리앗의 필요성을 제거하지는 않는다는 점에 유의해야 합니다. 메타의 우월자 마크 주커버그(Mark Zuckerberg)는 이전에 자신의 거대 기업이 전개할 것이다 350,000개의 Nvidia H100 가속기는 연말까지 600,000개의 H100과 동등한 성능을 발휘하게 될 것입니다.

대신 MTIA는 특정 작업에 맞는 맞춤형 실리콘을 개발하는 Meta(및 기타 업체)에 점점 더 익숙해지는 패턴을 따릅니다. 키트가 CPU 및 GPU만큼 유연하지 않을 수 있지만 대규모로 배포할 때 ASIC이 더 효율적일 수 있다는 아이디어입니다.

최신 칩은 이전 칩보다 거의 7배의 전력을 소비하지만 부동 소수점 성능은 최대 7.8배까지 향상시킬 수 있습니다. GPU와 비교하여 Meta의 최신 가속기는 와트당 XNUMX TOPS(TOPS/W)를 관리합니다. 논의 된 Blackwell 커버리지에서는 100 TOPS/W에서 Nvidia의 H5.65 SXM을 능가하고 100 TOPS/W에서 A3.12 SXM의 두 배 이상입니다.

그렇다면 Meta가 내부 작업 부하, 즉 추천 모델 추론에 맞게 칩 크기를 조정하기 위해 많은 노력을 기울인 것은 분명합니다. 이는 귀하가 알 수 있는 사람, 더 중요하게는 귀하와 가장 관련성이 높은 광고 등 Meta의 비즈니스 모델과 같은 개인화된 제안을 제공하도록 설계되었습니다.

또한 이 칩은 필요에 따라 확장되도록 설계되었으며 총 72개의 가속기를 포함하는 랙 기반 시스템에 배포할 수 있습니다. 각 시스템은 각각 12개의 컴퓨팅 보드가 포함된 2개의 섀시와 보드당 XNUMX개의 MTIA vXNUMX 칩을 결합합니다.

각 MTIA v2 섀시에는 각각 한 쌍의 가속기를 포함하는 12개의 컴퓨팅 보드가 포함되어 있습니다.

각 MTIA v2 섀시에는 각각 한 쌍의 가속기를 갖춘 12개의 컴퓨팅 보드가 포함되어 있습니다. 확대하려면 클릭하세요. 출처: 메타.

워크로드 배포 측면에서 Meta는 PyTorch 프레임워크와 Triton 컴파일러에 크게 의존하고 있습니다. 다양한 GPU 및 가속기에서 작업을 수행하는 데 이 조합이 사용되는 것을 확인했는데, 그 이유 중 하나는 특정 하드웨어에 최적화된 코드를 개발할 필요가 거의 없기 때문입니다.

메타는 주요한 역할을 해왔습니다. 제안자 Linux Foundation에 권한을 넘기기 전에 개발한 PyTorch는 엔지니어에게 Nvidia 및 AMD의 다양한 GPU 하드웨어에서 실행할 수 있는 AI 애플리케이션을 개발할 수 있는 유연성을 제공합니다. 따라서 Meta가 자체 칩에 동일한 기술을 사용하고 싶어하는 것이 합리적입니다.

실제로 메타는 자사의 소프트웨어와 하드웨어를 공동 개발함으로써 기존 GPU 플랫폼에 비해 더 높은 효율성을 달성할 수 있었고 향후 최적화를 통해 훨씬 더 높은 성능을 끌어낼 수 있을 것으로 기대한다고 주장합니다.

MTIA v2는 확실히 Meta에서 볼 수 있는 마지막 실리콘은 아닐 것입니다. 이 거대 소셜 미디어 회사는 미래의 생성 AI 시스템을 지원하는 프로그램을 포함하여 여러 가지 칩 설계 프로그램이 진행 중이라고 밝혔습니다. ®

spot_img

최신 인텔리전스

spot_img