Logo Zephyrnet

Chip AI thế hệ tiếp theo của Meta phân phát quảng cáo trong khi tiêu tốn năng lượng

Ngày:

Sau khi ra mắt công cụ tăng tốc AI thế hệ thứ hai vào tháng 16, Meta đã sẵn sàng tung ra loại silicon cây nhà lá vườn này, được cho là sẽ cung cấp năng lượng cho các đề xuất quảng cáo ở XNUMX khu vực.

Gã khổng lồ Facebook đã và đang thiết kế các công cụ tăng tốc tùy chỉnh cho mọi loại khối lượng công việc, từ truyền phát video đến học máy để thúc đẩy các mô hình đề xuất đằng sau đế chế quảng cáo của mình.

Sản phẩm bổ sung mới nhất đối với dòng Máy tăng tốc suy luận đào tạo Meta (MTIA) khẳng định hiệu suất cao hơn gấp 3 lần và lợi thế về hiệu suất sử dụng năng lượng gấp 1.5 lần so với phần thế hệ đầu tiên, điều mà bạn bè của chúng tôi tại The Next Platform phân tích năm ngoái.

Theo Meta, chip thế hệ thứ hai, mà chúng tôi sẽ gọi là MTIA v2 vì mục đích nhất quán, được thiết kế để cân bằng tính toán, dung lượng bộ nhớ và băng thông nhằm đạt được hiệu suất tốt nhất có thể cho các mô hình đề xuất và xếp hạng nội bộ của siêu quy mô .

Đi sâu vào thiết kế, bộ tăng tốc có lưới các phần tử xử lý (PE) 8 × 8, cùng nhau mang lại hiệu suất tính toán dày đặc cao hơn 3.5 lần hoặc hiệu suất cao hơn 7 lần khi bật tính năng thưa thớt so với MTIA v1.

Bộ tăng tốc AI của Meta đã hỗ trợ các mô hình đề xuất và xếp hạng của siêu quy mô

Ở trên, công cụ tăng tốc AI mới nhất của Meta đã hỗ trợ các mô hình đề xuất và xếp hạng của siêu quy mô – Nhấp để phóng to. Nguồn: Meta

Ngoài việc sử dụng nút xử lý TSMC 5nm nhỏ hơn và tăng tốc độ xung nhịp từ 800MHz lên 1.35GHz, Meta còn lưu ý một số cải tiến về kiến ​​trúc và thiết kế đã góp phần tăng hiệu suất của bộ phận mới nhất. Chúng bao gồm hỗ trợ tính toán thưa thớt, nhiều bộ nhớ khi chết và không chết và mạng trên chip (NoC) được nâng cấp với băng thông gấp đôi so với mẫu cũ. Đây là cách so sánh thế hệ thứ nhất và thứ hai:

  MTIA v1 MTIA v2
Quy trình công nghệ TSMC 7nm TSMC 5nm
Khu vực chết 373mm2 421mm2
Chuyên gia sản xuất Lưới 8 × 8 Lưới 8 × 8
Tốc độ đồng hồ 800MHz 1.35GHz
Sự hoàn hảo của INT8 ĐỒNG HỒ 354/708* NGỌN
Sự hoàn hảo của FP16/BF16 51.2 TFLOPS 177/354* TFLOPS
ghi nhớ PE 128KB mỗi PE 384KB mỗi PE
Bộ nhớ trên chip 128MB 256MB
Bộ nhớ ngoài chip 64GB 128GB
Bộ nhớ ngoài chip BW 176GB / s 204GB / s
Kết nối 8x PCIe thế hệ 4.0 – 16GB/giây 8x PCIe thế hệ 5.0 – 32GB/giây
TDP 25W 90W

* Hiệu suất thưa thớt. Bạn có thể tìm thấy thông tin chi tiết đầy đủ về cả hai chip tại đây.

Cần lưu ý rằng MTIA v2 sẽ không loại bỏ nhu cầu về GPU của gã khổng lồ web. Meta supremo Mark Zuckerberg trước đây đã cho biết tập đoàn lớn của mình sẽ triển khai 350,000 bộ tăng tốc Nvidia H100 và sẽ có tương đương 600,000 chiếc H100 hoạt động vào cuối năm nay.

Thay vào đó, MTIA tuân theo một mô hình ngày càng quen thuộc với Meta (và những người khác) là phát triển silicon tùy chỉnh phù hợp với các nhiệm vụ cụ thể. Ý tưởng là mặc dù bộ công cụ này có thể không linh hoạt như CPU ​​và GPU, nhưng ASIC khi được triển khai trên quy mô lớn có thể hiệu quả hơn.

Mặc dù chip mới nhất tiêu thụ năng lượng gần gấp 7 lần so với chip tiền nhiệm nhưng nó có khả năng tạo ra hiệu suất dấu phẩy động lên tới 7.8 lần. Đối đầu với GPU, bộ tăng tốc mới nhất của Meta quản lý XNUMX TOPS mỗi watt (TOPS/W), như chúng tôi thảo luận trong vùng phủ sóng Blackwell của chúng tôi, đánh bại H100 SXM của Nvidia ở mức 5.65 TOPS/W và cao hơn gấp đôi so với A100 SXM ở mức 3.12 TOPS/W.

Phải nói rằng, rõ ràng là Meta đã nỗ lực rất nhiều để điều chỉnh kích thước chip phù hợp với khối lượng công việc nội bộ của nó - cụ thể là suy luận về các mô hình đề xuất. Chúng được thiết kế để hiển thị các đề xuất được cá nhân hóa, chẳng hạn như những người bạn có thể biết hoặc quan trọng hơn là đối với mô hình kinh doanh của Meta, những quảng cáo nào có thể phù hợp với bạn nhất.

Các chip này cũng được thiết kế để mở rộng quy mô khi cần thiết và có thể được triển khai trong một hệ thống đặt trên giá chứa tổng cộng 72 bộ tăng tốc: Mỗi hệ thống kết hợp ba khung, mỗi khung chứa 12 bảng điện toán với hai chip MTIA v2 trên mỗi bảng.

Mỗi khung MTIA v2 chứa 12 bảng tính toán, mỗi bảng chứa một cặp máy gia tốc

Mỗi khung MTIA v2 chứa 12 bo mạch điện toán, mỗi bo mạch có một cặp bộ tăng tốc… Nhấp để phóng to. Nguồn: Meta.

Về mặt triển khai khối lượng công việc, Meta chủ yếu dựa vào khung PyTorch và trình biên dịch Triton. Chúng tôi đã thấy sự kết hợp này được sử dụng để thực hiện các tác vụ trên nhiều GPU và bộ tăng tốc khác nhau, một phần vì nó loại bỏ phần lớn nhu cầu phát triển mã được tối ưu hóa cho phần cứng cụ thể.

Meta, đã là một chuyên gia người đề nghị của PyTorch, được phát triển trước khi giao lại quyền điều hành cho Linux Foundation, vì nó mang lại cho các kỹ sư sự linh hoạt trong việc phát triển các ứng dụng AI có thể chạy trên nhiều loại phần cứng GPU của Nvidia và AMD. Vì vậy, thật hợp lý khi Meta muốn sử dụng các công nghệ tương tự với chip của riêng mình.

Trên thực tế, Meta tuyên bố rằng bằng cách cùng nhau phát triển phần mềm và phần cứng, Meta có thể đạt được hiệu quả cao hơn so với các nền tảng GPU hiện tại và hy vọng sẽ đạt được hiệu suất cao hơn nữa thông qua các tối ưu hóa trong tương lai.

MTIA v2 chắc chắn sẽ không phải là silicon cuối cùng chúng ta thấy từ Meta. Gã khổng lồ truyền thông xã hội cho biết họ đang thực hiện một số chương trình thiết kế chip, bao gồm một chương trình sẽ hỗ trợ các hệ thống AI trong tương lai. ®

tại chỗ_img

Tin tức mới nhất

tại chỗ_img