Đánh đổi bộ xử lý cho khối lượng công việc AI

AI đang thúc đẩy những thay đổi cơ bản trong chip được sử dụng trong trung tâm dữ liệu và trong các công cụ được sử dụng để thiết kế chúng, nhưng nó cũng đang tạo ra khoảng cách giữa tốc độ mà công nghệ đó tiến bộ và nhu cầu của khách hàng.

Những thay đổi này bắt đầu dần dần, nhưng chúng đã tăng tốc và nhân lên trong năm qua với việc triển khai ChatGPT và các mô hình ngôn ngữ lớn khác. Đột nhiên có nhiều dữ liệu hơn và tất cả dữ liệu đó cần được xử lý nhanh hơn, sử dụng ít năng lượng hơn và có nhiều chức năng hơn trong không gian hạn chế.

Tệ hơn nữa, vì đây là công nghệ mới nên nó cũng ở trong tình trạng thay đổi gần như liên tục. Đổi lại, điều đó đang tạo ra một số sự đánh đổi khó khăn dường như mâu thuẫn với nhau. Ví dụ: chip yêu cầu tính linh hoạt tích hợp sẵn để tính đến những thay đổi này, nhưng ở hiệu suất và hiệu suất năng lượng thường được kết hợp với ASIC. Những thiết kế này cũng yêu cầu phần mềm được tích hợp chặt chẽ, nhưng đủ linh hoạt để đo lường và phản hồi các tác động về hiệu suất và sức mạnh do các thay đổi đối với thuật toán gây ra. Và tất cả những điều này cần phải xảy ra sớm hơn trong chu trình thiết kế.

Alexander Wakefield, nhà khoa học kỹ thuật ứng dụng tại cho biết: “Nếu bạn quay lại một thời gian về phía phần cứng trong trung tâm dữ liệu, Intel có thể đã thấy điều này xảy ra cách đây một thập kỷ khi họ mua Altera. Synopsys. “Ý tưởng là chúng tôi có thể đặt một kết cấu FPGA ngay bên cạnh CPU x86 và nó sẽ cách mạng hóa thế giới. Họ đã trả rất nhiều tiền cho Altera, thu hút họ vào công ty và sau đó không có gì xảy ra. FPGA có thực sự là mảnh ghép phù hợp với nó? Có thể không. Thật tuyệt nếu bạn có thể lấy thứ gì đó, tổng hợp nó thành một loại logic phần cứng nào đó và đưa nó vào một FPGA. Nó giống như một AI, và nó là một máy gia tốc. Nhưng nó có phải là máy gia tốc phù hợp không? Có thể không. NVIDIA đã làm đúng và giá cổ phiếu đã cho thấy điều đó. Khách hàng muốn nhận khối lượng công việc dựa trên phần mềm và đưa khối lượng công việc đó vào một phần cứng có hàng nghìn đơn vị xử lý nhỏ trên GPU và họ cần thực hiện các tác vụ rất phức tạp sẵn sàng cho GPU.”

Theo Arif Khan, giám đốc nhóm tiếp thị sản phẩm cấp cao của PCIe, CXL và IP giao diện tại Nhịp. “Bài báo này đã mô tả mô hình máy biến áp đã hình thành cơ sở triển khai mô hình ngôn ngữ lớn (LLM) đã thúc đẩy các ứng dụng như ChatGPT và DALL-E, những thứ đã biến AI trở thành một thuật ngữ quen thuộc ngày nay. ChatGPT đã được áp dụng nhanh hơn bất kỳ ứng dụng nào khác cho đến nay, đã đạt 100 triệu người dùng trong vòng hai tháng kể từ khi ra mắt. Các mô hình đào tạo sử dụng hàng trăm tỷ tham số để cho phép thực hiện các suy luận khi người dùng truy vấn các hệ thống này.

Các thiết kế AI/ML để đào tạo, suy luận, khai thác dữ liệu và phân tích biểu đồ có các nhu cầu khác nhau. “Ví dụ,” Khan cho biết, “SoC đào tạo yêu cầu kiến trúc chuyên biệt với TPU/GPU hoặc thiết kế tùy chỉnh có thể thực hiện các hoạt động vectơ và chia sẻ trọng số trong quá trình đào tạo. Các thiết kế được nhắm mục tiêu để suy luận phải đáp ứng khối lượng truy vấn lớn và cần các giao diện mạng băng thông cao hơn.”

Chip trong trung tâm dữ liệu đã vượt qua giới hạn về kích thước vật lý. Một số con chip này vượt quá kích thước của mặt kẻ ô và phải được khâu lại với nhau. Càng ngày, cách tiếp cận đó càng được thay thế bằng cách đẩy lên chiều Z.

Preeti Gupta, giám đốc quản lý sản phẩm cho các sản phẩm bán dẫn tại Ansys. “Bạn đang đặt các khuôn bán dẫn chồng lên nhau chứ không chỉ đặt cạnh nhau như cách bố trí hai chiều mà chúng tôi đã thực hiện trước đây. Điều đó thực sự nhằm đáp ứng các mục tiêu PPA trong khi vẫn giảm chi phí.”

Nhưng điều này ảnh hưởng đến cách thiết kế chip và nó đòi hỏi các công cụ, phương pháp và quy trình khác nhau để tự động hóa quy trình thiết kế. Bố cục cần tính đến hiệu ứng nhiệt và tiếng ồn, cũng như hành vi của các vật liệu và cấu trúc khác nhau theo thời gian. Tất cả những điều này làm tăng lượng dữ liệu cần được xử lý, quản lý và lưu trữ ngay trong giai đoạn thiết kế. Ví dụ, làm thế nào để các nhóm thiết kế phân phối tất cả dữ liệu cần xử lý trên nhiều yếu tố điện toán khác nhau, sau đó đảm bảo rằng khi dữ liệu được kết hợp lại, kết quả sẽ chính xác? Và làm cách nào để nhiều việc này có thể được thực hiện sớm hơn trong quy trình, chẳng hạn như hiểu được tác động của những thay đổi thuật toán đối với hiệu suất và sức mạnh của phần cứng khi sử dụng khối lượng công việc thực tế?

“Các nhà thiết kế AI/ML muốn sớm tối ưu hóa các thuật toán của họ trong quy trình thiết kế,” Gupta nói. “Họ cũng muốn thực hiện điều này thật nhanh chóng — thực hiện nhiều lần lặp lại trong một ngày. Rõ ràng, khi bạn đã thiết kế RTL của mình, bạn đã tổng hợp nó thành một danh sách mạng và bây giờ bạn muốn thay đổi thuật toán là một vòng lặp dài — nhóm thiết kế có thể đạt được năng suất cao hơn ít nhất gấp 10 lần nếu họ thực hiện các tối ưu hóa này tại RTL. Ngoài ra, các nhóm AI/ML này muốn hướng dẫn các quyết định thiết kế bằng cách sử dụng khối lượng công việc của ứng dụng thực. Chúng tôi nhận thấy rằng các công ty này hiện đang sử dụng các kỹ thuật lập hồ sơ năng lượng ban đầu rất nhanh để tìm ra khối lượng công việc ứng dụng thực tế, nếu họ thay đổi thuật toán AI, thì công suất cực đại hoặc sự kiện di/dt sẽ thay đổi như thế nào. Hãy tưởng tượng sức mạnh của việc có thể tạo dạng sóng năng lượng theo chu kỳ qua hàng tỷ chu kỳ nhiều lần trong ngày khi thuật toán AI đang được tối ưu hóa. Họ đang sử dụng các phương pháp lập hồ sơ nhanh chóng đó để tối ưu hóa các thuật toán AI trong bối cảnh quyền lực.”

Ngoài ra, thời gian của mọi khía cạnh của thiết kế cần phải được đồng bộ hóa để đạt được các mục tiêu về hiệu suất và công suất, đồng thời hữu ích về mặt chức năng. Mahmud Ullah, kỹ sư ứng dụng sản phẩm chính tại Phần mềm Công nghiệp Kỹ thuật số Siemens. “Nhưng trong thời gian gần đây, chúng ta thấy rằng không chỉ là vấn đề thời điểm. Sức mạnh cũng là một mối quan tâm. Trong bối cảnh đó, đối với nhiều nhà thiết kế đang thiết kế chip trung tâm dữ liệu — cũng như chip cho các lĩnh vực khác nhau, bao gồm CPU, GPU, IoT — sức mạnh là mối quan tâm chính. Và đặc biệt đối với các nhóm kỹ thuật tạo chip trung tâm dữ liệu, họ muốn đo công suất ngay từ đầu chu kỳ thiết kế của mình vì công suất là một trong những hạn chế chính hiện nay.”

Nói một cách đơn giản, nhiều dữ liệu hơn đang được chuyển sang trái và nó đang tạo ra một cơn lũ ở mặt trước của chu trình thiết kế.

“Điều quan trọng là bạn có thể dự đoán sức mạnh chính xác đến mức nào,” Ullah nói, “Ở cấp độ SoC, đây là những thiết kế lớn, có thể có gần một tỷ cổng. Mục đích chính là để biết bạn có thể dự đoán sức mạnh đó chính xác đến mức nào. Và để làm được điều đó, cách duy nhất bạn có thể đo lường nó là chạy nó trên các công cụ mô phỏng, bởi vì điều đó sẽ cho bạn biết bạn sẽ chạy những ứng dụng cuối nào. Có thể có những tình huống trong đó bạn thiết kế một loại phần mềm mới, và khi bạn bắt đầu chạy phần mềm đó thì đột nhiên bạn thấy con chip không hoạt động. Để tránh tình trạng này, sẽ rất hữu ích nếu chạy các ứng dụng thực tế cho thiết kế của bạn ở giai đoạn rất sớm. Trong các thiết kế trung tâm dữ liệu, ước tính năng lượng ở cấp độ SoC được sử dụng. Từ đó, nhóm kỹ sư chạy các thiết kế lớn của họ với các ứng dụng thực tế và kích thích thực sự đến. Sau đó, họ cô lập các vấn đề liên quan đến năng lượng ở giai đoạn đầu, sau đó sửa chữa những thứ đó và thực hiện tối ưu hóa hơn nữa.”

Khan của Cadence cũng lưu ý mức tiêu thụ điện năng là một mối quan tâm. “Các mô hình đào tạo cực kỳ tốn năng lượng và việc duy trì các mô hình này để suy luận tiếp tục tiêu tốn nhiều năng lượng trên cơ sở liên tục. Các kiến trúc mới hơn dành cho đào tạo dựa trên các kiến trúc chuyên biệt để tối ưu hóa hoạt động vectơ và vị trí di chuyển dữ liệu, đồng thời ngày càng có nhiều công ty khởi nghiệp hoạt động trong lĩnh vực này. Chúng tôi thấy tác động về các quyết định thiết kế như lựa chọn bộ nhớ: HBM so với GDDR so với LPDDR; sự gia tăng của các phân vùng dựa trên chiplet và nhu cầu mạnh mẽ đối với UCIe như một giao diện kết nối chiplet; và tăng cường triển khai CXL để hỗ trợ các kiến trúc bộ nhớ mới.”

Nhìn lại, điều đó đơn giản hơn nhiều trước khi triển khai AI tổng quát. Mức độ không chắc chắn và lượng dữ liệu cần được xử lý đã bùng nổ. Có nhiều lựa chọn hơn để xem xét và tất cả những điều này cần được thực hiện một cách đáng tin cậy và nhanh chóng. Nhưng cách tiếp cận tốt nhất là gì, và làm thế nào để kiến trúc và phân vùng theo cách mà năng lượng có thể quản lý được và hiệu suất vừa đủ, và ở đâu nó có thể chạy hết công suất mà không bị quá nóng?

Synopsys' Wakefield đặt câu hỏi liệu chip xử lý và chip AI có cần được tích hợp với nhau trên cùng một miếng silicon hay trên cùng một chất nền hay không. “Chúng có cần được đặt trên cùng một bảng không? Chắc chắn. Nó đã xảy ra rồi. Điều đó có làm tăng nhu cầu năng lượng và có nghĩa là kích thước của các mô hình này tiếp tục phát triển? Đúng. Nếu bạn nhìn vào chi phí mà NVIDIA có thể nhận được cho một trong những chip AI của họ, thì điều đó thật đáng kể. Giá niêm yết của chúng là 30,000 đến 40,000 USD cho một miếng silicon. Một phần của vấn đề là khi bạn nhìn vào thông số sức mạnh của những thứ này, GPU NVIDIA mới nhất sử dụng 450 đến 500 watt điện năng. Làm thế nào để bạn giữ cho điều này mát mẻ? Làm thế nào để bạn ngăn chặn silicon nóng chảy? Làm thế nào để bạn làm điều đó một cách hiệu quả nếu bạn giảm nhu cầu năng lượng cho một số ứng dụng nhất định? Điều đó sẽ trở thành một vấn đề thực sự sau này. Ngay bây giờ, nó sử dụng rất nhiều năng lượng và mọi người sẵn sàng ăn chi phí. Nhưng khi AI trở nên phổ biến hơn trong nhiều thứ khác nhau, bạn không muốn tiêu tốn 500 watt cho mặt hàng đó cộng với chi phí làm mát. Vì vậy, có thể đó là một kilowatt cho một số nhiệm vụ cụ thể. Trong xe của bạn, bạn không muốn một kilowatt điện được cung cấp cho hệ thống tự lái. Bạn muốn kilowatt điện điều khiển các bánh xe. Các kiến trúc AI sẽ trở nên tốt hơn. Chúng sẽ trở nên tinh tế hơn, chúng sẽ trở nên tùy chỉnh hơn. Các công ty khác nhau đang công bố các dự án AI khác nhau trong đó và có những công ty bán AI dưới dạng IP.”

Lượng mã lực tính toán sẽ được yêu cầu cho AI tổng quát về cơ bản là một điểm uốn.

Wakefield cho biết: “Sau khi bạn chế tạo chip AI và có 1,000 lõi AI bên trong, khách hàng sẽ muốn có 2,000 hoặc 4,000 lõi trong thiết kế tiếp theo của họ. “Cái sau đó sẽ còn nhiều hơn nữa. Sau đó, chúng ta sẽ chuyển sang 3D-IC, và bạn sẽ có thể xây dựng những mảnh nhỏ này, xếp tất cả chúng lại với nhau và tạo ra các chồng những thứ này được kết nối với nhau. Ponte Vecchio của Intel [hiện được gọi là Dòng GPU Max của Trung tâm dữ liệu Intel] lớn bằng một chiếc thẻ tín dụng, với 30 ô được ghép lại với nhau. Để đạt được năng suất phù hợp, để thử nghiệm phù hợp, mỗi ô xếp riêng lẻ đó có thể là các nút công nghệ khác nhau và chúng có thể quay lại một số phần nhất định của nó, sau đó ghép chúng lại với nhau để tạo ra sản phẩm. Chúng ta cũng sẽ thấy nhiều hơn về điều đó sắp tới.

Di chuyển và quản lý dữ liệu
Thúc đẩy nhiều thay đổi này là AI, cho dù đó là học máy, học sâu, AI tổng quát hay một số biến thể khác. Tuy nhiên, nhu cầu hệ thống ngày càng tăng đang nhanh chóng vượt xa khả năng thiết kế các hệ thống đó, tạo ra khoảng cách ở mọi cấp độ và thúc đẩy việc áp dụng các công nghệ mới nhanh hơn bất kỳ thời điểm nào trong quá khứ.

“Nếu chúng ta xem xét tất cả các xu hướng mở rộng công nghệ, lấy bộ nhớ làm ví dụ, thì hiệu suất của bộ nhớ DDR tăng gấp đôi sau mỗi XNUMX năm,” Steven Woo, đồng nghiệp và nhà phát minh nổi tiếng tại Rambus. “Nhưng trong trường hợp của HBM, nó nhanh hơn. Cứ sau hai đến ba năm, HBM tăng gấp đôi tốc độ. Nói chung, số lượng lõi trong bộ xử lý sẽ tăng gấp đôi sau mỗi vài năm. Mặc dù điều đó có thể chậm lại, nhưng đó là xu hướng lịch sử. Sau đó, chúng tôi xem xét AI — đặc biệt là về khía cạnh đào tạo — và nhu cầu đang tăng gấp đôi sau mỗi vài tháng. Vì vậy, tại thời điểm này, chúng tôi bắt đầu nhận ra rằng, 'Chà, tôi không thể làm gì trên silicon một mình để bắt kịp những xu hướng này.' Những gì mọi người sau đó nói là, 'Được rồi, nếu tôi không thể làm điều đó với một miếng silicon, tôi sẽ làm nó với nhiều miếng silicon. Và sau đó tôi sẽ xâu chuỗi ngày càng nhiều miếng silicon lại với nhau.'”

Đó là tất cả có ý nghĩa trong lý thuyết. Vấn đề là phân vùng các tác vụ giữa tất cả các công cụ xử lý này và cộng các kết quả lại với nhau ở cuối.

“Số lượng công việc mà mỗi người thực hiện giảm xuống đối với mỗi [công cụ] bạn thêm vào và số lượng thông tin liên lạc mà chúng tôi phải thực hiện tăng lên vì có nhiều [công cụ] hơn để nói chuyện,” Woo nói. “Đã luôn có trường hợp giao tiếp rất tốn kém. Và ngày nay, nếu bạn nhìn vào tỷ lệ tốc độ điện toán so với giao tiếp, trong một số trường hợp, điện toán gần như miễn phí. Giao tiếp là nút cổ chai thực sự của bạn. Vì vậy, có một số giới hạn về việc bạn thực sự có thể đi bao xa về mức độ bạn sẽ phá vỡ một vấn đề, một phần vì bạn muốn động cơ có việc để làm. Nhưng bạn cũng không muốn thực hiện quá nhiều giao tiếp đến mức nó trở thành nút thắt cổ chai.”

Đó cũng chỉ là một khía cạnh của vấn đề. Những vấn đề này đang hiển thị ở khắp mọi nơi.

Ông lưu ý: “Điều xảy ra là ở một số loại thị trường nhất định, mọi người sẵn sàng nói, 'Đây là một vấn đề quan trọng đến mức tôi sẽ thiết kế một loại mạng truyền thông đặc biệt để giải quyết tất cả những vấn đề này. “Chúng tôi đang thấy điều này trong không gian AI nơi các công ty như NVIDIA có một thứ gọi là NVLink, đó là cơ chế giao tiếp siêu nhanh của họ. Các công ty khác có các phương pháp khác. Google TPU có loại mạng riêng. Hiện nay có rất nhiều mối quan tâm đến quang học cho giao tiếp đó, bởi vì có rất nhiều sự quan tâm đến việc chứng kiến sự trưởng thành của công nghệ quang tử silicon. Cảm giác là một khi bạn giảm bớt tác động của vấn đề giao tiếp, các công cụ tính toán lại trở thành vấn đề lớn. Đây là tất cả về, 'Làm thế nào để tôi xem xét vấn đề này và đảm bảo rằng giao tiếp không phải là nút cổ chai lớn?' Một cách để nghĩ về giao tiếp là nó gần như là điều xấu xa cần thiết của những gì chúng ta phải làm để phá vỡ các vấn đề. Nhưng về bản chất, việc truyền dữ liệu từ nút này sang nút khác không thực sự thúc đẩy quá trình tính toán. Nó chỉ là một điều ác cần thiết để tiếp tục tính toán.”

Đánh đổi phức tạp hơn
Có rất nhiều phần chuyển động để cân bằng tất cả các yêu cầu PPA trong chip trung tâm dữ liệu và các cải tiến hoặc thay đổi đối với bất kỳ phần nào thường có tác động đến ít nhất một trong hai yêu cầu còn lại.

Wakefield nhận xét: “Về phần mềm, khách hàng đang xây dựng một bộ tăng tốc AI, là sự kết hợp giữa phần cứng họ bán, silicon và một số loại thư viện hoặc trình điều khiển hoặc lớp phần mềm mà họ bán cùng với nó. “Đó là tổng hiệu suất của cả hai thứ đó cùng nhau mà khách hàng cuối cùng quan tâm. Nếu phần mềm của bạn thực sự tệ, trình biên dịch AI của bạn kém và nó sử dụng phần cứng kém. Sau đó, bạn sẽ mất khách hàng vì bạn sẽ không đứng vững trước sự cạnh tranh, vốn có thể có phần cứng kém hơn nhưng lại có phần mềm tốt hơn.”

Điều này đã nhấn mạnh nhiều hơn vào thăm dò trước. Wakefield lưu ý: “Bạn có thể đến một trong những nhà cung cấp đám mây và thuê GPU NVIDIA hoặc chip A100 và chạy khối lượng công việc của mình trên đó. “Họ sẽ tính phí bạn rất cao mỗi phút để chạy nó. Họ thích mua những con chip này từ NVIDIA với giá 30,000 đô la hay 40,000 đô la? một mảnh? Chắc là không. Họ sẽ xây dựng của riêng mình? Có lẽ. Chúng tôi đã thấy điều đó với Amazon. Tại AWS, bạn có thể thuê không gian Graviton, đây là phiên bản lõi của Amazon. Đó là lõi của riêng họ, không phải Intel hay AMD, vì vậy bạn có thể sẽ thấy điều tương tự xảy ra trong trung tâm dữ liệu cho các khối lượng công việc khác nhau, nơi có thể có silicon tùy chỉnh tối ưu hơn một chút về hiệu suất/sức mạnh cho một thứ nhất định, hoặc đó là sự kết hợp giữa bộ xử lý thông thường và chip AI trong cùng một 3D-IC. Có lẽ điều đó có ý nghĩa hơn. Sau đó, đối với một số ứng dụng tùy chỉnh nhất định, bạn chắc chắn sẽ thấy một ASIC tùy chỉnh có sự kết hợp phù hợp giữa phần cứng mà bạn cần với cấu hình năng lượng và cấu hình hiệu suất phù hợp cho một số ứng dụng loại nhúng, chẳng hạn như ô tô tự lái, camera an ninh, thậm chí chuông cửa Ring của bạn chạy trong hai năm không cần pin.”

Một trong những sự đánh đổi lớn nhất trong không gian này là sự đánh đổi giữa băng thông bộ nhớ, dung lượng và chi phí.

Marc Greenberg, giám đốc nhóm tiếp thị sản phẩm cho DDR, HBM, flash/lưu trữ và MIPI IP tại Cadence, lưu ý: “Đó là sự 'chọn hai' cổ điển giữa băng thông, dung lượng và chi phí, và đôi khi nó là 'chọn một'. “Người dùng có dung lượng thấp có thể chọn DIMM DDR5 không có bộ đệm (UDIMM) một hạng cho các ứng dụng nhạy cảm với chi phí nhất. Để đạt được dung lượng cao hơn, UDIMM xếp hạng kép có thể được sử dụng để tăng gấp đôi dung lượng bộ nhớ – với chi phí tải cao hơn một chút trên bus DRAM có thể làm chậm bus DRAM, nhưng không có chi phí đáng kể nào khác ngoài bộ nhớ bổ sung được sử dụng. ”

Người dùng trung tâm dữ liệu thường chọn DIMM đã đăng ký, cho phép tăng gấp đôi dung lượng tối đa hơn nữa bằng cách hỗ trợ số lượng khuôn DRAM lớn hơn trên mỗi DIMM, nhưng phải trả thêm phí cho cả bộ nhớ bổ sung được thêm vào cũng như trình điều khiển đồng hồ đăng ký (RCD ) chip được đưa vào mỗi DIMM. Greenberg cho biết: “Để có thêm dung lượng, có thể thêm ổ cắm DIMM thứ hai trên kênh, điều này dẫn đến việc tải thêm và tính toàn vẹn tín hiệu bị suy giảm trên bus DRAM, điều này một lần nữa có thể ảnh hưởng đến băng thông/tốc độ”.

Ngoài ra, các DIMM dung lượng cao hơn có thể tăng gấp đôi hoặc gấp bốn lần dung lượng bằng các thiết bị DRAM xếp chồng 3D – điều này ít ảnh hưởng đến việc tải nhưng có thể làm tăng thêm chi phí đáng kể liên quan đến xếp chồng 3D. “Và để tăng thêm dung lượng, nhà sản xuất CPU có thể bổ sung song song các kênh DIMM bổ sung, giúp tăng gấp đôi băng thông và dung lượng nhưng cũng tăng gấp đôi diện tích silicon và các chân đóng gói được liên kết với DRAM trên CPU. Đây là một lĩnh vực mở cho sự đổi mới và có những bước phát triển thú vị để bổ sung cả dung lượng và băng thông cho bus DRAM đang được thảo luận,” ông nói thêm.

Xây dựng chip trong tương lai
Wakefield tin rằng chúng ta sẽ thấy điều này xảy ra nhiều hơn trong không gian AI. “Hiện tại vẫn còn một chút của giai đoạn Gold Rush, nơi mọi người cần lấy chip ra càng nhanh càng tốt. Nếu nó sử dụng thêm một số năng lượng ngày hôm nay, điều đó không thành vấn đề lắm. Mọi người đang trả một số tiền lớn cho một con chip AI. Sức mạnh mà họ tiêu thụ là một yếu tố, nhưng nó không phải là vấn đề lớn. Khi ngành công nghiệp phát triển hơn một chút, thì bạn sẽ thấy phần sức mạnh trở thành một yếu tố quan trọng hơn nhiều. Làm thế nào để bạn ngăn chặn những điều này tan chảy? Nếu bạn có thể làm cho nó lớn gấp đôi, bạn sẽ làm được, nhưng bây giờ nó sẽ là một kilowatt và một kilowatt làm tan chảy silicon.”

Điều đó thêm chi phí. Quản lý năng lượng và dấu chân nhiệt tổng thể là rất quan trọng. Làm đúng cũng tốn kém, làm sai còn tệ hơn.

“Chúng tôi phải lo lắng về sự thoát nhiệt và có khả năng xem xét khối lượng công việc ứng dụng thực tế và có thể giúp các nhà thiết kế đưa ra các quyết định về kiến trúc đó,” Gupta của Ansys cho biết thêm. “Giả sử bạn có một GPU AMD dành cho trung tâm dữ liệu và nó có hàng chục cảm biến nhiệt khác nhau. Bạn đang nhìn vào một trong những cảm biến nhiệt và quan sát nhiệt độ của nó. Chúng tôi biết rằng hiệu suất GPU bị giới hạn bởi sức mạnh, nhưng điều đó có nghĩa là gì? Điều đó có nghĩa là khi GPU đang chạy và có thể một đứa trẻ đang chạy ứng dụng chơi trò chơi trên GPU chẳng hạn, thì nhiệt độ của khuôn đó sẽ tăng lên. Ngay khi cảm biến nhiệt phát hiện ngưỡng đó — giả sử đó là 100°C — nó sẽ sử dụng logic để giảm tần suất của quá trình đó. Và bởi vì nó phải làm mát con chip đó để nó hoạt động và không gây ra sự cố thoát nhiệt, thời điểm tần số giảm xuống, người dùng sẽ có trải nghiệm kém tối ưu. Họ có thể chạy trò chơi, chỉ chậm hơn. Vì vậy, tất cả các công ty này đều rất tập trung vào việc tìm hiểu sớm các trường hợp sử dụng thực tế này và có thể thiết kế thang đo điện áp và tần số động để phục vụ cho các trường hợp này, đồng thời đặt các cảm biến nhiệt ở đúng vị trí. Nếu bạn có một tỷ phiên bản chip trung tâm dữ liệu, bạn không thể có một tỷ cảm biến nhiệt. Vậy bạn đặt những cảm biến nhiệt đó ở đâu? Và đâu là điểm phát nhiệt hoặc năng lượng trong thiết kế?”

Phân phối nội dung và PR được hỗ trợ bởi SEO. Được khuếch đại ngay hôm nay.
PlatoData.Network Vertical Generative Ai. Trao quyền cho chính mình. Truy cập Tại đây.
PlatoAiStream. Thông minh Web3. Kiến thức khuếch đại. Truy cập Tại đây.
Trung tâmESG. Ô tô / Xe điện, Than đá, công nghệ sạch, Năng lượng, Môi trường Hệ mặt trời, Quản lý chất thải. Truy cập Tại đây.
BlockOffsets. Hiện đại hóa quyền sở hữu bù đắp môi trường. Truy cập Tại đây.
nguồn: https://semiengineering.com/processor-tradeoffs-for-ai-workloads/

Trí thông minh dữ liệu tạo

Đánh đổi bộ xử lý cho khối lượng công việc AI

Tối đa hóa lợi nhuận vào năm 2024: Cái nhìn toàn diện về ValueZone.AI

Đưa tin trực tiếp: SpaceX phóng 23 vệ tinh Starlink trên chuyến bay Falcon 9 từ Cape Canaveral

Tin tức mới nhất

Ba chìa khóa để người dân trên đảo giành chiến thắng trong ván thứ năm

Lakers có được chiến thắng đáng mơ ước trước Denver, hiện đang dẫn trước 3-1 trong loạt trận

Falcon 9 phóng vệ tinh dẫn đường Galileo

NEVS Emily GT do cựu kỹ sư Saab thiết kế có thể được sản xuất tại Ý – Autoblog

Những người đam mê Dogecoin và Pepecoin tập hợp đằng sau Token AI mới được phát hành bởi nền tảng trao đổi Wahoo – CryptoInfoNet

Bài học từ phiên tòa FTX: Việc quản lý CEX có thể không đủ để ngăn chặn những kẻ xấu | Ý kiến – CryptoInfoNet