Logo Zephyrnet

Cách thiết kế bộ nhớ tối ưu hóa hiệu suất hệ thống

Ngày:

Sự gia tăng dữ liệu theo cấp số nhân và nhu cầu cải thiện hiệu suất để xử lý dữ liệu đó đã tạo ra nhiều cách tiếp cận mới để thiết kế và đóng gói bộ xử lý, nhưng nó cũng đang dẫn đến những thay đổi lớn về mặt bộ nhớ.

Mặc dù công nghệ cơ bản trông vẫn rất quen thuộc, nhưng sự thay đổi thực sự nằm ở cách những ký ức đó được kết nối với các phần tử xử lý và các thành phần khác nhau trong một hệ thống. Điều đó có thể có tác động lớn đến hiệu suất hệ thống, mức tiêu thụ điện năng và thậm chí là việc sử dụng tài nguyên tổng thể.

Nhiều loại ký ức khác nhau đã xuất hiện trong những năm qua, hầu hết đều có mục đích rõ ràng mặc dù có một số giao thoa và các trường hợp sử dụng độc đáo. Trong số đó có DRAM và SRAM, flash, và các bộ nhớ đặc biệt khác. DRAM và SRAM là những bộ nhớ dễ bay hơi, có nghĩa là chúng yêu cầu sức mạnh để duy trì dữ liệu. Bộ nhớ không bay hơi không yêu cầu nguồn điện để lưu giữ dữ liệu, nhưng số lượng thao tác đọc / ghi bị hạn chế và chúng bị hao mòn theo thời gian.

Tất cả những thứ này đều phù hợp với cái gọi là hệ thống phân cấp bộ nhớ, bắt đầu bằng SRAM - một bộ nhớ rất nhanh thường được sử dụng cho các mức bộ nhớ đệm khác nhau. SRAM cực kỳ nhanh, nhưng các ứng dụng của nó bị hạn chế do chi phí mỗi bit cao. Cũng ở mức thấp nhất và thường được nhúng vào SoC hoặc gắn vào PCB, đèn flash NOR thường được sử dụng để khởi động thiết bị. Nó được tối ưu hóa để truy cập ngẫu nhiên vì vậy nó không phải tuân theo bất kỳ trình tự cụ thể nào cho các vị trí lưu trữ.

Tiến lên một bước trong hệ thống phân cấp bộ nhớ, DRAM cho đến nay là lựa chọn phổ biến nhất, một phần vì dung lượng và khả năng phục hồi của nó, và một phần vì chi phí cho mỗi bit thấp. Điều đó một phần là do các nhà cung cấp DRAM hàng đầu đã khấu hao hết các thiết bị và thiết bị của họ, nhưng khi các loại DRAM mới xuất hiện trực tuyến, giá đã tăng lên, mở ra cánh cửa cho các đối thủ cạnh tranh mới.

Đã có những cuộc thảo luận về việc thay thế DRAM trong nhiều thập kỷ, nhưng DRAM đã chứng tỏ khả năng phục hồi từ quan điểm thị trường hơn nhiều so với dự đoán của bất kỳ ai. Trong cấu hình 3D của bộ nhớ băng thông cao (HBM), nó cũng đã được chứng minh là một lựa chọn cực kỳ nhanh chóng, tiêu thụ điện năng thấp.

JEDEC định nghĩa bốn loại DRAM chính:

  • Tốc độ dữ liệu gấp đôi (DDRx) cho bộ nhớ tiêu chuẩn;
  • DDR năng lượng thấp (LPDDRx), được sử dụng chính trong các thiết bị di động hoặc hoạt động bằng pin;
  • Graphics DDR (GDDRx), ban đầu được thiết kế cho các ứng dụng đồ họa tốc độ cao, nhưng cũng được sử dụng cho các ứng dụng khác, và
  • Bộ nhớ băng thông cao (HBMx), bộ nhớ chính cho các ứng dụng hiệu suất cao như AI hoặc bên trong trung tâm dữ liệu.

Trong khi đó, đèn flash NAND thường được sử dụng làm bộ nhớ di động (SSD / thẻ USB). Do chu kỳ xóa / ghi lâu hơn và tuổi thọ thấp hơn, đèn flash không phù hợp với CPU / GPU và các ứng dụng hệ thống.

Paul Morrison, kỹ sư sản phẩm giải pháp cho biết: “Tốc độ dữ liệu gấp đôi (DDR5) và năng lượng thấp của các thông số kỹ thuật LPDDR5 đang được tinh chỉnh bởi JEDEC, cơ quan tiêu chuẩn bộ nhớ. Điện thoại Siemens. “DDR6 và LPDDR6 cũng đang được phát triển. Các bộ nhớ DRAM phổ biến khác bao gồm bộ nhớ băng thông cao (HBM2 và HBM3) và DDR đồ họa (GDDR6, với bản phát hành GDDR7 sắp ra mắt). ”

Nhưng sự phát triển của các thiết bị nhỏ, hoạt động bằng pin và nhu cầu khởi động thiết bị nhanh chóng cũng đã thúc đẩy nhu cầu về bộ nhớ flash. Bộ nhớ flash NOR thường nhỏ hơn, theo thứ tự 1 Gbit. Ngược lại, đèn flash NAND được sử dụng trong ổ SSD. Mật độ bây giờ thay đổi từ một bit trên mỗi ô đến bốn bit trên mỗi ô, với các phiên bản năm và sáu bit trên mỗi ô được mong đợi. Ngoài ra, việc di chuyển từ mảng 2D sang 3D càng làm tăng mật độ.

Steven Woo, đồng nghiệp và nhà phát minh nổi tiếng tại Rambus. “Chạy bộ nhớ ở tốc độ dữ liệu cao nhất sẽ cải thiện hiệu suất hệ thống nhưng suy nghĩ về cách cấu trúc dữ liệu ánh xạ vào bộ nhớ cũng có thể cải thiện băng thông, hiệu suất năng lượng và sử dụng dung lượng. Việc tăng dung lượng bộ nhớ cũng có thể dẫn đến hiệu suất tốt hơn và sự ra đời của CXL sẽ cung cấp một cách để AI và các bộ xử lý khác bổ sung thêm dung lượng bộ nhớ ngoài những gì mà công nghệ bộ nhớ kết nối trực tiếp hiện có thể cung cấp ”.

Vấn đề gần gũi
Khoảng cách giữa bộ nhớ và bộ xử lý từng là một vấn đề về quy hoạch tầng, nhưng khi lượng dữ liệu cần được xử lý tăng lên và khi các tính năng thu hẹp lại, lượng năng lượng cần thiết để di chuyển nhiều dữ liệu hơn qua lại giữa bộ nhớ và các phần tử xử lý sẽ tăng lên . Các dây mỏng hơn đòi hỏi nhiều năng lượng hơn để di chuyển các electron và cần nhiều năng lượng hơn để di chuyển chúng khoảng cách xa hơn và làm tăng độ trễ.

Điều này đã tạo ra mối quan tâm mới đến tính toán bộ nhớ gần và trong bộ nhớ, nơi ít nhất một số dữ liệu có thể được phân vùng và ưu tiên, xử lý và giảm đáng kể. Điều đó làm giảm tổng lượng năng lượng được sử dụng và nó có thể có tác động đáng kể đến hiệu suất.

Điện toán trong bộ nhớ (hay còn gọi là xử lý trong bộ nhớ hoặc tính toán trong bộ nhớ) đề cập đến việc xử lý hoặc tính toán bên trong bộ nhớ (chẳng hạn như RAM). Cách đây một thời gian, trước khi điều này được thực hiện ở cấp độ chip, nó đã được chứng minh rằng bằng cách phân phối dữ liệu trên nhiều bộ lưu trữ RAM và kết hợp xử lý song song đó, kết quả hiệu suất trong các trường hợp như ngân hàng đầu tư nhanh hơn 100 lần. Vì vậy, trong khi tính toán trong bộ nhớ / gần bộ nhớ đã xuất hiện từ lâu và đã nhận được một sự thúc đẩy khác từ các thiết kế AI, chỉ gần đây các nhà sản xuất chip mới bắt đầu chứng minh một số thành công với cách tiếp cận này.

Vào năm 2021, bộ phận kinh doanh bộ nhớ của Samsung đã giới thiệu công nghệ xử lý trong bộ nhớ (PIM) với các lõi AI tích hợp bên trong bộ nhớ HBM. Trong một bài kiểm tra nhận dạng giọng nói bằng Xilinx Virtex Ultrascale và bộ gia tốc AI (Alveo), công nghệ PIM có thể tăng hiệu suất gấp 2.5 lần và giảm 62% năng lượng. Các nhà sản xuất chip nhớ khác như SK Hynix và Micron Technology cũng đang xem xét cách tiếp cận này.

Trong lĩnh vực tính toán trong bộ nhớ, một thông báo đột phá gần đây đến từ nhóm nghiên cứu quốc tế do Weier Wan, một tiến sĩ gần đây đứng đầu. tốt nghiệp trong phòng thí nghiệm của Philip Wong tại Đại học Stanford, người đã thực hiện ý tưởng này khi ở UC San Diego. Tiến sĩ khác sinh viên tốt nghiệp tại UC San Diego, những người có đóng góp lớn cho nghiên cứu này hiện đang điều hành phòng thí nghiệm của riêng họ tại Đại học Notre Dame và Đại học Pittsburgh.

Bằng cách kết hợp chặt chẽ giữa tính toán thần kinh cấu trúc với bộ nhớ truy cập ngẫu nhiên điện trở, chip NeuRRAM thực hiện tính toán cạnh AI với độ chính xác cao - độ chính xác 99% đối với tác vụ nhận dạng chữ số viết tay MNIST và 85.7% đối với tác vụ phân loại hình ảnh CIFAR-10. So với các chip AI tiên tiến nhất hiện nay, chip NeuRRAM có thể cung cấp sản phẩm có độ trễ năng lượng thấp hơn từ 1.6 đến 2.3 lần (EDP; càng ít càng tốt) và mật độ tính toán cao hơn từ 7 đến 13 lần. Điều này mang lại cơ hội để giảm sức mạnh của các chip chạy nhiều tác vụ AI mà không ảnh hưởng đến độ chính xác và hiệu suất trong những năm tới.

Ben Whitehead, giám đốc sản phẩm kỹ thuật của Siemens EDA cho biết: “Một trong những yếu tố quan trọng trong việc cải thiện hiệu suất bộ nhớ là giảm thiểu sự di chuyển dữ liệu. “Làm như vậy, nó cũng giảm tiêu thụ điện năng. Sử dụng SSD làm ví dụ, việc tra cứu dữ liệu có thể tăng tốc độ truyền lên 400 đến 4,000 lần. Một cách khác để làm điều này là di chuyển tính toán gần bộ nhớ. Khái niệm máy tính trong bộ nhớ không phải là mới. Thêm trí thông minh vào bên trong bộ nhớ sẽ làm giảm sự di chuyển của dữ liệu. Khái niệm này tương tự như điện toán biên bằng cách thực hiện các phép tính cục bộ thay vì gửi dữ liệu qua lại đám mây. Tính toán trong bộ nhớ trong DRAM vẫn đang ở giai đoạn đầu, nhưng đây sẽ tiếp tục là xu hướng phát triển bộ nhớ trong tương lai ”.

Cập nhật tiêu chuẩn bộ nhớ
Có ba nhóm tiêu chuẩn chính / nỗ lực đang được tiến hành có thể có tác động đáng kể đến tất cả những điều này:

  1. JEDEC: Sản phẩm cơ quan tiếp tục hơn 50 năm vai trò là cơ quan hàng đầu của các tiêu chuẩn bộ nhớ cho ngành công nghiệp vi điện tử. Nó đã phát triển và xuất bản nhiều tiêu chuẩn tập trung vào bộ nhớ chính (DDR4 & DDR5 SDRAM), bộ nhớ flash (UFS, e.MMC, SSD, XFMD), bộ nhớ di động (LPDDR, Wide I / O), v.v. Nó sẽ tiếp tục là cơ quan hàng đầu của các tiêu chuẩn bộ nhớ. JEDEC gần đây đã công bố hai tiêu chuẩn mới. Vào tháng 2022 năm 5, nó đã phát hành Đặc tả DDR8 SDRAM, xác định bộ yêu cầu tối thiểu cho 32 Gb đến 4 Gb cho các thiết bị DDR8 SDRAM x16, x5 và x4. Công việc được thực hiện dựa trên các tiêu chuẩn DDR2 và một phần của các tiêu chuẩn DDR, DDR3, DDR4 và LPDDR2021. Ngoài ra, vào tháng 5 năm 5, JEDEC đã bổ sung LPDDR16 và LPDDR8X, xác định các yêu cầu tối thiểu cho thiết bị SDRAM một kênh x2 và thiết bị SDRAM một kênh x32 với dải mật độ từ 2 Gb đến 3 Gb. Công việc được thực hiện dựa trên các thông số kỹ thuật trước đó, bao gồm DDR4, DDR2, DDR3, LPDDR, LPDDR4, LPDDRXNUMX và LPDDRXNUMX.
  2. CXL: Sản phẩm Tập đoàn CXL là một nhóm tiêu chuẩn công nghiệp mở hỗ trợ Liên kết tính toán nhanh (CXL), một kết nối liên kết nhất quán với bộ nhớ cache được ngành hỗ trợ cho bộ xử lý, mở rộng bộ nhớ và bộ tăng tốc. Công nghệ xác định các kết nối giữa không gian bộ nhớ CPU và bộ nhớ trên các thiết bị gắn liền để chia sẻ tài nguyên, có thể tăng hiệu suất trong khi giảm thiểu chi phí phần mềm và hệ thống. Nó cũng giúp xác định các bộ gia tốc được sử dụng trong AI / ML. Tập đoàn gần đây đã phát hành Đặc điểm kỹ thuật CXL 2.0, bổ sung tính năng chuyển đổi để cho phép thiết bị quạt ra, mở rộng bộ nhớ, mở rộng, gộp bộ nhớ, tính toàn vẹn ở cấp độ liên kết và mã hóa dữ liệu (CXL IDE) để bảo vệ dữ liệu.
  3. UCie: Về phía chiplet là bản phát hành gần đây Universal Chiplet Interconnect Express (UCIe) tiêu chuẩn. Các nhà sản xuất Chipmakers sẽ tiếp tục sử dụng UCIe để kết nối các chiplet, bao gồm cả ký ức. Trọng tâm hiện tại bao gồm lớp vật lý (I / O die-to-die với các KPI hàng đầu trong ngành) và giao thức (CXL / PCIe) để đảm bảo khả năng tương tác.

Debendra Das Sharma, thành viên cấp cao tại Intel và là chủ tịch của Nhóm đặc nhiệm kỹ thuật của CXL Consortium Board, cho biết: “CXL giúp các bộ tăng tốc luôn gắn kết chặt chẽ với phần còn lại của hệ thống, vì vậy việc truyền dữ liệu, tin nhắn và thực hiện các bán kỳ hiệu quả hơn. “Ngoài ra, CXL giải quyết nhu cầu về dung lượng bộ nhớ và băng thông cho các ứng dụng này. CXL sẽ thúc đẩy những đổi mới đáng kể trong công nghệ bộ nhớ và máy gia tốc trong tương lai. "

Ý tưởng về tối ưu hóa hiệu suất
Một số phương pháp tiếp cận trí nhớ này đã tồn tại trong nhiều thập kỷ, nhưng không có gì đứng yên. Bộ nhớ vẫn được coi là yếu tố quan trọng trong mô hình sức mạnh, hiệu suất và diện tích / chi phí, và sự cân bằng có thể có tác động lớn đến tất cả các yếu tố đó.

Gordon Allan, giám đốc sản phẩm tại Siemens EDA cho biết: “Công nghệ bộ nhớ phát triển liên tục. “Ví dụ, HBM là sự lựa chọn hoàn hảo cho các ứng dụng AI ngay bây giờ, nhưng nó có thể khác vào ngày mai. Cơ quan tiêu chuẩn bộ nhớ chính, JEDEC, xác định DDR4 và 5, DIMM 4 và 5, LRDIM và các bộ nhớ khác ngày nay. Nhưng đối với việc mở rộng bộ nhớ trong tương lai, tiêu chuẩn CXL, được sử dụng để xác định các giao diện trong PCIe và UCIe, đang được chấp nhận và tạo động lực. ”

Mọi bộ xử lý đều yêu cầu bộ nhớ để lưu trữ dữ liệu. Do đó, điều quan trọng là phải hiểu đặc tính của bộ nhớ và hành vi của nó sẽ tác động như thế nào đến hiệu suất tổng thể của hệ thống. Một số cân nhắc chính trong việc thiết kế và lựa chọn các kỷ niệm bao gồm:

  • Tối đa hóa hiệu suất trong một đơn vị năng lượng nhất định;
  • Lập ngân sách điện và quản lý nhiệt;
  • Phù hợp bộ nhớ với nhu cầu xử lý, chẳng hạn như hệ thống AI, đòi hỏi hiệu suất bộ nhớ cao hơn và
  • Tái sử dụng thiết kế, mật độ và bao bì (2D, 2.5D, 3D-IC)

Tùy thuộc vào ứng dụng, điều quan trọng là phải xem xét cách dữ liệu được truyền trong hệ thống và giữa các hệ thống.

“Để tối ưu hóa hiệu suất, bạn cần phải xem xét cấp độ hệ thống,” Marc Greenberg, giám đốc tiếp thị sản phẩm của nhóm cho DDR, HBM, flash / lưu trữ và MIPI IP tại Nhịp. “Để hệ thống của bạn đạt được thông lượng cao, nó có thể yêu cầu hơn 80 bộ nhớ được kết nối với bộ xử lý. Có nhiều cách khác nhau để nâng cao hiệu quả. Một trong số đó là tối ưu hóa thứ tự truy cập lưu lượng và tối đa hóa số lượng tác vụ được thực hiện với chu kỳ xe buýt tối thiểu ở một tần số đồng hồ nhất định. Một phép tương tự đơn giản là quy trình thanh toán trong một cửa hàng tạp hóa. Ví dụ, một khách hàng có năm lon dứa, một quả dưa hấu và một thứ khác. Để đạt được hiệu quả thanh toán, bạn sẽ giới thiệu tất cả năm lon thành một nhóm thay vì trình bày một lon rồi đến dưa hấu, tiếp theo là một lon khác. Khái niệm tương tự cũng áp dụng cho bộ nhớ. Ngoài ra, việc có một bộ điều khiển bộ nhớ thông minh (PHY và bộ điều khiển IP) tại một điểm duy nhất để quản lý giao thức lưu lượng của nhiều bộ nhớ sẽ đạt được sự tối ưu hóa tốt hơn nhiều trong thiết kế bộ nhớ. ”

Việc triển khai AI trên nhiều thiết bị đã làm cho những loại cân nhắc này trở nên cần thiết hơn.

“Trong quá trình đào tạo AI, những ký ức cung cấp băng thông, dung lượng và hiệu suất năng lượng cao nhất là rất quan trọng,” Rambus 'Woo nói. “Bộ nhớ HBM2E rất phù hợp cho nhiều ứng dụng đào tạo, đặc biệt là với các mô hình lớn và bộ đào tạo lớn. Các hệ thống sử dụng HBM2E có thể phức tạp hơn để triển khai, nhưng nếu độ phức tạp này có thể chịu đựng được thì đó là một lựa chọn tuyệt vời. Mặt khác, đối với nhiều ứng dụng hội nghị, băng thông cao, độ trễ thấp và hiệu suất năng lượng tốt là cần thiết ở một mức giá hiệu suất tốt. Đối với các ứng dụng này, bộ nhớ GDDR6 có thể phù hợp hơn. Đối với các ứng dụng điểm cuối như IoT, bộ nhớ trên chip cũng có thể được kết hợp với LPDDR có thể có ý nghĩa ”.

Hình 1: Bộ điều khiển bộ nhớ HBM và PHY IP tối ưu hóa các chức năng quản lý bộ nhớ. Nguồn: Rambus

Hình 1: Bộ điều khiển bộ nhớ HBM và PHY IP tối ưu hóa các chức năng quản lý bộ nhớ. Nguồn: Rambus

Theo Micron, hệ thống bộ nhớ phức tạp hơn vẻ bề ngoài của chúng. Trong một băng thông bộ nhớ nhất định, hiệu suất hệ thống có thể bị ảnh hưởng bởi các yếu tố như kiểu truy cập, địa phương và thời gian để giải quyết. Ví dụ, một mô hình xử lý ngôn ngữ tự nhiên sẽ yêu cầu băng thông bộ nhớ 50 TB / s để hỗ trợ độ trễ 7mS cho thời gian giải quyết. Nếu độ trễ dài hơn có thể được chấp nhận, thì băng thông bộ nhớ có thể được kiểm duyệt cho phù hợp.

Micron lưu ý rằng các kiến ​​trúc được cải thiện với sự hiểu biết đầy đủ về ngăn xếp giải pháp - phần mềm đến kiến ​​trúc hệ thống bộ nhớ. Do đó, điểm khởi đầu là tối ưu hóa các mẫu truy cập, vị trí dữ liệu và giảm thiểu độ trễ (tức là tìm nạp trước dữ liệu) trong các thuật toán đồng thời tận dụng các điểm mạnh vốn có của kiến ​​trúc bộ nhớ và giải quyết các hạn chế của nó.

JEDEC đã tiếp tục cải tiến bộ nhớ, giải quyết những thách thức như mật độ cao hơn, độ trễ thấp, công suất thấp, băng thông cao hơn, v.v. Bằng cách tuân theo các thông số kỹ thuật, các nhà sản xuất bộ nhớ và thiết kế hệ thống sẽ có thể tận dụng các cải tiến mới. Trong những năm gần đây, các công cụ tiên tiến từ các công ty như Synopsys và Siemens EDA đã trở nên sẵn có để thực hiện các chức năng cần thiết như kiểm tra, mô phỏng và xác minh.

Anand Thiruvengadam, giám đốc tiếp thị sản phẩm tại Tóm tắt nội dung ' Nhóm Thiết kế & Sản xuất Tùy chỉnh. “Các thông số kỹ thuật bộ nhớ mới hơn sẽ tiếp tục đạt được mật độ cao hơn, công suất thấp hơn và hiệu suất cao hơn. Ví dụ, yêu cầu điện năng cho DDR4 là 1.2V trong khi DDR 5 là 1.1V. Trong quá trình mở rộng điện áp này, các yếu tố như tính toàn vẹn của tín hiệu và cách mở mẫu mắt phải được xem xét. Quản lý nhiệt cũng đã được cải thiện. DDR5 có hai đến ba cảm biến nhiệt độ trên mỗi chân, một cải tiến so với DDR4, vốn chỉ có một. Do đó, sẽ có lợi nếu tuân theo đặc điểm kỹ thuật. ”

Nhưng tuân theo các đặc điểm kỹ thuật là một điều. Đáp ứng các thông số kỹ thuật là một việc khác. Thiruvengadam nói: “Điều quan trọng là phải kiểm tra sản phẩm theo thông số kỹ thuật, đảm bảo rằng nó vượt qua tất cả các tình huống xấu nhất. “Việc phân tích và mô phỏng phức tạp có thể mất hàng tuần. May mắn thay, giải pháp phần mềm mô phỏng mới hơn có thể cắt giảm điều này xuống còn nhiều ngày ”.

Kết luận
JEDEC sẽ tiếp tục xác định và cập nhật các thông số kỹ thuật bộ nhớ bao gồm DRAM, SRAM, FLASH, v.v. Với việc bổ sung các tiêu chuẩn CXL và UCIe, cộng đồng phát triển bộ nhớ sẽ được hưởng lợi từ khả năng tương tác giữa các chiplet và hệ thống trong tương lai. Mặc dù UCIe tương đối mới, nhưng nó được kỳ vọng sẽ mở ra một thế giới chiplet mới trong hệ sinh thái.

Ngoài ra, AI / ML dự kiến ​​sẽ tiếp tục thúc đẩy nhu cầu về thiết kế bộ nhớ hiệu suất cao, thông lượng cao. Cuộc đấu tranh liên tục sẽ được cân bằng giữa yêu cầu năng lượng thấp và hiệu suất. Nhưng những đột phá liên quan đến điện toán trong bộ nhớ sẽ mở ra thế giới với tốc độ phát triển nhanh hơn nhiều. Và quan trọng hơn, những phát triển bộ nhớ tiên tiến này sẽ giúp thúc đẩy các ứng dụng điểm cuối và cạnh dựa trên AI (IoT) trong tương lai.

tại chỗ_img

Tin tức mới nhất

tại chỗ_img