Logo Zephyrnet

Suy nghĩ lại về trí nhớ

Ngày:

Các chuyên gia tại bàn: Kỹ thuật bán dẫn đã ngồi lại để nói về con đường phía trước cho bộ nhớ trong các hệ thống ngày càng không đồng nhất, với Frank Ferro, giám đốc nhóm, quản lý sản phẩm tại Nhịp; Steven Woo, nhà phát minh đồng nghiệp và nổi tiếng tại Rambus; Jongsin Yun, nhà công nghệ trí nhớ tại Điện thoại Siemens; Randy White, người quản lý chương trình giải pháp bộ nhớ tại Chìa khóa; và Frank Schirrmeister, phó chủ tịch giải pháp và phát triển kinh doanh tại động mạch. Sau đây là những đoạn trích của cuộc trò chuyện đó.

[LR]: Frank Ferro, Cadence; Steven Woo, Rambus; Jongsin Yun, Siemens EDA; Randy White, Keysight; và Frank Schirrmeister, Arteris.

[LR]: Frank Ferro, Cadence; Steven Woo, Rambus; Jongsin Yun, Siemens EDA; Randy White, Keysight; và Frank Schirrmeister, Arteris

SE: Khi chúng tôi gặp khó khăn với AI/ML và nhu cầu về điện năng, những cấu hình nào cần được xem xét lại? Liệu chúng ta có thấy sự thay đổi khỏi kiến ​​trúc Von Neumann không?

Ô: Về mặt kiến ​​trúc hệ thống, có sự phân chia đang diễn ra trong ngành. Các ứng dụng truyền thống vốn là công việc chủ yếu mà chúng tôi chạy trên đám mây trên các máy chủ dựa trên x86 sẽ không biến mất. Có nhiều thập kỷ phần mềm đã được xây dựng và phát triển và sẽ dựa vào kiến ​​trúc đó để hoạt động tốt. Ngược lại, AI/ML là một lớp mới. Mọi người đã xem xét lại kiến ​​trúc và xây dựng các bộ xử lý dành riêng cho từng miền. Chúng tôi thấy rằng khoảng 5/6 năng lượng được sử dụng chỉ để di chuyển dữ liệu giữa bộ xử lý và thiết bị HBM, trong khi chỉ khoảng XNUMX/XNUMX năng lượng được sử dụng để thực sự truy cập các bit trong lõi DRAM. Việc di chuyển dữ liệu hiện nay khó khăn và tốn kém hơn nhiều. Chúng tôi sẽ không loại bỏ ký ức. Chúng tôi cần nó vì các tập dữ liệu ngày càng lớn hơn. Vì vậy, câu hỏi đặt ra là 'Con đường đúng đắn để tiến về phía trước là gì?' Đã có rất nhiều cuộc thảo luận về việc xếp chồng. Nếu chúng ta lấy bộ nhớ đó và đặt nó trực tiếp lên trên bộ xử lý, thì nó sẽ thực hiện hai việc cho bạn. Đầu tiên, băng thông ngày nay bị giới hạn bởi bờ hoặc chu vi của chip. Đó là nơi I/O đi tới. Nhưng nếu bạn xếp nó trực tiếp lên trên bộ xử lý thì bây giờ bạn có thể tận dụng toàn bộ diện tích của chip cho các kết nối phân tán và bạn có thể nhận được nhiều băng thông hơn trong chính bộ nhớ và nó có thể cấp trực tiếp vào bộ xử lý. Các liên kết sẽ ngắn hơn rất nhiều và hiệu suất sử dụng năng lượng có thể tăng lên ở mức từ XNUMXX đến XNUMXX. Thứ hai, lượng băng thông bạn có thể nhận được do mảng diện tích lớn hơn kết nối với bộ nhớ cũng tăng lên theo một hệ số nguyên. Thực hiện hai việc đó cùng nhau có thể cung cấp nhiều băng thông hơn và giúp nó tiết kiệm điện hơn. Ngành công nghiệp này phát triển theo bất kỳ nhu cầu nào và đó chắc chắn là một cách mà chúng ta sẽ thấy các hệ thống bộ nhớ bắt đầu phát triển trong tương lai để trở nên tiết kiệm điện hơn và cung cấp nhiều băng thông hơn.

Sắt: Khi tôi bắt đầu làm việc trên HBM lần đầu tiên vào khoảng năm 2016, một số khách hàng cao cấp hơn đã hỏi liệu nó có thể xếp chồng lên nhau được không. Họ đã xem xét cách xếp DRAM lên trên từ khá lâu vì có những lợi thế rõ ràng. Từ lớp vật lý, PHY về cơ bản trở nên không đáng kể, giúp tiết kiệm rất nhiều năng lượng và hiệu quả. Nhưng bây giờ bạn đã có bộ xử lý công suất 100W có bộ nhớ bên trên. Ký ức không thể chịu được nhiệt. Đây có lẽ là mắt xích yếu nhất trong chuỗi nhiệt, tạo ra một thách thức khác. Có những lợi ích, nhưng họ vẫn phải tìm ra cách đối phó với nhiệt độ. Hiện tại, có nhiều động lực hơn để phát triển loại kiến ​​trúc đó vì nó thực sự giúp bạn tiết kiệm tổng thể về hiệu suất và sức mạnh, đồng thời nó sẽ cải thiện hiệu quả tính toán của bạn. Nhưng có một số thách thức về thiết kế vật lý cần phải giải quyết. Như Steve đã nói, chúng tôi thấy đủ loại kiến ​​trúc đang xuất hiện. Tôi hoàn toàn đồng ý rằng kiến ​​trúc GPU/CPU sẽ không đi đến đâu cả, chúng vẫn sẽ chiếm ưu thế. Đồng thời, mọi công ty trên hành tinh đều đang cố gắng tìm ra một chiếc bẫy chuột tốt hơn để thực hiện AI của mình. Chúng tôi thấy SRAM trên chip và sự kết hợp của bộ nhớ băng thông cao. LPDDR ngày nay đã được nâng cao khá nhiều về cách tận dụng LPDDR trong trung tâm dữ liệu vì sức mạnh. Chúng tôi thậm chí còn thấy GDDR được sử dụng trong một số ứng dụng suy luận AI cũng như tất cả các hệ thống bộ nhớ cũ. Hiện họ đang cố gắng nén càng nhiều DDR5 trên một diện tích càng tốt. Tôi đã thấy mọi kiến ​​trúc mà bạn có thể nghĩ tới, cho dù đó là DDR, HBM, GDDR hay những kiến ​​trúc khác. Nó phụ thuộc vào lõi bộ xử lý của bạn về giá trị gia tăng tổng thể của bạn và sau đó là cách bạn có thể vượt qua kiến ​​trúc cụ thể của mình. Hệ thống bộ nhớ đi kèm với nó, vì vậy bạn có thể điêu khắc CPU và kiến ​​trúc bộ nhớ của mình, tùy thuộc vào những gì có sẵn.

Và một: Một vấn đề khác là tính không biến động. Ví dụ: nếu AI phải giải quyết khoảng thời gian sử dụng năng lượng giữa việc chạy AI dựa trên IoT, thì chúng ta cần tắt và bật rất nhiều nguồn và tất cả thông tin này cho quá trình đào tạo AI phải luân phiên lặp đi lặp lại. Nếu chúng ta có một số loại giải pháp có thể lưu trữ những trọng lượng đó vào chip để chúng ta không phải luôn di chuyển qua lại với cùng một trọng lượng thì sẽ tiết kiệm được rất nhiều điện năng, đặc biệt là đối với AI dựa trên IoT. Sẽ có một giải pháp khác để giúp đỡ những nhu cầu năng lượng đó.

Schirrmeister: Điều tôi thấy thú vị, từ góc độ NoC, là nơi bạn phải tối ưu hóa các đường dẫn này từ bộ xử lý đi qua NoC, truy cập vào giao diện bộ nhớ với bộ điều khiển có khả năng đi qua UCIe để chuyển một chiplet sang một chiplet khác, sau đó có bộ nhớ trong đó. Nó. Không phải kiến ​​trúc Von Neumann đã chết. Nhưng hiện nay có rất nhiều biến thể, tùy thuộc vào khối lượng công việc bạn muốn tính toán. Chúng cần được xem xét trong bối cảnh của trí nhớ và trí nhớ chỉ là một khía cạnh. Bạn lấy dữ liệu từ vị trí dữ liệu ở đâu, nó được sắp xếp như thế nào trong DRAM này? Chúng tôi đang giải quyết tất cả những việc này, chẳng hạn như phân tích hiệu suất của bộ nhớ và sau đó tối ưu hóa kiến ​​trúc hệ thống trên đó. Nó đang thúc đẩy rất nhiều sự đổi mới cho các kiến ​​trúc mới, điều mà tôi chưa bao giờ nghĩ tới khi còn học đại học về Von Neumann. Ở đầu bên kia, bạn có những thứ như mắt lưới. Hiện tại có rất nhiều kiến ​​trúc cần được xem xét và nó được điều khiển bởi băng thông bộ nhớ, khả năng tính toán, v.v., không tăng trưởng với cùng tốc độ.

Trắng: Có một xu hướng liên quan đến điện toán phân tán hoặc điện toán phân tán, có nghĩa là kiến ​​trúc sư cần có nhiều công cụ hơn để sử dụng. Hệ thống phân cấp bộ nhớ đã mở rộng. Có các ngữ nghĩa được bao gồm, cũng như CXL và các bộ nhớ kết hợp khác nhau, có sẵn cho flash và DRAM. Một ứng dụng song song với trung tâm dữ liệu là ô tô. Ô tô luôn có cảm biến này tính toán với ECU (bộ điều khiển điện tử). Tôi bị mê hoặc bởi cách nó phát triển thành trung tâm dữ liệu. Nhanh chóng, hôm nay chúng tôi đã phân phối các nút điện toán, được gọi là bộ điều khiển miền. Nó là điều tương tự. Nó đang cố gắng giải quyết rằng có lẽ năng lượng không phải là vấn đề lớn vì quy mô của máy tính không lớn bằng nhưng độ trễ chắc chắn là một vấn đề lớn đối với ô tô. ADAS cần băng thông cực cao và bạn có những sự cân bằng khác nhau. Và sau đó bạn có nhiều cảm biến cơ học hơn nhưng có những hạn chế tương tự trong trung tâm dữ liệu. Bạn có kho lưu trữ lạnh không cần độ trễ thấp và sau đó bạn có các ứng dụng băng thông cao khác. Thật thú vị khi thấy các công cụ và lựa chọn dành cho kiến ​​trúc sư đã phát triển đến mức nào. Ngành này đã thực hiện rất tốt công việc đáp ứng và tất cả chúng tôi đều cung cấp nhiều giải pháp khác nhau để tiếp cận thị trường.

SE: Các công cụ thiết kế bộ nhớ đã phát triển như thế nào?

Schirrmeister: Khi tôi bắt đầu với vài con chip đầu tiên vào những năm 90, công cụ hệ thống được sử dụng nhiều nhất là Excel. Kể từ đó, tôi luôn hy vọng nó có thể bị hỏng ở một thời điểm nào đó đối với những việc chúng tôi thực hiện ở cấp hệ thống, bộ nhớ, phân tích băng thông, v.v. Điều này ảnh hưởng khá nhiều đến đội của tôi. Vào thời điểm đó, nó là thứ rất tiên tiến. Nhưng theo quan điểm của Randy, giờ đây một số thứ phức tạp nhất định cần được mô phỏng ở mức độ chính xác mà trước đây không thể thực hiện được nếu không có tính toán. Để đưa ra một ví dụ, giả sử một độ trễ nhất định để truy cập DRAM có thể dẫn đến các quyết định kiến ​​trúc sai và có khả năng thiết kế kiến ​​trúc truyền tải dữ liệu trên chip không chính xác. Mặt trái của nó cũng đúng. Nếu bạn luôn giả định trường hợp xấu nhất thì bạn sẽ thiết kế kiến ​​trúc quá mức. Việc có các công cụ thực hiện phân tích hiệu suất và DRAM, đồng thời có sẵn các mô hình phù hợp cho bộ điều khiển cho phép kiến ​​trúc sư mô phỏng tất cả những điều đó, đó quả là một môi trường hấp dẫn. Hy vọng của tôi từ những năm 90 rằng Excel có thể sẽ bị phá vỡ vào một thời điểm nào đó Công cụ cấp hệ thống thực sự có thể trở thành hiện thực vì một số ảnh hưởng động nhất định mà bạn không thể thực hiện trong Excel nữa vì bạn cần mô phỏng chúng — đặc biệt là khi bạn đưa vào một giao diện cố định với các đặc điểm PHY, sau đó liên kết lớp các đặc điểm như kiểm tra xem mọi thứ có chính xác hay không và có khả năng gửi lại dữ liệu. Việc không thực hiện những mô phỏng đó sẽ dẫn đến kiến ​​trúc chưa tối ưu.

Sắt: Bước đầu tiên trong hầu hết các đánh giá mà chúng tôi thực hiện là cung cấp cho họ bảng kiểm tra bộ nhớ để bắt đầu xem xét hiệu quả của DRAM. Đó là một bước tiến lớn, thậm chí thực hiện những việc đơn giản như chạy các công cụ cục bộ để thực hiện mô phỏng DRAM, nhưng sau đó chuyển sang mô phỏng toàn diện. Chúng tôi thấy ngày càng có nhiều khách hàng yêu cầu loại mô phỏng đó. Đảm bảo hiệu suất DRAM của bạn đạt mức cao nhất là 90 là bước đầu tiên rất quan trọng trong mọi đánh giá.

Ô: Một phần lý do tại sao bạn thấy sự gia tăng của các công cụ mô phỏng hệ thống đầy đủ là DRAM đã trở nên phức tạp hơn nhiều. Hiện tại, rất khó để có thể đáp ứng được một số khối lượng công việc phức tạp này bằng cách sử dụng các công cụ đơn giản như Excel. Nếu bạn nhìn vào bảng dữ liệu cho DRAM vào những năm 90, những bảng dữ liệu đó dài khoảng 40 trang. Bây giờ chúng có hàng trăm trang. Điều đó chỉ nói lên sự phức tạp của thiết bị để có được băng thông cao. Bạn kết hợp điều đó với thực tế là bộ nhớ là nguyên nhân dẫn đến chi phí hệ thống cũng như băng thông và độ trễ liên quan đến hiệu suất của bộ xử lý. Nó cũng là một yếu tố thúc đẩy sức mạnh lớn, do đó bạn cần phải mô phỏng ở mức độ chi tiết hơn nhiều. Về mặt luồng công cụ, các kiến ​​trúc sư hệ thống hiểu rằng bộ nhớ là một động lực rất lớn. Vì vậy, các công cụ cần phải phức tạp hơn và chúng cần giao tiếp thật tốt với các công cụ khác để kiến ​​trúc sư hệ thống có được cái nhìn tổng thể tốt nhất về những gì đang diễn ra — đặc biệt là về cách bộ nhớ tác động đến hệ thống.

Và một: Khi chúng ta chuyển sang kỷ nguyên AI, rất nhiều hệ thống đa lõi được sử dụng, nhưng chúng ta không biết dữ liệu nào sẽ đi đâu. Nó cũng sẽ song song hơn với chip. Kích thước của bộ nhớ lớn hơn rất nhiều. Nếu chúng ta sử dụng loại AI ChatGPT, thì việc xử lý dữ liệu cho các mô hình cần khoảng 350 MB dữ liệu, đây là một lượng dữ liệu khổng lồ chỉ tính theo trọng lượng và đầu vào/đầu ra thực tế sẽ lớn hơn nhiều. Sự gia tăng lượng dữ liệu cần thiết có nghĩa là có rất nhiều hiệu ứng xác suất mà chúng tôi chưa từng thấy trước đây. Đây là một bài kiểm tra cực kỳ khó khăn để xem tất cả các lỗi liên quan đến lượng bộ nhớ lớn này. Và ECC được sử dụng ở mọi nơi, ngay cả trong SRAM, vốn không sử dụng ECC theo truyền thống, nhưng giờ đây nó rất phổ biến đối với các hệ thống lớn nhất. Việc kiểm tra tất cả những điều đó là rất khó khăn và cần được hỗ trợ bởi các giải pháp EDA để kiểm tra tất cả các điều kiện khác nhau đó.

SE: Nhóm kỹ thuật phải đối mặt với những thách thức nào hàng ngày?

Trắng: Vào bất kỳ ngày nào, bạn sẽ tìm thấy tôi trong phòng thí nghiệm. Tôi xắn tay áo lên và tay tôi bị bẩn, chọc dây, hàn, và những thứ tương tự. Tôi nghĩ rất nhiều về việc xác nhận sau silicon. Chúng tôi đã nói về các công cụ mô phỏng ban đầu và trên khuôn - BiST, và những thứ tương tự. Cuối cùng, trước khi giao hàng, chúng tôi muốn thực hiện một số hình thức xác thực hệ thống hoặc kiểm tra cấp thiết bị. Chúng tôi đã nói về cách vượt qua bức tường ký ức. Chúng tôi cùng định vị trí nhớ, HBM, những thứ tương tự. Nếu nhìn vào sự phát triển của công nghệ đóng gói, chúng ta bắt đầu với bao bì có chì. Chúng không tốt cho tính toàn vẹn của tín hiệu. Nhiều thập kỷ sau, chúng tôi đã chuyển sang tính toàn vẹn tín hiệu được tối ưu hóa, chẳng hạn như mảng lưới bóng (BGA). Chúng tôi không thể truy cập vào đó, có nghĩa là bạn không thể kiểm tra nó. Vì vậy, chúng tôi đã nghĩ ra khái niệm này được gọi là bộ chuyển đổi thiết bị - bộ chuyển đổi BGA - và điều đó cho phép chúng tôi kẹp một thiết bị cố định đặc biệt để định tuyến tín hiệu ra ngoài. Sau đó chúng tôi có thể kết nối nó với thiết bị thử nghiệm. Chuyển nhanh đến ngày hôm nay và bây giờ chúng ta có HBM và chiplets. Làm cách nào để kẹp thiết bị cố định của tôi vào giữa bộ chuyển đổi silicon? Chúng tôi không thể, và đó là cuộc đấu tranh. Đó là một thử thách khiến tôi thức trắng đêm. Làm cách nào để chúng tôi thực hiện phân tích lỗi tại hiện trường với OEM hoặc khách hàng hệ thống, nơi họ không đạt được hiệu suất 90%. Còn nhiều lỗi hơn trong liên kết, chúng không thể khởi tạo đúng cách và quá trình đào tạo không hoạt động. Đây có phải là vấn đề về tính toàn vẹn của hệ thống không?

Schirrmeister: Bạn có muốn làm việc này ở nhà với giao diện ảo hơn là đi bộ đến phòng thí nghiệm không? Câu trả lời không phải là bạn tích hợp nhiều phân tích hơn vào chip sao? Với chiplets, chúng tôi tích hợp mọi thứ hơn nữa. Đưa mỏ hàn của bạn vào đó thực sự không phải là một lựa chọn, vì vậy cần phải có cách để phân tích trên chip. Chúng tôi có cùng một vấn đề với NoC. Mọi người nhìn vào NoC và bạn gửi dữ liệu rồi nó biến mất. Chúng tôi cần đưa các phân tích vào đó để mọi người có thể gỡ lỗi và mở rộng đến cấp độ sản xuất để cuối cùng bạn có thể làm việc tại nhà và thực hiện tất cả dựa trên phân tích chip.

Sắt: Đặc biệt với bộ nhớ băng thông cao, bạn không thể vào được bên trong đó. Khi chúng tôi cấp phép cho PHY, chúng tôi cũng có một sản phẩm đi kèm với sản phẩm đó để bạn có thể để mắt đến từng bit trong số 1,024 bit đó. Bạn có thể bắt đầu đọc và ghi DRAM từ công cụ này để không cần phải vào đó một cách vật lý. Tôi thích ý tưởng của người xen kẽ. Chúng tôi thực sự mang một số chân ra khỏi bộ chuyển đổi trong quá trình thử nghiệm, điều mà bạn không thể thực hiện trong hệ thống. Việc tiếp cận các hệ thống 3D này thực sự là một thách thức. Ngay cả từ quan điểm luồng công cụ thiết kế, có vẻ như hầu hết các công ty đều thực hiện luồng riêng của họ trên nhiều công cụ 2.5D này. Chúng tôi đang bắt đầu kết hợp một cách tiêu chuẩn hóa hơn để xây dựng hệ thống 2.5D, từ tính toàn vẹn của tín hiệu, công suất, toàn bộ luồng.

Trắng: Khi mọi thứ tiếp tục diễn ra, tôi hy vọng chúng tôi vẫn có thể duy trì mức độ chính xác như cũ. Tôi thuộc nhóm tuân thủ yếu tố hình thức UCIe. Tôi đang tìm cách mô tả đặc điểm của một con súc sắc tốt, một con súc sắc vàng. Cuối cùng, việc này sẽ mất nhiều thời gian hơn, nhưng chúng tôi sẽ tìm ra sự cân bằng hài lòng giữa hiệu suất và độ chính xác của thử nghiệm mà chúng tôi cần cũng như tính linh hoạt được tích hợp sẵn.

Schirrmeister: Nếu tôi xem xét các chiplet và việc áp dụng chúng trong một môi trường sản xuất cởi mở hơn, thì thử nghiệm là một trong những thách thức lớn hơn trong cách làm cho nó hoạt động bình thường. Nếu tôi là một công ty lớn và tôi kiểm soát tất cả các khía cạnh của nó thì tôi có thể hạn chế mọi thứ một cách thích hợp để việc thử nghiệm, v.v. trở nên khả thi. Nếu tôi muốn sử dụng khẩu hiệu của UCIe rằng UCI chỉ cách PCI một chữ cái và tôi tưởng tượng một tương lai nơi việc lắp ráp UCIe trở thành, từ góc độ sản xuất, giống như các khe cắm PCI trong PC ngày nay, thì các khía cạnh thử nghiệm cho điều đó thực sự là thách thức. Chúng ta cần tìm một giải pháp. Có rất nhiều việc phải làm.

tại chỗ_img

Tin tức mới nhất

tại chỗ_img