제퍼넷 로고

기억을 다시 생각하다

시간

전문가 회의: 반도체 엔지니어링은 점점 더 다양해지는 시스템에서 메모리가 나아갈 방향에 대해 의 제품 관리 그룹 이사인 Frank Ferro와 함께 이야기를 나눴습니다. 운율; 스티븐 우(Steven Woo), 동료이자 저명한 발명가 램버스; 윤종신 메모리기술연구원 지멘스 EDA; Randy White, 메모리 솔루션 프로그램 관리자 키 사이트; Frank Schirrmeister 솔루션 및 비즈니스 개발 담당 부사장 동맥. 다음은 그 대화의 일부입니다.

[LR]: 프랭크 페로(Frank Ferro), 케이던스(Cadence); 스티븐 우, 램버스; 윤종신, Siemens EDA; 랜디 화이트, 키사이트; 그리고 Frank Schirrmeister, Arteris.

[LR]: 프랭크 페로, 케이던스; 스티븐 우, 램버스; 윤종신, Siemens EDA; 랜디 화이트, 키사이트; 그리고 Frank Schirrmeister, Arteris

SE: AI/ML 및 전력 수요로 인해 어려움을 겪고 있는 가운데 어떤 구성을 다시 생각해야 합니까? 폰 노이만 아키텍처에서 벗어나는 변화를 볼 수 있을까요?

우: 시스템 아키텍처 측면에서 업계에는 분기가 진행되고 있습니다. x86 기반 서버의 클라우드에서 실행되는 주요 주력 애플리케이션인 기존 애플리케이션은 사라지지 않습니다. 수십 년 동안 구축되고 진화된 소프트웨어가 있으며, 그 아키텍처에 의존하여 제대로 작동하게 될 것입니다. 반면 AI/ML은 새로운 클래스입니다. 사람들은 아키텍처를 다시 생각하고 매우 도메인별 프로세서를 구축했습니다. 우리는 에너지의 약 5/6가 프로세서와 HBM 장치 사이에서 데이터를 이동하는 데 사용되는 반면, 약 XNUMX/XNUMX만이 DRAM 코어의 비트에 실제로 액세스하는 데 사용되는 것을 확인하고 있습니다. 이제 데이터 이동은 훨씬 더 까다롭고 비용도 많이 듭니다. 우리는 기억을 없애지 않을 것입니다. 데이터 세트가 점점 커지고 있기 때문에 필요합니다. 그래서 질문은 '앞으로 나아갈 올바른 길이 무엇인가?'이다. 스태킹에 관해 많은 논의가 있었습니다. 해당 메모리를 프로세서 위에 직접 올려놓으면 두 가지 작업을 수행합니다. 첫째, 오늘날 대역폭은 해안가나 칩 주변에 의해 제한됩니다. 이것이 I/O가 가는 곳입니다. 그러나 프로세서 위에 직접 쌓아올린다면 이제 분산 상호 연결을 위해 칩의 전체 영역을 활용할 수 있고 메모리 자체에서 더 많은 대역폭을 확보할 수 있습니다. 프로세서. 링크는 훨씬 짧아지고 전력 효율은 아마도 XNUMX배에서 XNUMX배 정도 올라갈 것입니다. 둘째, 메모리에 대한 더 많은 영역 배열 상호 연결로 인해 얻을 수 있는 대역폭의 양도 여러 정수 요소만큼 증가합니다. 이 두 가지 작업을 함께 수행하면 더 많은 대역폭을 제공하고 전력 효율성을 높일 수 있습니다. 업계는 요구 사항이 무엇이든 발전하고 있으며 이는 확실히 메모리 시스템이 미래에 전력 효율성을 높이고 더 많은 대역폭을 제공하도록 진화하기 시작하는 한 가지 방법입니다.

철: 2016년경 제가 처음 HBM 작업을 시작했을 때 일부 고급 고객들이 적층이 가능한지 문의했습니다. 그들은 분명한 장점이 있기 때문에 DRAM을 그 위에 쌓는 방법을 꽤 오랫동안 연구해 왔습니다. 물리적 계층에서 PHY는 기본적으로 무시할 수 있게 되므로 전력과 효율성이 많이 절약됩니다. 하지만 이제 그 위에 메모리가 탑재된 100W급 프로세서가 생겼습니다. 기억은 열을 견딜 수 없습니다. 이는 아마도 열 사슬에서 가장 약한 연결고리일 것이며 이는 또 다른 문제를 야기합니다. 이점이 있지만 여전히 발열을 처리하는 방법을 알아내야 합니다. 이제 이러한 유형의 아키텍처를 발전시키는 데 더 많은 인센티브가 있습니다. 성능과 전력 측면에서 전반적으로 비용을 절감하고 컴퓨팅 효율성을 향상시키기 때문입니다. 그러나 해결해야 할 몇 가지 물리적 설계 문제가 있습니다. Steve가 말했듯이 우리는 앞으로 나올 모든 종류의 아키텍처를 봅니다. 나는 GPU/CPU 아키텍처가 아무데도 가지 않을 것이라는 점에 전적으로 동의합니다. 여전히 지배적일 것입니다. 동시에 지구상의 모든 회사는 AI를 수행하기 위해 더 나은 쥐덫을 고안하려고 노력하고 있습니다. 온칩 SRAM과 고대역폭 메모리의 조합이 보입니다. LPDDR은 요즘 그 위력 때문에 데이터센터에서 LPDDR을 어떻게 활용하느냐에 대해 꽤 고개를 들고 있습니다. 우리는 일부 AI 추론 애플리케이션과 모든 기존 메모리 시스템에서 GDDR이 사용되는 것을 보았습니다. 그들은 이제 가능한 한 많은 DDR5를 설치 공간에 집어넣으려고 노력하고 있습니다. 나는 DDR, HBM, GDDR 등 여러분이 생각할 수 있는 모든 아키텍처를 보았습니다. 전반적인 부가가치가 무엇인지, 그리고 특정 아키텍처를 어떻게 돌파할 수 있는지는 프로세서 코어에 따라 다릅니다. 메모리 시스템과 함께 제공되므로 사용 가능한 항목에 따라 CPU와 메모리 아키텍처를 조각화할 수 있습니다.

윤 : 또 다른 문제는 비휘발성입니다. 예를 들어 AI가 IoT 기반 AI를 실행하는 사이의 전원 간격을 처리해야 한다면 많은 전원을 껐다가 켜야 하며 AI 훈련을 위한 이 모든 정보는 계속해서 순환해야 합니다. 동일한 무게에 대해 항상 앞뒤로 이동할 필요가 없도록 해당 무게를 칩에 저장할 수 있는 솔루션이 있다면 특히 IoT 기반 AI의 경우 전력이 많이 절감될 것입니다. 이러한 전력 수요를 지원하는 또 다른 솔루션이 있을 것입니다.

쉬르마이스터: NoC 관점에서 제가 발견한 흥미로운 점은 NoC를 통과하는 프로세서에서 이러한 경로를 최적화하고 잠재적으로 UCIe를 통과하는 컨트롤러가 있는 메모리 인터페이스에 액세스하여 칩렛을 다른 칩렛으로 전달한 다음 메모리를 보유해야 한다는 것입니다. 그것. 폰 노이만 아키텍처가 죽은 것은 아닙니다. 그러나 현재는 계산하려는 작업 부하에 따라 매우 많은 변형이 있습니다. 그것들은 기억의 맥락에서 고려되어야 하며, 기억은 단지 한 측면일 뿐입니다. 데이터 지역에서 데이터를 얻는 곳은 어디이며, 이 DRAM에서는 어떻게 배열되어 있나요? 우리는 메모리 성능 분석, 시스템 아키텍처 최적화 등 이 모든 작업을 진행하고 있습니다. 이는 새로운 아키텍처에 대한 많은 혁신을 불러일으키고 있는데, 제가 대학에서 폰 노이만에 대해 배울 때는 전혀 생각하지 못했던 일입니다. 반대편 끝에는 메쉬 같은 것이 있습니다. 이제 고려해야 할 훨씬 더 많은 아키텍처가 있으며, 이는 동일한 속도로 성장하지 않고 메모리 대역폭, 컴퓨팅 기능 등에 의해 주도됩니다.

화이트 : 분리된 컴퓨팅 또는 분산 컴퓨팅과 관련된 추세가 있습니다. 이는 설계자가 원하는 대로 더 많은 도구를 보유해야 함을 의미합니다. 메모리 계층이 확장되었습니다. 플래시와 DRAM에서 사용할 수 있는 CXL 및 다양한 하이브리드 메모리뿐만 아니라 의미론도 포함되어 있습니다. 데이터 센터에 대한 병렬 애플리케이션은 자동차입니다. 자동차에는 항상 ECU(전자 제어 장치)를 사용하여 이 센서를 계산했습니다. 데이터센터로 어떻게 발전했는지가 정말 궁금하네요. 빠르게 진행하면 오늘날 도메인 컨트롤러라고 하는 분산 컴퓨팅 노드가 있습니다. 그건 같은거야. 컴퓨터의 규모가 크지 않기 때문에 전력은 그다지 중요하지 않을 수도 있지만 자동차에서는 대기 시간이 확실히 큰 문제라는 점을 해결하려고 노력하고 있습니다. ADAS에는 초고속 대역폭이 필요하며 서로 다른 장단점이 있습니다. 그리고 더 많은 기계식 센서가 있지만 데이터 센터에도 비슷한 제약이 있습니다. 대기 시간이 낮을 필요가 없는 콜드 스토리지와 다른 고대역폭 애플리케이션이 있습니다. 건축가를 위한 도구와 옵션이 얼마나 발전했는지 보는 것은 매우 흥미롭습니다. 업계에서는 정말 좋은 대응을 해왔고 우리 모두는 시장에 진출할 수 있는 다양한 솔루션을 제공하고 있습니다.

SE: 메모리 설계 도구는 어떻게 발전했나요?

쉬르마이스터: 90년대에 처음 두 개의 칩을 시작했을 때 가장 많이 사용된 시스템 도구는 Excel이었습니다. 그 이후로 저는 시스템 수준, 메모리, 대역폭 분석 등에서 수행하는 작업이 한 지점에서 중단될 수 있기를 항상 바랐습니다. 이는 우리 팀에 상당한 영향을 미쳤습니다. 그 당시에는 매우 진보된 기술이었습니다. 그러나 Randy의 관점에 따르면, 이전에는 컴퓨팅 없이는 불가능했던 충실도 수준에서 특정 복잡한 사항을 이제 시뮬레이션해야 합니다. 예를 들어, DRAM 액세스에 대한 특정 대기 시간을 가정하면 잘못된 아키텍처 결정으로 이어질 수 있으며 잠재적으로 칩의 데이터 전송 아키텍처를 잘못 설계할 수 있습니다. 반대쪽도 마찬가지입니다. 항상 최악의 경우를 가정한다면 아키텍처를 과도하게 설계하게 될 것입니다. 도구를 사용하여 DRAM 및 성능 분석을 수행하고 컨트롤러에 사용할 수 있는 적절한 모델을 사용하면 건축가가 모든 것을 시뮬레이션할 수 있습니다. 이는 매우 매력적인 환경입니다. 90년대부터 Excel이 언젠가는 망할 수 있기를 바랍니다. 시스템 수준 도구는 실제로 실현될 수 있습니다. 왜냐하면 동적 영향 중 일부는 더 이상 Excel에서 수행할 수 없기 때문입니다. 특히 PHY 특성이 있는 다이-투-다이 인터페이스를 넣은 다음 레이어를 연결하는 경우에는 더욱 그렇습니다. 모든 것이 올바른지 확인하고 잠재적으로 데이터를 다시 보내는 것과 같은 특성입니다. 이러한 시뮬레이션을 수행하지 않으면 차선책인 아키텍처가 발생하게 됩니다.

철: 우리가 수행하는 대부분의 평가의 첫 번째 단계는 DRAM 효율성을 살펴볼 수 있는 메모리 테스트 벤치를 제공하는 것입니다. 이는 DRAM 시뮬레이션을 수행하기 위해 로컬 도구를 실행하는 것만큼 간단한 작업을 수행한 다음 본격적인 시뮬레이션을 시작한다는 점에서 큰 진전입니다. 이러한 유형의 시뮬레이션을 요구하는 고객이 더 많아지고 있습니다. DRAM 효율이 90년대 후반인지 확인하는 것은 모든 평가에서 매우 중요한 첫 번째 단계입니다.

우: 전체 시스템 시뮬레이션 도구가 등장하는 이유 중 하나는 DRAM이 훨씬 더 복잡해졌기 때문입니다. 이제 Excel과 같은 간단한 도구를 사용하여 이러한 복잡한 워크로드 중 일부를 처리하기가 매우 어렵습니다. 90년대 DRAM 데이터시트를 보면 그 데이터시트가 40페이지 정도였습니다. 이제 수백 페이지가 되었습니다. 이는 높은 대역폭을 얻기 위한 장치의 복잡성을 의미합니다. 메모리가 시스템 비용뿐만 아니라 프로세서 성능과 관련된 대역폭 및 대기 시간의 동인이라는 사실과 결합됩니다. 이는 또한 전력의 큰 원동력이므로 이제 훨씬 더 세부적인 수준에서 시뮬레이션해야 합니다. 도구 흐름 측면에서 시스템 설계자는 메모리가 큰 원동력이라는 것을 이해합니다. 따라서 도구는 더욱 정교해야 하며, 시스템 설계자가 현재 진행 중인 상황, 특히 메모리가 시스템에 미치는 영향을 전체적으로 가장 잘 파악할 수 있도록 다른 도구와 매우 잘 인터페이스해야 합니다.

윤 : AI 시대로 넘어가면서 멀티코어 시스템이 많이 쓰이는데, 어떤 데이터가 어디로 가는지 알 수 없습니다. 또한 칩과 더 평행하게 진행됩니다. 메모리의 크기가 훨씬 커졌습니다. ChatGPT형 AI를 사용한다면, 모델의 데이터 처리에는 약 350MB의 데이터가 필요합니다. 이는 가중치만으로도 엄청난 양의 데이터이며, 실제 입/출력은 훨씬 더 큽니다. 필요한 데이터의 양이 늘어난다는 것은 이전에 볼 수 없었던 확률적 효과가 많이 있다는 것을 의미합니다. 이 대용량 메모리와 관련된 모든 오류를 확인하는 것은 매우 어려운 테스트입니다. 그리고 ECC는 어디에서나 사용됩니다. 심지어 SRAM에서도 전통적으로 ECC를 사용하지 않았지만 이제는 대규모 시스템에서 매우 일반적입니다. 이 모든 것을 테스트하는 것은 매우 어려우며 이러한 모든 다양한 조건을 테스트하려면 EDA 솔루션의 지원이 필요합니다.

SE: 엔지니어링 팀은 매일 어떤 어려움에 직면하고 있나요?

화이트 : 어느 날이라도 당신은 나를 연구실에서 발견할 것입니다. 소매를 걷어붙이고 손을 더럽히고, 전선을 찌르고, 납땜하고, 이런저런 일을 했습니다. 저는 포스트 실리콘 검증에 대해 많이 생각합니다. 우리는 초기 시뮬레이션 및 다이 내 도구(BiST 등)에 대해 이야기했습니다. 결국 제품을 출시하기 전에 일종의 시스템 검증이나 장치 수준 테스트를 수행하려고 합니다. 기억의 벽을 극복하는 방법에 대해 이야기를 나눴습니다. 우리는 메모리, HBM 등을 공동 배치합니다. 패키징 기술의 진화를 살펴보면 우리는 납을 함유한 패키지로 시작했습니다. 신호 무결성이 좋지 않았습니다. 수십 년 후, 우리는 BGA(볼 그리드 어레이)와 같은 최적화된 신호 무결성으로 전환했습니다. 우리는 그것에 접근할 수 없었습니다. 이는 여러분이 그것을 테스트할 수 없다는 것을 의미합니다. 그래서 우리는 장치 인터포저(BGA 인터포저)라는 개념을 생각해 냈고 이를 통해 신호를 라우팅하는 특수 고정 장치를 끼울 수 있었습니다. 그런 다음 이를 테스트 장비에 연결할 수 있습니다. 오늘날로 빠르게 나아가면 이제 HBM과 칩렛이 있습니다. 실리콘 인터포저 사이에 고정 장치를 끼우려면 어떻게 해야 합니까? 우리는 할 수 없습니다. 그것이 바로 투쟁입니다. 나를 밤잠 못 이루게 만드는 도전이다. OEM 또는 시스템 고객이 90% 효율성을 얻지 못하는 현장에서 오류 분석을 수행하려면 어떻게 해야 합니까? 링크에 오류가 더 많아 제대로 초기화할 수 없고 훈련도 작동하지 않습니다. 시스템 무결성 문제인가요?

쉬르마이스터: 실험실로 걸어가는 것보다 가상 인터페이스를 사용하여 집에서 이 작업을 수행하는 것이 더 낫지 않습니까? 답은 칩에 더 많은 분석을 구축하는 것이 아닌가? 칩렛을 사용하면 모든 것을 더욱 통합할 수 있습니다. 납땜 인두를 넣는 것은 실제로 선택 사항이 아니므로 온칩 분석을 위한 방법이 필요합니다. NoC에도 동일한 문제가 있습니다. 사람들은 NoC를 보고 데이터를 보내면 사라집니다. 사람들이 디버그를 수행할 수 있도록 분석 기능을 추가해야 하며, 이는 제조 수준까지 확장되어 마침내 집에서 일하고 칩 분석을 기반으로 모든 작업을 수행할 수 있습니다.

철: 특히 고대역폭 메모리의 경우 물리적으로 내부로 들어갈 수 없습니다. PHY 라이선스를 취득하면 1,024비트 중 하나하나를 살펴볼 수 있는 제품도 함께 제공됩니다. 도구에서 DRAM을 읽고 쓸 수 있으므로 물리적으로 DRAM에 들어갈 필요가 없습니다. 나는 인터포저 아이디어를 좋아한다. 테스트 중에 인터포저에서 일부 핀을 가져오는데, 이는 시스템에서는 수행할 수 없습니다. 이러한 3D 시스템을 사용하는 것은 정말 어려운 일입니다. 디자인 도구 흐름의 관점에서도 대부분의 회사는 이러한 많은 2.5D 도구에 대해 자체적인 개별 흐름을 수행하는 것처럼 보입니다. 우리는 신호 무결성, 전력, 전체 흐름에서 2.5D 시스템을 구축하기 위해 보다 표준화된 방법을 통합하기 시작했습니다.

화이트 : 상황이 급변함에 따라 여전히 동일한 수준의 정확성을 유지할 수 있기를 바랍니다. 저는 UCIe 폼 팩터 규정 준수 그룹에 속해 있습니다. 나는 좋은 것으로 알려진 주사위, 즉 황금 주사위를 어떻게 특징짓는지 살펴보고 있습니다. 결국에는 훨씬 더 많은 시간이 걸리겠지만 우리는 필요한 테스트의 성능과 정확성, 그리고 내장된 유연성 사이에서 행복한 중간 지점을 찾을 것입니다.

쉬르마이스터: 좀 더 개방적인 생산 환경에서 칩렛과 그 채택을 살펴보면 테스트는 이를 올바르게 작동시키는 데 있어 가장 큰 과제 중 하나입니다. 내가 큰 회사이고 회사의 모든 측면을 통제한다면 테스트 등이 가능하도록 상황을 적절하게 제한할 수 있습니다. UCI가 PCI에서 단 한 글자만 떨어져 있다는 UCIe 슬로건으로 가고 싶고 제조 관점에서 UCIe 어셈블리가 오늘날 PC의 PCI 슬롯처럼 되는 미래를 상상한다면 그에 대한 테스트 측면은 실제로 도전적인. 우리는 해결책을 찾아야 합니다. 할 일이 많아요.

spot_img

최신 인텔리전스

spot_img