AMD는 오늘 최신 버전의 ROCm을 출시했으며, 개선된 소프트웨어가 Instinct GPU 제품군의 성능을 크게 향상시킬 것이라고 주장했습니다.
익숙하지 않다면 ROCm은 AMD의 GPU에 CUDA 엔비디아의 것입니다. 오픈 소스 스택에는 AMD 가속기에서 컴퓨팅 워크로드를 실행하는 데 필요한 다양한 드라이버, 개발 도구, 라이브러리 및 API가 포함됩니다.
와 더불어 시작 ROCm 6.2에서 AMD는 마침내 여러 GPU 또는 시스템에 걸쳐 LLama 8과 같은 LLM(대형 언어 모델)을 확장하기 위한 프레임워크인 vLLM을 포함하여 3비트 부동 소수점 데이터 유형에 대한 더 광범위한 지원을 발표했습니다.
FP8 지원은 AMD의 MI300A 및 X APU와 GPU가 출시될 당시 주력 사양 중 하나였기 때문에 큰 문제입니다. 도착 십이월에. AI 중심의 MI300X는 2,614테라플롭스의 고밀도 FP8 성능(희소성으로 두 배)을 자랑하여 100테라플롭스로 Nvidia의 H200 및 H1,979보다 훨씬 앞서 있습니다.
안타깝게도 그 성능을 활용하는 것은 적어도 당시에는 AMD가 선호하는 모델 러너인 vLLM이 FP8 데이터 유형을 지원하지 않았기 때문에 쉽지 않았습니다. 이후 적어도 vLLM의 ROCm 분기와 ROCm 6.2 Instinct의 출시로 변경되었으므로 개발자는 이제 데이터 유형을 활용할 수 있습니다.
기타 최적화에는 다중 GPU 실행 지원 및 8비트 키-값 캐시가 포함됩니다.
vLLM 외에도 ROCm 6.2는 FP8에 대한 지원도 확장합니다. 보석HipBLASLt를 통한 PyTorch 및 JAX, XLA를 통한 JAX 및 Flax, RCCL 및 MIOPEN을 포함한 다양한 프레임워크 및 라이브러리에 적용됩니다.
FP8이 중요한 이유
FP8이 크게 추가된 것처럼 들리지 않을 수도 있지만, 정밀도가 낮은 데이터 유형에는 생성 AI 모델을 실행하는 데 중요한 고려 사항이 있습니다. 16비트 부동 소수점 또는 Brain float 정밀도와 비교하여 FP8은 메모리 공간을 절반으로 차지하고 메모리 부담을 크게 줄여 두 번째 토큰 지연 시간을 낮춥니다.
시스템 수준에서 이는 8TB의 HBM300을 갖춘 단일 1.5x MI3X 시스템이 이제 8조 개의 매개변수를 훨씬 초과하는 모델을 수용할 수 있으며 적어도 다음과 같은 경우 의미 있는 컨텍스트 길이와 배치 크기를 지원하기 위해 여전히 많은 메모리가 남아 있음을 의미합니다. 해당 모델은 FPXNUMX로 훈련되거나 양자화되었습니다.
모델이 더 커지면서 FP8 모델이 더 인기를 끌기 시작했습니다. 예를 들어 Meta의 Llama 3.1 405B 모델은 다음과 같습니다. 시작 단일 Nvidia HGX H8 시스템에 맞추기 위해 FP100로 양자화된 버전과 함께. 이미 비슷한 장비를 갖춘 MI16X 상자의 BF300에서 모델을 실행할 수 있지만 FP8로 낮추면 출력 생성 속도가 효과적으로 두 배가 됩니다.
이는 의심할 여지 없이 OpenAI의 GPT-300o를 포함한 대규모 프론티어 모델을 실행하는 Microsoft와 같은 클라우드 거대 기업에게 AMD의 MI4X를 더욱 매력적으로 만들 것입니다. 보고서 Nvidia의 다가오는 Blackwell GPU 제품군이 지연되었습니다.
Bitsandbytes가 Instinct에 등장합니다.
양자화 주제와 관련하여 ROCm 6.2는 널리 사용되는 Bitsandbytes 라이브러리에 대한 지원도 확장합니다.
Bitsandbytes는 일반적으로 PyTorch와 함께 사용되어 32비트 또는 16비트 정밀도(보통 XNUMX비트 또는 XNUMX비트까지)로 훈련된 모델을 자동으로 양자화합니다. 앞서 언급했듯이 정밀도가 낮을수록 필요한 메모리 양이 줄어들고 추론 시 처리량이 높아집니다.
AMD에 따르면 ROCm 6.2의 Bitsandbytes 지원은 추론에만 국한되지 않습니다. Epyc 슬링어는 "8비트 최적화 프로그램을 사용하면 AI 훈련 중 메모리 사용량을 줄일 수 있어 개발자가 제한된 하드웨어에서 더 큰 모델로 작업할 수 있습니다."라고 설명했습니다. 릴리즈 노트.
불행하게도 당신은 할 수 없을 것 같습니다 pip install bitsandbytes
이제 Instinct 가속기와 함께 사용해 보세요. ROCm 지원은 다음을 통해 제공되는 것으로 보입니다. 포크 글을 쓰는 시점에 라이브러리를 수동으로 설치해야 하는 프로젝트의 경우.
Bitsandbytes 또는 일반적인 양자화에 익숙하지 않은 경우 Hugging Face에서 구현 방법을 포함하여 기술에 대한 훌륭한 분석을 찾을 수 있습니다. LINK. 모델 크기, 성능 및 정확도에 미치는 영향에 대한 자세한 내용은 학습 후 양자화에 대한 실습 가이드를 참조하세요. LINK.
AMD, Omnitrace 및 Omniperf 모니터링 및 최적화 도구 출시
성능 최적화와 함께 AMD는 아직 베타 버전이지만 사용자가 Instinct 배포의 성능을 더 쉽게 모니터링하고 최적화할 수 있도록 하는 두 가지 도구를 출시하고 있습니다.
이들 중 첫 번째인 Omnitrace는 CPU, GPU, NIC 및 네트워크 패브릭 성능에 대한 조감도를 제공한다고 합니다. 그렇게 하면 사용자가 병목 현상을 발견하고 해결하는 데 도움이 될 것이라는 생각입니다.
반면 Omniperf는 개발자가 AMD 하드웨어에 맞게 코드를 최적화할 수 있도록 실시간 커널 수준 분석을 제공하여 가속기 수준 성능을 처리합니다.
ROCm은 개선된 설치 프로그램과 함께 Ubuntu 24.04에 도착합니다.
새로운 기능 외에도 ROCm 6.2에는 Canonical의 최신 Ubuntu 릴리스인 버전 24.04 LTS에 대한 확장 지원도 추가되었습니다. 이전에 Ubuntu 지원의 최신 릴리스는 22.04년 초에 출시된 2022였습니다.
AMD는 또한 Red Hat Enterprise Linux 8.10 및 SUSE Linux Enterprise Server 버전 15 SP6에 대한 지원을 확장했습니다. 전체 호환성 매트릭스를 찾을 수 있습니다 LINK.
그리고 Ryzen 디자이너는 인터넷 접속이나 로컬 미러가 없는 환경에서 AMD GPU를 배포하는 사용자를 대상으로 ROCm 6.2가 포함된 새로운 오프라인 설치 프로그램을 출시했습니다.
AMD는 관련 바이너리 및 종속성을 설치하는 것 외에도 설치 프로그램이 사용자 및 그룹 관리, 드라이버 처리와 같은 설치 후 작업도 처리하여 노드 간 일관성을 보장한다고 밝혔습니다.
이상한 개념처럼 들릴 수도 있지만, AMD GPU는 미국 에너지부(Department of Energy) 슈퍼컴퓨터에 광범위하게 배포되며, 어떤 경우에는 배포되면 에어갭이 발생합니다. MI300A APU가 로렌스 리버모어 국립 연구소(Lawrence Livermore National Lab)의 El Capitan에 전력을 공급하도록 설정됨 체계 그리고 미국의 핵무기에 대한 연구를 수행하는 사람이라면 의심할 바 없이 귀중한 설치자가 될 것입니다. ®
- SEO 기반 콘텐츠 및 PR 배포. 오늘 증폭하십시오.
- PlatoData.Network 수직 생성 Ai. 자신에게 권한을 부여하십시오. 여기에서 액세스하십시오.
- PlatoAiStream. 웹3 인텔리전스. 지식 증폭. 여기에서 액세스하십시오.
- 플라톤ESG. 탄소, 클린테크, 에너지, 환경, 태양광, 폐기물 관리. 여기에서 액세스하십시오.
- PlatoHealth. 생명 공학 및 임상 시험 인텔리전스. 여기에서 액세스하십시오.
- 출처: https://go.theregister.com/feed/www.theregister.com/2024/08/06/amd_unleashes_mi300s_full_potential/
AI 기능과 독점 프로모션을 갖춘 궁극의 PDF 편집기 UPDF를 만나보세요