제퍼넷 로고

AI를 사용하면 더 큰 하드웨어 및 소프트웨어 그림을 볼 수 있어야 합니다.

시간

영상

후원 기능 연구원들이 그래픽 처리 장치를 사용하여 주요 AI 작업을 극적으로 가속화할 수 있음을 보여줌으로써 기술 세계를 놀라게 한 지 XNUMX년 반이 지났습니다.

그 실현은 계속해서 기업의 상상력을 사로잡고 있습니다. IDC는 인프라와 관련하여 GPU 가속 컴퓨팅 및 확장과 같은 HPC가 AI 인프라를 구축하려는 기술 리더와 설계자가 가장 많이 고려해야 할 사항이라고 보고했습니다.

그러나 실제 문제에 AI를 성공적으로 적용한 모든 조직의 경우 더 많은 조직이 실험이나 파일럿 단계를 넘어서는 데 어려움을 겪고 있습니다. IDC의 2021년 연구 응답자의 XNUMX분의 XNUMX 미만이 AI 프로젝트를 생산으로 옮겼고, 그 중 XNUMX분의 XNUMX만이 "성숙한 생산 단계"에 도달한 것으로 나타났습니다.

인용된 장애물에는 데이터 처리 및 준비 문제와 엔터프라이즈 규모에서 AI를 지원하기 위한 인프라 강화가 포함됩니다. 기업은 "목적에 맞게 구축되고 적절한 규모의 인프라"에 투자해야 한다고 IDC는 말했습니다.

여기서 AI 문제는 무엇입니까?

그렇다면 이러한 조직은 AI로 어디에서 잘못되고 있습니까? 한 가지 요인은 기술 리더와 AI 전문가가 다른 컴퓨팅 엔진, 특히 유서 깊은 CPU에 비해 ​​GPU에 너무 많은 관심을 기울이면서 광범위한 AI 파이프라인을 전체적으로 살펴보지 않는다는 것입니다.

궁극적으로 CPU 대 GPU 대 ASIC 지원의 문제가 아니기 때문입니다. 오히려 아이디어와 데이터, 모델 구축에서 배포 및 추론에 이르는 AI 파이프라인을 구성하는 최적의 방법을 찾는 것입니다. 이는 서로 다른 프로세서 아키텍처의 각각의 강점을 인식하여 적시에 적절한 컴퓨팅 엔진을 적용할 수 있음을 의미합니다.

Intel의 수석 이사인 Datacenter AI 전략 및 실행인 Shardul Brahmbhatt는 다음과 같이 설명합니다. “CPU는 클라우드의 마이크로서비스 및 기존 컴퓨팅 인스턴스에 사용되었습니다. 그리고 GPU는 미디어 스트리밍, 게임 및 AI 워크로드와 같은 병렬 컴퓨팅에 사용되었습니다."

따라서 하이퍼스케일러 및 기타 클라우드 플레이어가 AI에 관심을 돌리면서 서로 다른 작업에 이러한 동일한 강점을 활용하고 있음이 분명해졌습니다.

병렬 컴퓨팅에 대한 GPU의 기능은 예를 들어 AI 알고리즘 훈련에 매우 적합합니다. 한편 CPU는 낮은 배치, 짧은 지연 시간 실시간 추론과 이러한 알고리즘을 사용하여 라이브 데이터를 분석하고 결과 및 예측을 제공하는 데 있어 우위를 점하고 있습니다.

다시 한 번 주의 사항이 있습니다. Brahmbhatt는 다음과 같이 설명합니다. 그리고 그 배치 추론은 GPU나 ASIC을 통해 수행되는 것이기도 합니다.”

파이프라인을 내려다보며

그러나 AI 파이프라인은 훈련과 추론을 넘어 확장됩니다. 파이프라인의 왼쪽에서는 데이터를 사전 처리하고 알고리즘을 개발해야 합니다. Generalist CPU는 여기서 중요한 역할을 합니다.

Intel에 따르면 실제로 GPU는 AI 파이프라인에서 전체 프로세서 활동의 비교적 작은 비율을 차지하며 CPU 기반 "데이터 단계" 워크로드가 전체의 XNUMX/XNUMX를 차지합니다(솔루션 개요를 읽을 수 있습니다. Intel CPU 기술로 추론 최적화 이리).

그리고 Brahmbhatt는 CPU 아키텍처에 프로그래밍 가능성을 비롯한 다른 이점이 있음을 상기시킵니다.

"CPU가 너무 광범위하게 사용되었기 때문에 이미 기존의 개발자 및 응용 프로그램 에코시스템과 범용 컴퓨팅을 위한 사용 편의성 및 프로그래밍 가능성을 제공하는 도구가 있습니다."라고 그는 말합니다.

“둘째, CPU는 더 큰 메모리 공간에 더 빠르게 액세스할 수 있습니다. 그리고 세 번째는 더 병렬 컴퓨팅인 GPU에 비해 ​​비정형 컴퓨팅이 더 많다는 것입니다. 이러한 이유로 CPU는 GPU에 공급하는 데이터 이동기로 작동하므로 추천 시스템 모델은 물론 그래프 신경망과 같은 진화하는 작업 부하를 돕습니다.”

AI 개발을 위한 열린 계획

그렇다면 온프레미스, 클라우드 또는 둘 다에 걸쳐 AI 개발 파이프라인을 계획할 때 각각 CPU와 GPU의 역할을 어떻게 봐야 할까요?

GPU는 CPU에서 작업을 오프로드하는 가속 방법을 제공했기 때문에 AI 개발에 혁명을 일으켰습니다. 그러나 이것이 주어진 직업에 가장 합리적인 선택이라는 것은 아닙니다.

Intel 플랫폼 설계자 Sharath Raghava는 "AI 응용 프로그램에는 벡터화된 계산이 있습니다. 벡터 계산은 병렬화할 수 있습니다. AI 워크로드를 효율적으로 실행하려면 벡터 계산의 크기, 오프로드 대기 시간, 병렬화 가능성 및 기타 여러 요소를 고려하여 CPU 및 GPU 기능을 활용할 수 있습니다." 그러나 그는 계속해서 "작은" 작업의 경우 오프로딩의 "비용"이 과도할 것이며 GPU나 가속기에서 실행하는 것은 이치에 맞지 않을 수 있습니다.

CPU는 또한 AI 작업을 더 빨리 완료할 수 있도록 하는 다른 시스템 구성 요소와의 긴밀한 통합을 통해 이점을 얻을 수 있습니다. AI 배포에서 최대 가치를 얻으려면 모델 자체를 실행하는 것 이상이 필요합니다. 필요한 통찰력은 효율적인 사전 처리, 추론 및 사후 처리 작업에 따라 달라집니다. 사전 처리에서는 추론을 생성하기 위해 제공되기 전에 훈련된 모델의 입력 기대치와 일치하도록 데이터를 준비해야 합니다. 그런 다음 사후 처리 단계에서 추론 결과에서 유용한 정보를 추출합니다.

예를 들어 데이터 센터 침입 탐지 시스템(IDS)에 대해 생각한다면 사이버 공격으로 인한 피해를 적시에 보호하고 방지하기 위해 모델의 출력에 대해 조치를 취하는 것이 중요합니다. 그리고 일반적으로 전처리 및 후처리 단계는 나머지 아키텍처 생태계와 더 밀접하게 통합되기 때문에 호스트 시스템 CPU에서 수행될 때 더 효율적입니다.

스타터 주문에 따른 성능 향상

그렇다면 GPU 가속의 이점을 완전히 포기한다는 의미입니까? 반드시는 아닙니다. Intel은 몇 년 동안 Xeon Scalable CPU에 AI 가속을 구축해 왔습니다. 범위에는 이미 딥 러닝 모델에 대한 고성능 추론을 위한 딥 러닝 부스트가 포함되어 있으며 Intel의 Advanced Vector Extensions 512(AVX 512) 및 Vector Neural Network Extensions(VNNI)는 INT8 추론 성능을 가속화합니다. 그러나 DL Boost는 또한 BF16(뇌 부동 소수점 형식)을 사용하여 높은 수준의 정밀도가 필요하지 않은 훈련 워크로드의 성능을 향상시킵니다.

Intel의 곧 출시될 Xeon Scalable 8세대 CPU에는 고급 행렬 곱셈 또는 AMX가 추가됩니다. 이는 Intel의 계산에 따라 이전 프로세서에서 구현된 AVX-512 VNNI x86 확장보다 4배 더 향상되고 XNUMX세대 Intel Xeon Scalable 프로세서가 "GPU처럼 훈련 워크로드 및 DL 알고리즘을 처리"할 수 있도록 합니다. 그러나 동일한 가속기를 AI 및 비 AI 워크로드에 대한 일반 CPU 컴퓨팅에도 적용할 수 있습니다.

그렇다고 인텔이 AI 파이프라인이 처음부터 끝까지 x86이 될 것으로 기대한다는 의미는 아닙니다. 병렬화의 이점을 얻을 교육 워크로드를 완전히 오프로드하는 것이 더 합리적일 때 Intel은 Habana Gaudi AI 교육 프로세서를 제공합니다. 벤치마크 테스트에 따르면 후자는 클라우드에서도 호스팅되는 비슷한 Nvidia GPU 기반 교육 인스턴스보다 최대 2% 더 나은 가격 대비 성능을 제공할 수 있는 Amazon EC1 DL40 인스턴스를 강화합니다.

동시에 인텔의 데이터 센터 GPU 플렉스 시리즈는 AI 추론과 같은 병렬화의 이점을 활용하는 워크로드 및 운영에 맞춰져 있으며, "더 가볍고" 더 복잡한 AI 모델에 대해 다양한 구현이 제공됩니다. 코드명 Ponte Vecchio(PVC)인 또 다른 Intel® Data Center GPU는 곧 Argonne National Laboratory에서 Aurora 슈퍼컴퓨터에 전원을 공급하기 시작할 것입니다.

끝까지 가볼까요?

그렇다면 잠재적으로 인텔의 실리콘은 전체 AI 파이프라인을 뒷받침하는 동시에 서로 다른 컴퓨팅 엔진 간에 데이터를 불필요하게 오프로드할 필요성을 최소화할 수 있습니다. GPU 또는 CPU에 관계없이 회사의 프로세서는 OneAPI 프로그램을 통해 Intel 최적화를 통해 오픈 소스 도구 및 프레임워크를 기반으로 하는 공통 소프트웨어 모델도 지원합니다.

Brahmbhatt는 커뮤니티와 오픈 소스를 기반으로 x86 소프트웨어 에코시스템을 구축한 Intel의 유산을 또 다른 이점으로 인용합니다. “인텔의 철학은 ... '생태계가 채택을 주도하게 하라'입니다. 그리고 우리는 생태계에 공정하고 개방적이어야 하며 우리의 비밀 소스를 생태계에 다시 제공해야 합니다.”

"우리는 기본적으로 개발자가 AI용 CPU와 GPU 간의 근본적인 IP 차별화에 대해 걱정할 필요가 없도록 하기 위해 공통 소프트웨어 스택을 사용하고 있습니다."

공통 소프트웨어 스택과 올바른 작업에 올바른 컴퓨팅 엔진을 사용하는 데 중점을 두는 이러한 조합은 기업에서 훨씬 더 중요합니다. 기업은 클라우드에 있든 사내에 있든 가장 시급한 문제 중 일부를 해결하는 데 AI에 의존하고 있습니다. 그러나 혼합 워크로드는 가속기에 있는 커널에 포함되지 않은 코드를 실행하기 위해 모든 기능을 갖춘 소프트웨어와 시스템 스택의 유지 관리 및 관리가 필요합니다.

따라서 "AI를 엔터프라이즈 규모로 확장하는 방법"이라는 질문에 답할 때 답은 더 큰 그림을 보고 원하는 대로 하드웨어 및 소프트웨어 키트의 전체 보완을 사용하는지 확인하는 데 달려 있습니다.

인텔이 후원합니다.

spot_img

최신 인텔리전스

spot_img