제퍼넷 로고

Copilot이 현재 AI PC에서 로컬로만 실행되는 이유

시간

Comment AI PC를 구성하는 요소와 구성하지 않는 요소에 대한 Microsoft의 정의가 구체화되고 있습니다. 최신 버전의 Windows, 전용 Copilot 키 및 초당 최소 40조 작업을 수행할 수 있는 NPU를 사용하면 곧 Microsoft Copilot을 컴퓨터에서 로컬로 실행할 수 있습니다.

레드몬드 기타 요건 Windows용 AI 모델은 AI PC 부문의 가장 강력한 치어리더 중 하나인 Intel에 의해 공식화되었습니다. AI 서밋 이번주에는 타이페이에서.

LLM(대규모 언어 모델)을 로컬로 실행하면 몇 가지 본질적인 이점이 있습니다. 최종 사용자는 지연 시간이 짧아지고 응답 시간이 향상되어야 합니다. 이론상으로는 원격 데이터 센터에서 쿼리를 보낼 필요가 없고 개인 정보 보호도 강화되기 때문입니다. 한편 Microsoft의 경우 더 많은 AI 워크로드를 고객 장치로 전환하면 차세대 OpenAI 모델 교육을 지원하거나 클라우드 API로 제공하는 등의 다른 작업에 자체 리소스를 확보할 수 있습니다.

마이크로소프트는 궁극적으로 사람들의 윈도우 AI PC에 있는 NPU, 즉 신경 처리 장치에서 Copilot LLM을 완전히 실행하기를 희망하고 있습니다. 댓글이 분명히 정상회담에서 인텔 임원들이 만든 것입니다. 우리는 x86 골리앗이 집이나 사무실에서 Redmond의 제품을 실행할 수 있을 만큼 강력하다는 것을 모든 사람에게 확신시키기 위해 그 라인을 밀어붙이는 모습을 상상할 수 있습니다.

Azure의 탯줄에서 Copilot을 분리한다는 아이디어가 일부에게는 매력적일 수 있지만 모든 사람이 팬인 것은 아닙니다. 클리피 화신 그리고 가까운 미래에는 최소한 어느 정도의 처리가 클라우드에서 수행될 것이 거의 확실합니다.

Intel 경영진도 다음과 같이 말했습니다. 하드웨어가 빨라지면 Copilot의 더 많은 "요소"를 로컬에서 실행할 수 있습니다. 즉, 최소한 일부 기능은 여전히 ​​네트워크 연결에 의존하게 되며 나머지는 AI PC가 자체적으로 처리하게 됩니다.

그 이유는 그다지 놀랄 일이 아닙니다. 이러한 AI PC에는 유한한 리소스가 있으며 Copilot(OpenAI의 GPT-4)을 지원하는 모델은 엄청납니다. Microsoft가 사용하는 버전이 얼마나 큰지 정확히 알 수는 없지만 견적 전체 GPT-4 모델을 약 1.7조 4천억 개의 매개변수로 설정합니다. 양자화를 사용하거나 INT900에서 모델을 실행하는 경우에도 약 XNUMXGB의 메모리가 필요합니다.

우리는 그것이 어떻게 작동할 것이라고 생각하는가

GPT-4는 소위 전문가 혼합 모델입니다. 간단히 말해서 이는 실제로 쿼리가 라우팅되는 더 작고 특수화된 사전 훈련된 여러 모델로 구성된다는 의미입니다. 텍스트 생성, 요약, 코드 생성 등에 최적화된 여러 모델을 가짐으로써 작업을 완료하기 위해 전체 모델을 실행할 필요가 없으므로 추론 성능이 향상될 수 있습니다.

Copilot 기능을 로컬에서 실행하는 것을 설명하기 위해 Intel이 "요소"라는 용어를 사용한 것은 이러한 전문가 중 일부가 노트북 하드웨어에서 실행할 수 있는 더 작고 민첩한 모델로 대체될 수 있음을 시사합니다. 이전에 살펴본 것처럼 기존 개인용 하드웨어는 Mistral이나 Meta와 같은 소규모 AI 모델을 실행할 수 있는 능력을 갖추고 있습니다.

공교롭게도 최근 마이크로소프트는 펌핑 된 프랑스 미니 모델 빌더인 Mistral AI에 15만 유로(16.3만 달러)를 투자하고 해당 작업을 Azure 고객에게 제공할 계획입니다. 매개변수 크기가 7억 개에 불과한 Mistral-7B는 확실히 AI PC의 메모리에 편안하게 들어갈 만큼 작으며, 4비트 양자화를 사용할 때 약 4GB 메모리가 필요합니다.

그리고 그것은 범용 모델을 위한 것입니다. 아마도 Visual Studio Code와 같은 애플리케이션이 시작되고 활성 Github Copilot 구독이 감지될 때만 메모리에 로드되는 소스 코드 생성을 위해 조정된 더 작은 모델을 사용하여 작업할 수 있을 것입니다. Copilot은 단순한 챗봇 그 이상입니다. 이는 Microsoft의 OS 및 소프트웨어 라이브러리에 내장되어 있는 AI 기능 모음입니다.

Redmond는 AI PC 사양에 얼마나 많은 메모리가 필요한지 밝히지 않았지만 우리의 경험에 따르면 지역 LLM, 16GB의 빠른 DDR5이면 충분합니다.

Microsoft가 어떤 경로를 선택하든 로컬 모델과 원격 모델의 조합은 흥미로운 동작으로 이어질 수 있습니다. 어떤 상황에서 이러한 로컬 모델이 대체될지는 아직 알 수 없지만 Microsoft의 Windows 장치 담당 Pavan Davuluri는 이러한 혼합이 역동적일 수 있다고 제안했습니다.

"우리는 클라우드와 클라이언트 사이의 로드 전환을 통해 두 세계 모두에서 최고의 컴퓨팅을 제공할 수 있기를 원합니다."라고 AMD의 Advanced AI 무대에서 그는 말했습니다. event 십이월에. "클라우드의 강력한 성능, 고성능 모델, 대규모 데이터 세트, 크로스 플랫폼 추론을 통해 강화된 개인 정보 보호, 응답성, 지연 시간 등 로컬 컴퓨팅의 이점을 결합합니다."

따라서 Microsoft가 로컬 AI를 사용하는 방법에 대한 몇 가지 시나리오를 볼 수 있습니다. 첫 번째는 Microsoft 서버에서 작업을 오프로드하고 응답 시간을 개선하는 것입니다. 하드웨어가 향상됨에 따라 더 많은 Copilot 기능이 클라우드에서 사용자 장치로 푸시될 수 있습니다.

두 번째는 네트워크 중단 시 이를 대비하는 것입니다. AI PC가 네트워크에서 끊어졌을 때 완전히 멈추는 것이 아니라 점점 더 멍청해지는 것을 상상할 수 있습니다.

하드웨어 제약

독립형 선언문 초안을 작성하는 분할 브레인 AI PC에 대해 너무 흥분하기 전에 현재 하드웨어 요구 사항을 충족하는 시스템이 없으며 Copilot 키가 부족한 것도 아닙니다.

문제는 NPU가 x86 실리콘에서 여전히 비교적 새로운 것이며, 존재하는 것의 성능이 충분히 강력하지 않다는 것입니다. AMD는 2023년 초에 모바일 프로세서에 NPU를 최초로 추가한 제품 중 하나입니다. Ryzen 7040 시리즈 칩.

해당 라인업은 12월 House of Zen의 Advancing AI 이벤트 중에 시계가 부딪혔습니다. AMD는 또한 자사의 NPU를 출시하면서 데스크탑에 NPU를 도입했습니다. 8000G APU 올해 1월 CES에서

인텔은 자사의 출시와 함께 전용 AI 가속기 블록을 출시했습니다. 메테오 레이크 12월말 마이크로프로세서 부품. 이러한 Core Ultra 칩은 Intel의 Movidius 비전 처리 장치(VPU)에서 파생된 NPU를 갖추고 있습니다. 강등 작년 혁신 이벤트 기간 동안 다양한 워크로드를 실행했습니다.

불행하게도 칩은 초당 10~16조(일반적으로 INT4) 작업을 수행할 수 있으며 이는 Microsoft의 40 TOPS 사양보다 훨씬 낮습니다. 즉, 시장에 나와 있는 대부분의 소위 AI PC는 GPU에 의존하지 않고는 요구 사항을 충족하지 못한다는 의미입니다.

Intel과 AMD는 각각 Lunar Lake 및 Strix Point 실리콘과 함께 제공되는 더 많은 기능을 갖춘 칩을 보유하고 있습니다. 그러나 단기적으로는 퀄컴이 시장을 장악할 것으로 보인다.

Qualcomm의 Snapdragon X Elite를 탑재한 노트북 모바일 프로세서 2024년 중반에 출시될 예정이며 45 TOPS를 처리할 수 있는 NPU를 특징으로 합니다. Qualcomm은 FP4.6 성능의 32테라플롭스를 처리할 수 있는 Adreno GPU와 결합하여 이 부품이 장치에서 최대 13억 개의 매개변수까지 AI 모델을 실행할 수 있고 더 작은 30억 개의 매개변수 LLM을 실행할 때 초당 7개의 토큰을 생성할 수 있다고 밝혔습니다.

더 높은 성능의 NPU와 더 큰 메모리 저장소를 갖춘 PC가 등장하고 소형 모델의 성능이 향상됨에 따라 Microsoft는 하드웨어가 이를 처리할 수 있게 되면 더 많은 기능을 로컬 장치에 오프로드하기 시작할 것으로 예상됩니다. ®

spot_img

최신 인텔리전스

spot_img