제퍼넷 로고

Edge AI의 약속과 효과적인 채택을 위한 접근 방식 – KDnuggets

시간

Edge AI의 약속과 효과적인 채택을 위한 접근 방식
편집자별 이미지
 

현재 기술 환경은 GenAI(제너레이티브 AI) 및 기존 AI 워크로드의 급속한 발전에 힘입어 엣지 컴퓨팅으로의 중추적인 전환을 경험하고 있습니다. 역사적으로 클라우드 컴퓨팅에 의존해왔던 이러한 AI 워크로드는 이제 데이터 보안, 주권 및 네트워크 연결에 대한 우려를 포함하여 클라우드 기반 AI의 한계에 직면하고 있습니다.

클라우드 기반 AI의 이러한 한계를 해결하기 위해 조직은 엣지 컴퓨팅을 수용하려고 합니다. 데이터가 생성되고 소비되는 시점에서 실시간 분석과 대응을 지원하는 엣지 컴퓨팅의 능력은 조직이 이를 AI 혁신과 비즈니스 성장에 중요하다고 보는 이유입니다.

0에서 최소한의 지연 시간으로 더 빠른 처리를 약속하는 엣지 AI는 새로운 애플리케이션을 획기적으로 변화시킬 수 있습니다. 엣지 디바이스 컴퓨팅 기능은 점점 더 좋아지고 있지만, 고도로 정확한 AI 모델 구현을 어렵게 만드는 한계는 여전히 존재합니다. 모델 양자화, 모방 학습, 분산 추론 및 분산 데이터 관리와 같은 기술 및 접근 방식은 조직이 진정한 잠재력을 활용할 수 있도록 보다 효율적이고 비용 효율적인 엣지 AI 배포에 대한 장벽을 제거하는 데 도움이 될 수 있습니다. 

클라우드의 AI 추론은 대기 시간 문제의 영향을 받는 경우가 많아 장치와 클라우드 환경 간의 데이터 이동이 지연됩니다. 조직은 여러 지역에서 클라우드로, 그리고 클라우드에서 엣지로 데이터를 이동하는 데 드는 비용을 인식하고 있습니다. 이는 금융 거래나 산업 안전 시스템과 같이 매우 빠른 실시간 응답이 필요한 애플리케이션을 방해할 수 있습니다. 또한 조직이 네트워크 연결이 불안정한 원격 위치에서 AI 기반 애플리케이션을 실행해야 하는 경우 클라우드에 항상 접근할 수 있는 것은 아닙니다. 

"클라우드 전용" AI 전략의 한계는 특히 빠른 실시간 응답을 요구하는 차세대 AI 기반 애플리케이션의 경우 점점 더 분명해지고 있습니다. 네트워크 지연과 같은 문제로 인해 클라우드의 애플리케이션에 전달될 수 있는 통찰력과 추론이 느려질 수 있으며, 이로 인해 클라우드와 엣지 환경 간의 데이터 전송과 관련된 지연 및 비용 증가가 발생할 수 있습니다. 이는 실시간 애플리케이션, 특히 네트워크 연결이 간헐적으로 이루어지는 원격 지역에서 특히 문제가 됩니다. AI가 의사 결정 및 추론에서 중심 단계를 차지함에 따라 데이터를 이동하는 물리학은 비용이 매우 많이 들고 비즈니스 결과에 부정적인 영향을 미칠 수 있습니다. 

가트너 심층 신경망에 의한 모든 데이터 분석의 55% 이상이 2025년의 10% 미만에서 2021년까지 엣지 시스템의 캡처 시점에서 발생할 것으로 예측합니다. 엣지 컴퓨팅은 대기 시간, 확장성, 데이터 보안, 연결성 및 연결성을 완화하는 데 도움이 됩니다. 더 많은 과제를 해결하고 데이터 처리 방식을 재편하여 AI 채택을 가속화합니다. 오프라인 우선 접근 방식으로 애플리케이션을 개발하는 것은 민첩한 애플리케이션의 성공에 매우 중요합니다.

효과적인 엣지 전략을 통해 조직은 애플리케이션에서 더 많은 가치를 얻고 비즈니스 결정을 더 빠르게 내릴 수 있습니다.

AI 모델이 점점 정교해지고 애플리케이션 아키텍처가 더욱 복잡해짐에 따라 계산 제약이 있는 엣지 디바이스에 이러한 모델을 배포하는 과제가 더욱 뚜렷해졌습니다. 그러나 기술의 발전과 진화하는 방법론은 다음과 같은 엣지 컴퓨팅 프레임워크 내에서 강력한 AI 모델을 효율적으로 통합할 수 있는 길을 열어주고 있습니다. 

모델 압축 및 양자화

모델 가지치기 및 양자화와 같은 기술은 정확도를 크게 저하시키지 않으면서 AI 모델의 크기를 줄이는 데 중요합니다. 모델 가지치기는 모델에서 중복되거나 중요하지 않은 정보를 제거하는 반면, 양자화는 모델 매개변수에 사용되는 숫자의 정밀도를 줄여 리소스가 제한된 장치에서 모델을 더 가볍고 빠르게 실행할 수 있도록 해줍니다. 모델 양자화(Model Quantization)는 대규모 AI 모델을 압축하여 이식성을 개선하고 모델 크기를 줄여 모델을 더 가볍고 엣지 배포에 적합하게 만드는 기술입니다. 모델 양자화는 GPTQ(Generalized Post-Training Quantization), LoRA(Low-Rank Adaptation) 및 QLoRA(Quantized LoRA)를 포함한 미세 조정 기술을 사용하여 모델 매개변수의 수치 정밀도를 낮추어 다음과 같은 엣지 장치에서 모델을 더 효율적이고 액세스할 수 있게 만듭니다. 태블릿, 엣지 게이트웨이, 휴대폰. 

엣지별 AI 프레임워크

엣지 컴퓨팅을 위해 특별히 설계된 AI 프레임워크와 라이브러리를 개발하면 엣지 AI 워크로드 배포 프로세스를 단순화할 수 있습니다. 이러한 프레임워크는 에지 하드웨어의 계산 제한에 최적화되어 있으며 성능 오버헤드를 최소화하면서 효율적인 모델 실행을 지원합니다.

분산 데이터 관리 기능을 갖춘 데이터베이스

벡터 검색 및 실시간 분석과 같은 기능을 통해 엣지의 운영 요구 사항을 충족하고 로컬 데이터 처리를 지원하여 오디오, 이미지, 센서 데이터와 같은 다양한 데이터 유형을 처리합니다. 이는 다양한 데이터 유형이 지속적으로 수집되고 실시간으로 분석되어야 하는 자율주행차 소프트웨어와 같은 실시간 애플리케이션에서 특히 중요합니다.

분산 추론

실제 데이터 교환 없이 로컬 데이터 샘플을 사용하여 여러 에지 장치에 모델이나 워크로드를 배치하면 잠재적인 규정 준수 및 데이터 개인 정보 보호 문제를 완화할 수 있습니다. 많은 에지 및 IoT 장치가 포함된 스마트 시티 및 산업용 IoT와 같은 애플리케이션의 경우 추론 분산을 고려하는 것이 중요합니다. 

AI는 주로 클라우드에서 처리되었지만 AI 이니셔티브를 가속화하려면 엣지와의 균형을 찾는 것이 중요합니다. 전부는 아니더라도 대부분의 업계에서는 AI와 GenAI를 경쟁 우위로 인식했습니다. 따라서 엣지에서 통찰력을 수집, 분석하고 빠르게 확보하는 것이 점점 더 중요해질 것입니다. 조직이 AI 사용을 발전시키면서 모델 양자화, 다중 모드 기능, 데이터 플랫폼 및 기타 엣지 전략을 구현하면 의미 있는 실시간 비즈니스 결과를 도출하는 데 도움이 됩니다.
 
 

라훌 프라단 Fortune 30대 기업의 100%가 사용하는 엔터프라이즈 애플리케이션을 위한 선도적인 최신 데이터베이스 제공업체인 Couchbase(NASDAQ: BASE)의 제품 및 전략 담당 부사장입니다. Rahul은 클라우드의 데이터베이스, 스토리지, 네트워킹 및 보안 기술에 중점을 두고 엔지니어링 팀과 제품 팀을 모두 이끌고 관리한 20년 이상의 경험을 보유하고 있습니다. Couchbase에 합류하기 전에는 Dell EMC의 신기술 및 미드레인지 스토리지 사업부의 제품 관리 및 비즈니스 전략 팀을 이끌며 올플래시 NVMe, 클라우드 및 SDS 제품을 시장에 출시했습니다.

spot_img

최신 인텔리전스

spot_img