제퍼넷 로고

Nvidia: 미래의 소프트웨어는 단지 LLM의 모음일 뿐입니다

시간

코드 작성을 돕기 위해 LLM(대형 언어 모델)을 사용하는 것에 신경 쓰지 마세요. Nvidia CEO Jensen Huang은 미래에 엔터프라이즈 소프트웨어는 작업을 완료하기 위해 서로 연결된 채팅 봇의 모음일 뿐이라고 믿습니다.

"처음부터 작성하거나 Python 코드 전체를 작성하거나 그와 유사한 것을 작성할 가능성은 거의 없습니다."라고 그는 GTC 무대에서 말했습니다. 기조 월요일. “AI 팀을 구성할 가능성이 매우 높습니다.”

Jensen은 이 AI 팀에 요청을 분해하고 다양한 다른 모델에 위임하도록 설계된 모델이 포함될 수 있다고 설명합니다. 이러한 모델 중 일부는 SAP 또는 Service Now와 같은 비즈니스 서비스를 이해하도록 훈련될 수 있고, 다른 모델은 벡터 데이터베이스에 저장된 데이터에 대한 수치 분석을 수행할 수 있습니다. 이 데이터는 또 다른 모델을 통해 결합되어 최종 사용자에게 제공될 수 있습니다.

"우리는 매일 또는 정각에 빌드 계획, 예측, 고객 경고, 버그 데이터베이스 또는 기타 발생하는 모든 것과 관련된 보고서를 받을 수 있습니다."라고 그는 설명했습니다.

이러한 모든 모델을 하나로 연결하기 위해 Nvidia는 Docker의 책에서 한 페이지를 가져와 AI용 컨테이너 런타임을 만들었습니다.

줄여서 NIM(Nvidia Inference Microservices)이라고 불리는 이 제품은 본질적으로 오픈 소스인지 독점인지 여부와 관계없이 모델을 실행하는 데 필요한 모든 종속성을 모두 포함하는 컨테이너 이미지입니다. 이러한 컨테이너화된 모델은 Nvidia 가속 Kubernetes 노드를 포함하여 원하는 수의 런타임에 배포될 수 있습니다.

“DGX Cloud라는 인프라에 배포할 수도 있고, 온프레미스에 배포할 수도 있고, 원하는 곳에 배포할 수도 있습니다. 일단 개발하면 어디든 가져갈 수 있습니다.”라고 Jensen은 말했습니다.

물론 먼저 Nvidia의 AI Enterprise 제품군에 대한 구독이 필요합니다. 이는 GPU당 연간 4,500달러 또는 클라우드의 GPU당 시간당 1달러로 정확히 저렴하지는 않습니다. 이 가격 책정 전략은 L40 또는 LXNUMX에서 실행하는지 여부에 관계없이 비용이 동일하므로 일반적으로 밀도가 높은 고성능 시스템을 장려하는 것처럼 보입니다. B100s.

GPU 가속 워크로드를 컨테이너화한다는 아이디어가 익숙하게 들린다면 이는 Nvidia에게 완전히 새로운 아이디어는 아닙니다. CUDA 가속이 되지 않습니다. Docker, Podman, Containerd 또는 CRI-O를 포함한 다양한 컨테이너 런타임에서 수년 동안 사용되어 왔으며 Nvidia의 컨테이너 런타임이 아무데도 갈 것 같지 않습니다.

NIM의 가치 제안은 Nvidia가 이러한 모델의 패키징 및 최적화를 처리하여 최상의 성능을 얻는 데 필요한 올바른 버전의 CUDA, Triton Inference Server 또는 TensorRT LLM을 갖게 된다는 것입니다.

Nvidia가 특정 모델 유형의 추론 성능을 획기적으로 향상시키는 업데이트를 출시하는 경우 해당 기능을 활용하려면 최신 NIM 이미지를 풀다운하면 된다는 주장이 있습니다.

하드웨어별 모델 최적화 외에도 Nvidia는 API 호출을 통해 서로 채팅할 수 있도록 컨테이너 간의 일관된 통신을 지원하기 위해 노력하고 있습니다.

우리가 이해하는 바와 같이, 오늘날 시장에 나와 있는 다양한 AI 모델에서 사용되는 API 호출은 항상 일관성이 없기 때문에 일부 모델을 연결하기가 더 쉽고 다른 모델에는 추가 작업이 필요할 수 있습니다.

범용 모델에 제도적 지식 빌려주기

AI 챗봇을 사용해 본 사람이라면 일반적으로 일반적인 지식 질문에는 꽤 능숙하지만 모호하거나 기술적인 요청에 대해서는 항상 가장 신뢰할 수 있는 것은 아니라는 점을 알 것입니다.

Jensen은 기조연설에서 이 사실을 강조했습니다. Nvidia 내에서 사용되는 내부 프로그램에 대해 질문을 받았을 때 Meta의 Llama 2 70B 대형 언어 모델은 놀랍지도 않게 관련 없는 용어에 대한 정의를 제공했습니다.

기업이 자체 모델을 교육하도록 하는 대신(많은 GPU를 판매하지만 처리 가능한 시장을 상당히 제한하는) Nvidia는 고객 데이터 및 프로세스에 따라 NIM을 미세 조정하는 도구를 개발했습니다.

“우리는 데이터를 선별하고 데이터를 준비하여 이 AI에 탑승할 수 있도록 돕는 NeMo Microservices라는 서비스를 보유하고 있습니다. 당신은 그것을 미세 조정한 다음 그것을 보호합니다. 그런 다음 다른 예와 비교하여 성능을 평가할 수 있습니다.”라고 Huang은 설명했습니다.

그는 또한 검색 증강 생성(RAG)을 사용하여 모델이 특별히 훈련되지 않은 정보를 표면화하는 개념을 기반으로 하는 Nvidia의 NeMo Retriever 서비스에 대해서도 이야기했습니다.

여기서 아이디어는 문서, 프로세스 및 기타 데이터를 모델에 연결된 벡터 데이터베이스에 로드할 수 있다는 것입니다. 쿼리를 기반으로 모델은 해당 데이터베이스를 검색하고 관련 정보를 검색 및 요약할 수 있습니다.

RAG 통합을 위한 NIM 모델과 NeMo Retriever를 현재 사용할 수 있으며, NeMo 마이크로서비스는 초기 단계에 있습니다. ®

spot_img

최신 인텔리전스

spot_img