CEO 인터뷰: Mastiska AI의 Suresh Sugumar - Semiwiki

Suresh는 반도체, 인공 지능, 사이버 보안, 사물 인터넷, 하드웨어, 소프트웨어 등에 대한 심층적인 기술 전문 지식을 갖춘 기술 임원입니다. 그는 업계에서 20년을 보냈으며 가장 최근에는 오픈 소스 제로-시스템의 전무이사로 재직했습니다. 아부다비의 기술 혁신 연구소와 Intel, Qualcomm, MediaTek 등 기타 Fortune 500대 반도체 회사에서 다양한 리더십 역할을 맡아 고성능, 에너지 효율성, 포스트퀀텀 보안, 안전성을 연구하고 개발한 트러스트 칩 개발 데이터센터, 클라이언트, 스마트폰, 네트워킹, IoT, AI/ML 시장을 위한 마이크로칩/시스템온칩(SoC)/가속기. 그는 15개 이상의 미국 특허를 보유하고 있으며 20개 이상의 컨퍼런스에서 출판/발표했습니다.

Suresh는 또한 RISC-V International에서 리더십 직책을 맡아 RISC-V 기밀 컴퓨팅 기능을 개발하는 Trusted Computing Group의 의장을 맡고 있으며 AI/ML 그룹의 의장을 맡아 다음과 같은 AI/ML 워크로드를 위한 RISC-V 하드웨어 가속을 개발하고 있습니다. ChatGPT 종류의 애플리케이션에 사용되는 Transformer 대규모 언어 모델. 또한 그는 스타트업 및 벤처 캐피탈 회사에 투자 결정 지원, 제품 전략, 기술 실사 등에 관해 조언합니다.

그는 INSEAD에서 MBA를, Birla Institute of Technology & Science Pilani에서 석사, MIT에서 시스템 엔지니어링 자격증, Stanford에서 AI 자격증, TÜV SÜD에서 자동차 기능 안전 자격증을 취득했습니다.

귀하의 회사에 대해 알려주십시오.
"마스티카 AI”(Mastiṣka는 산스크리트어로 두뇌를 의미)는 미래의 Generative AI 사용 사례를 위해 기초 모델을 보다 효율적으로 실행하기 위해 두뇌와 유사한 컴퓨터를 구축하는 데 주력하는 AI 회사입니다.

어떤 문제를 해결하고 있습니까?
AI/GenAI의 이점을 고려할 때 수요는 증가할 수밖에 없으며 지구에 미치는 부작용도 마찬가지입니다. 지구에 AI가 미치는 부작용을 어떻게 줄이거나 무력화할 수 있을까요? 탄소 포집과 원자력 발전은 올바른 방향입니다. 하지만 우리는 AI를 수행하는 방식을 근본적으로 다시 생각해야 합니다. 수많은 행렬 곱셈을 수행하는 것이 잘못된 방식일까요?

우리의 두뇌는 10W 이하에서 많은 작업을 병렬로 학습하고 수행할 수 있습니다. 그런데 이러한 AI 시스템이 모델을 훈련하는 데 왜 10메가와트를 소비합니까?

아마도 미래에는 인간의 두뇌에 가장 가까운 뉴로모픽 아키텍처 및 스파이킹 신경망 기반 변압기와 같은 에너지 효율적인 아키텍처가 있을 것입니다. 이는 100~1000배 더 낮은 에너지를 소비하여 AI 사용 비용을 줄여 AI를 민주화하고 비용을 절감할 수 있습니다. 행성.

AI와 관련하여 우리가 직면한 현재 과제는 a) 가용성, b) 접근성, c) 경제성, d) 환경 안전과 이를 해결하기 위한 몇 가지 권장 사항입니다.

미래를 내다보면 몇 가지 유용한 AGI 개념이 영화 “HER”에서 시연됩니다. 여기서 자연스럽고 감정을 이해하며 공감을 나타내는 대화 에이전트인 '사만다'라는 캐릭터는 직장에서 놀라운 부조종사로 활약합니다. 하루 종일 휴대용 장치를 사용한다면 지금 바로 아래 문제를 해결해야 할 수도 있습니다.

문제 1: LLM 교육에는 150만 달러에서 천만 달러 이상의 비용이 들 수 있으며, 이를 통해 돈이 더 많은 사람만이 AI를 개발할 수 있습니다. 게다가 추론 비용도 엄청납니다(웹 검색보다 10배 더 비쌉니다).
—> 인류의 이익을 위해 AI를 민주화하려면 모델/하드웨어의 에너지 효율성을 개선해야 합니다.

문제 2: 대화형 에이전트 또는 추천 시스템을 위해 거대한 AI 모델을 실행하면 전기 소비 및 냉각 측면에서 환경에 큰 타격을 줍니다.
—> 우리 아이들을 위해 지구를 보호하려면 모델/하드웨어의 에너지 효율성을 개선해야 합니다.

문제 3: 인간의 두뇌는 다중 작업을 수행할 수 있지만 메가와트 대신 10와트만 소비합니다.
—> 아마도 우리는 일반 행렬 곱셈기가 아닌 우리의 두뇌와 같은 기계를 더 빠르게 만들어야 할 것입니다.

인류는 지속 가능한 혁신을 통해서만 번영할 수 있으며, 혁신이라는 이름으로 숲을 모두 베어버리고 바다를 끓이는 방식으로는 성공할 수 없습니다. 우리는 우리 아이들과 미래 세대의 복지를 위해 지구를 보호해야 합니다…

가장 강력한 응용 분야는 무엇입니까?
오늘날의 GPU 기반 솔루션에 비해 에너지 효율성이 50~100배 더 높은 Transformer(및 미래 신경 아키텍처) 기반 기반 모델의 훈련 및 추론입니다.

고객을 밤에 깨우게 하는 것은 무엇입니까?
현재 다른 제품을 사용하는 고객의 문제:

엄청난 언어 모델을 훈련하기 위한 전력 소비는 상상을 초월합니다. 예를 들어 13일 동안 390 GPU의 200B 텍스트 토큰에서 7B 매개변수 LLM을 훈련하는 데 드는 비용은 $151,744입니다(출처: HuggingFace 새로운 훈련 클러스터 서비스 페이지 – https://lnkd.in/g6Vc5cz3). 그리고 100+B 매개변수를 가진 더 큰 모델은 훈련에만 10만 달러 이상의 비용이 듭니다. 그런 다음 새로운 프롬프트 요청이 도착할 때마다 추론 비용을 지불합니다.

냉각을 위한 물 소비량에 대해 University of California, Riverside의 연구자들은 ChatGPT와 유사한 서비스가 환경에 미치는 영향을 추정했으며, 요청할 때마다 500밀리리터(16온스 물병에 담긴 양에 가까운)의 물을 삼킨다고 말합니다. 5~50개의 프롬프트 또는 질문으로 구성된 시리즈입니다. 범위는 서버 위치와 계절에 따라 다릅니다. 추정치에는 데이터 센터에 전기를 공급하는 발전소 냉각과 같이 회사에서 측정하지 않는 간접적인 물 사용량이 포함됩니다. (원천: https://lnkd.in/gybcxX8C)

현재 제품의 비고객에 대한 문제:

하드웨어 구입을 위한 CAPEX를 감당할 수 없음
클라우드 서비스를 사용할 여유가 없음
AI를 혁신하거나 활용할 수 없음 - 경쟁 우위를 제거하는 서비스 모델에 갇혀 있음

경쟁 구도는 어떤 모습이며 어떻게 차별화합니까?

특수 ASIC도 이 부문에서 경쟁하지만 GPU는 훈련 공간을 지배합니다.
클라우드 및 엣지 추론에는 사용 가능한 옵션이 너무 많습니다.

디지털, 아날로그, 포토닉 — 사람들이 동일한 문제를 해결하려고 노력하고 있다고 말합니다.

AI/ML용 칩 아키텍처의 현재 상태, 즉 현재 가장 중요한 트렌드와 기회가 무엇이라고 생각하는지에 대한 생각을 공유해 주실 수 있나요?

다음 트렌드:
트렌드 1 : 10년 전에는 하드웨어 기반 딥 러닝이 번성했지만 이제는 동일한 하드웨어가 발전을 방해하고 있습니다. 모델을 실행하는 데 드는 막대한 하드웨어 비용과 전기 비용으로 인해 하드웨어에 접근하는 것이 어려워졌습니다. 돈이 많은 회사만이 이를 감당할 수 있으며 독점이 되어가고 있습니다.

트렌드 2 : 이제 이러한 모델이 있으므로 추론 부하가 증가하여 AI 가속기를 갖춘 CPU가 다시 각광받을 수 있도록 실용적인 목적으로 사용해야 합니다.

트렌드 3 : 스타트업에서는 로그 및 양수 기반과 같은 전통적인 IEEE 형식이 좋지만 충분하지 않은 대체 부동 소수점 수 표현을 고안하려고 노력하고 있습니다. PPA$ 디자인 공간 최적화는 하나를 최적화하려고 시도하고 다른 하나는 실패할 때 폭발합니다.

트렌드 4 : 업계는 AI의 서비스 기반 모델에서 자체 프라이빗 모델을 자체적으로 호스팅하는 방식으로 전환하고 있습니다. 하지만 공급 부족, 제재 등으로 인해 하드웨어에 대한 접근이 어려운 상황입니다.

현재 상황:
하드웨어와 데이터의 가용성은 10년 전 AI의 성장을 촉진했지만 이제는 동일한 하드웨어가 이를 방해하고 있습니다.

CPU가 비참한 일을 하고 GPU가 AI용으로 용도가 변경된 이후로 많은 일이 일어났습니다.

기업들은 AI/ML의 4가지 부문, 즉 1) 클라우드 트레이닝, 2) 클라우드 추론, 3) 엣지 추론, 4) 엣지 트레이닝(개인 정보 보호에 민감한 애플리케이션을 위한 연합 학습)을 다루어 왔습니다.
디지털 및 아날로그

교육 측면 – GPU, RISC-V 기반 고객 가속기, 웨이퍼 규모 칩(850K 코어) 등 기존 CPU가 부족한 곳(일반 목적)을 수행하는 수많은 회사. 추론 측면 – NN 가속기는 모든 제조업체의 스마트폰, 노트북 및 기타 에지 장치에서 사용할 수 있습니다.

아날로그 멤리스터 기반 아키텍처도 얼마 전에 나타났습니다.

우리는 행렬 확장과 같은 가속을 통해 CPU를 향상시키면 CPU가 추론에 매우 능숙할 수 있다고 믿습니다.

RISC-V 측면:
RISC-V 측면에서는 트랜스포머 워크로드의 병목 현상을 제거하기 위해 매트릭스 작업 및 기타 비선형 작업을 위한 가속기를 개발하고 있습니다. 폰 노이만 병목 현상은 또한 메모리를 컴퓨팅에 더 가깝게 설계함으로써 해결되고 있으며 결국에는 AI 가속 기능을 갖춘 CPU가 추론을 위한 올바른 선택이 됩니다.

기회 :
기초 모델 시장을 채울 수 있는 독특한 기회가 존재합니다. 예 – OpenAI는 ChatGPT 서비스를 계속 추진할 만큼 충분한 AI 컴퓨팅(GPU)을 확보할 수 없다고 언급해 왔습니다. 뉴스에서는 일반 인터넷 검색 비용의 10배에 달하는 전기 비용과 시스템 냉각에 필요한 500ml의 물에 대해 보도했습니다. 모든 쿼리에 대해. 여기에서 채워야 할 시장이 있습니다. 틈새 시장이 아니라 위에서 언급한 모든 과제(a) 가용성, b) 접근성, c) 경제성, d) 환경 안전성을 해결하면서 AI를 민주화할 전체 시장입니다.

어떤 새로운 기능/기술을 개발하고 있나요?
우리는 뉴로모드 기술을 활용하여 컴퓨터와 같은 두뇌를 구축하고 있으며, 사용 가능한 개방형 프레임워크를 재사용하여 에너지 효율적인 하드웨어를 활용하도록 모델을 조정하고 있습니다.

향후 12~18개월 동안 AI/ML 부문이 어떻게 성장하거나 변화할 것으로 예상하십니까?
GPU에 대한 수요가 감소하고(약 30만 달러 비용) 세계 일부 지역에서는 이러한 GPU 구매에 대한 제재를 받고 있으며, 세계 일부 지역에서는 GPU에 대한 접근 없이 AI 연구 및 개발이 정체되고 있다고 느끼고 있습니다. 대체 하드웨어 플랫폼이 시장을 장악할 것입니다.
모델은 아마도 축소되기 시작할 것입니다. 맞춤형 모델 또는 근본적으로 정보 밀도가 증가할 것입니다.

같은 질문이지만 향후 3~5년 동안의 성장과 변화는 어떻습니까?
a) AI 확장 기능을 갖춘 CPU는 AI 추론 시장을 포착할 것입니다.
b) 정보 밀도가 16%에서 90%로 향상됨에 따라 모델이 민첩해지고 매개변수가 삭제됩니다.
c) 에너지 효율성이 향상되고 CO2 배출량이 감소합니다.
d) 새로운 아키텍처 등장
e) 하드웨어 비용과 에너지 비용이 낮아지므로 소규모 회사가 모델을 만들고 교육하는 진입 장벽이 저렴해집니다.
f) 사람들은 AGI 이전의 순간에 대해 이야기하지만 내 벤치마크는 영화 "그녀"에 등장하는 사만다(대화형 AI)입니다.. 확장에 드는 높은 비용을 고려하면 그럴 가능성은 낮습니다.

AI/ML 부문의 성장에 영향을 미치거나 제한할 수 있는 과제는 무엇입니까?
a) 하드웨어에 대한 접근
b) 에너지 비용 및 냉각 비용과 환경 피해