제퍼넷 로고

Microsoft Phi-3는 거대 기술 기업의 차세대 작은 타이탄입니다.

시간

점점 더 큰 인공 지능 모델을 향한 경쟁은 최근 발전의 특징이었습니다. 그러나 마이크로소프트는 작은 크기에도 불구하고 인상적인 성능을 자랑하는 AI 모델인 파이-3 미니(Phi-XNUMX Mini)로 상황을 뒤흔들고 있다.

전통적으로 LLM(대형 언어 모델)의 성공은 매개변수의 수, 즉 본질적으로 모델의 언어 이해를 알리는 구성 요소의 수와 연결되어 왔습니다.

모든 사람의 컴퓨팅 비용과 가용성을 고려하여 Microsoft Phi-3는 이러한 "전통적인" 접근 방식을 변경하기 위해 왔습니다.

Microsoft Phi-3 Mini는 주머니에 거대하게 들어갑니다.

현재 LLM 경쟁의 선두주자인 GPT-3.5는 무려 175억 개의 매개변수를 자랑합니다. 이 엄청난 숫자를 통해 GPT-3.5는 방대한 양의 텍스트 데이터를 처리하여 언어에 대한 광범위하고 미묘한 이해를 제공합니다. 그러나 이러한 복잡성에는 비용도 따릅니다. 매개변수 수가 이렇게 많은 모델을 실행하려면 상당한 계산 리소스가 필요하므로 비용이 많이 들고 전력도 많이 소모됩니다.

반면에 Microsoft의 미니 모델은 다른 접근 방식을 취합니다. 훨씬 더 작은 매개변수 세트(단지 3.8억 개)를 활용함으로써 Phi-3 Mini는 더 큰 매개변수를 능가하는 수준의 효율성으로 작동합니다. 이러한 크기 감소는 여러 가지 이점으로 이어집니다.

이 모든 것이 Microsoft Phi-3을 만듭니다.

  • 실행 비용이 훨씬 저렴합니다.
  • 온디바이스 AI 애플리케이션을 위한 잠재적인 강자

Phi-3 Mini의 훈련 방법

Phi-3 Mini의 또 다른 흥미로운 측면은 훈련 방법입니다.

방대한 양의 텍스트와 코드 데이터세트로 교육을 받은 대규모 경쟁업체와 달리 Phi-3 Mini의 교육에는 보다 엄선된 선택이 포함되었습니다. 연구원들은 아동 도서를 기초로 삼아 아이들이 배우는 방식에 영감을 받은 커리큘럼을 선택했습니다.

이러한 접근 방식은 긍정적인 결과를 가져온 것으로 보입니다. Phi-3 Mini는 GPT-3.5에 필적하는 성능을 보여주었습니다. 여러 벤치마크.

마이크로소프트 Phi-3 LLM
3.8억 개의 매개변수만으로 Phi-3 Mini는 비용 효율성과 기기 성능 측면에서 대형 모델보다 성능이 뛰어납니다. (이미지 크레딧)

성공을 위한 벤치마킹

Microsoft 연구자들은 LLM에 대해 확립된 벤치마크를 사용하여 새로운 모델을 시험해 보았습니다. 이 모델은 MMLU(언어의 복잡한 관계를 이해하는 모델의 능력 측정) 및 MT-bench(기계 번역 기능 테스트)와 같은 측정항목에서 인상적인 점수를 획득했습니다.

이러한 결과는 Phi-3 Mini가 크기에도 불구하고 LLM 게임에서 유명 기업과 경쟁할 수 있음을 시사합니다.

어떻게 그렇게 인상적인 결과를 얻을 수 있습니까?

Phi-3 Mini의 기술적 세부 사항은 매우 작은 모델 크기로 인상적인 결과를 달성하는 매혹적인 접근 방식을 보여줍니다. 주요 측면을 분석하면 다음과 같습니다.

변압기 디코더 아키텍처

Phi-3 Mini는 효과적인 언어 모델을 위해 널리 사용되는 설계 선택인 변환기 디코더 아키텍처를 활용합니다. 이 아키텍처는 텍스트와 같은 순차적 데이터를 처리하는 데 탁월하므로 모델이 문장 내 단어 간의 관계를 이해할 수 있습니다.

컨텍스트 길이

표준 Phi-3 Mini는 4,000개 토큰의 컨텍스트 길이로 작동합니다. 이는 텍스트를 생성할 때 모델이 고려하는 토큰(단어 또는 단어의 일부)의 최대 수를 정의합니다. 컨텍스트 길이가 길수록 이전 대화를 더 깊이 이해할 수 있지만 더 많은 처리 능력이 필요합니다.

긴 컨텍스트 버전(Phi-3-Mini-128K)

더 넓은 컨텍스트가 필요한 작업의 경우 Phi-3-Mini-128K라는 변형을 사용할 수 있습니다. 이 버전은 컨텍스트 길이를 무려 128,000개의 토큰으로 확장하여 더 복잡한 정보 시퀀스를 처리할 수 있게 해줍니다.

기존 도구와의 호환성

개발자 커뮤니티에 혜택을 주기 위해 Phi-3 Mini는 Llama-320,641 모델 제품군과 유사한 구조 및 어휘 크기(2)를 공유합니다. 이러한 호환성을 통해 개발자는 Phi-2 Mini로 작업할 때 Llama-3용으로 설계된 기존 도구와 라이브러리를 활용할 수 있습니다.

모델 매개 변수

Phi-3 Mini가 진정으로 빛나는 곳은 바로 여기입니다. 3.072억 3.5만 개의 매개변수만으로 GPT-175와 같은 대형 모델(XNUMX억 개의 매개변수)에서 볼 수 있는 엄청난 숫자보다 훨씬 낮게 작동합니다.

이러한 매개변수의 대폭적인 감소는 처리 능력 및 메모리 사용량 측면에서 탁월한 효율성을 제공합니다.

Microsoft의 Saif Naik은 다음과 같이 설명합니다.

“Krishi Mitra 부조종사를 사용하는 우리의 목표는 대규모 언어 모델의 정확성을 유지하면서 효율성을 높이는 것입니다. 효율성과 정확성이라는 두 가지 목표를 모두 달성하기 위해 미세 조정된 Phi-3 버전을 사용하여 Microsoft와 협력하게 된 것을 기쁘게 생각합니다!”

– Saif Naik, ITCMAARS 기술 책임자

훈련 방법론

Phi-3 Mini의 교육은 "교과서가 필요한 모든 것" 접근 방식에서 영감을 얻습니다. 이 방법은 단순히 모델 크기를 확장하는 것보다 고품질 교육 데이터를 강조합니다. 교육 데이터는 특정 "교육 수준"이 있는 웹 소스와 다른 LLM에서 생성된 합성 데이터에 중점을 두고 신중하게 선별되었습니다.

이 전략을 통해 Phi-3 Mini는 작은 크기에도 불구하고 인상적인 결과를 얻을 수 있습니다.

최적의 학습을 위한 데이터 필터링

컴퓨팅 리소스나 과도한 교육을 우선시하는 기존 접근 방식과 달리 Phi-3 Mini는 규모에 맞는 "데이터 최적 체제"에 중점을 둡니다. 여기에는 적절한 수준의 "지식"이 포함되어 있는지 확인하고 추론 기술을 촉진하기 위해 웹 데이터를 꼼꼼하게 필터링하는 것이 포함됩니다.

예를 들어 모델의 추론 능력을 향상시키는 정보의 우선순위를 지정하기 위해 일반 스포츠 데이터를 제외할 수 있습니다.

훈련 후 미세 조정

핵심 훈련 과정을 마친 후 새 모델은 SFT(Supervised Fine-Tuning) 및 DPO(Direct Preferred Optimization)를 통해 추가 개선을 거칩니다. SFT는 수학, 코딩, 안전 원칙을 포함한 다양한 영역에 걸쳐 선별된 데이터에 모델을 노출합니다. DPO는 바람직하지 않은 출력을 식별하고 제외하여 모델이 원치 않는 동작을 방지하도록 도와줍니다.

이 훈련 후 단계는 Phi-3 Mini를 언어 모델에서 다양하고 안전한 AI 보조자로 변환합니다.

효율적인 기기 내 성능

Phi-3 Mini의 작은 크기는 뛰어난 기기 성능을 의미합니다. 모델을 4비트로 양자화하면 고작 1.8GB의 메모리만 차지합니다.

하늘에서 만든 성냥

마이크로소프트의 실패한 스마트폰 시도를 기억하시나요? 는 어때 Apple의 실패한 Google Gemini 통합 거래 최근 몇 달 동안? 아니면 Apple이 통합에 대해 목소리를 내고 있다는 소식을 듣고 계셨습니까? iOS 18을 사용한 기기 내 LLM 지난 몇 주 동안?

벨이 울리나요??

Phi-3 Mini의 잠재적인 응용 분야는 엄청납니다. 그 효율성 덕분에 모바일 장치에 통합하는 데 이상적이며 잠재적으로 더 스마트한 가상 비서 및 실시간 언어 번역과 같은 기능을 활성화할 수 있습니다. 또한, 비용 효율성은 다양한 AI 기반 프로젝트에 참여하는 개발자가 더 폭넓게 채택할 수 있는 기회를 열어줄 수 있습니다.

그리고 그것이 바로 Apple이 찾고 있던 것입니다. 물론 이 주장은 현재로선 추측에 불과하지만, '천생연분'이라고 해도 틀린 말은 아니다. 게다가 연구 논문에서는 마이크로소프트의 새로운 프로젝트가 이미 기본적으로 A16 Bionic 칩이 탑재된 iPhone에서 실행되었습니다..

마이크로소프트 Phi-3 LLM
Phi-3 Mini의 iOS 장치 호환성과 Apple의 최근 온디바이스 LLM 통합에 대한 관심을 고려하면 Microsoft와 Apple 간의 잠재적 협력에 대한 추측이 제기됩니다. (이미지 크레딧)

Phi-3 Mini의 성공은 적합한 아키텍처, 컨텍스트 길이의 효율적인 사용, 기존 도구와의 호환성, 고품질 교육 데이터에 대한 집중, 최적화 기술 등 여러 요소의 조합에 달려 있습니다. 이 독특한 접근 방식은 개인 장치에서 원활하게 작동할 수 있는 강력하고 효율적인 AI 모델을 위한 길을 열어줍니다.


추천 이미지 크레딧: Vecstock/Freepik

spot_img

최신 인텔리전스

spot_img