제퍼넷 로고

금융 분야를 위한 효율적이고 지속적인 사전 교육 LLM | 아마존 웹 서비스

시간

LLM(대형 언어 모델)은 일반적으로 도메인에 구애받지 않고 공개적으로 사용 가능한 대규모 데이터 세트에 대해 학습됩니다. 예를 들어, 메타의 라마 모델은 다음과 같은 데이터 세트에 대해 훈련됩니다. 커먼크롤링, C4, 위키피디아 및 ArXiv. 이러한 데이터 세트는 광범위한 주제와 도메인을 포함합니다. 결과 모델은 텍스트 생성 및 엔터티 인식과 같은 일반 작업에 대해 놀라울 정도로 좋은 결과를 제공하지만 도메인별 데이터 세트로 훈련된 모델이 LLM 성능을 더욱 향상시킬 수 있다는 증거가 있습니다. 예를 들어, 다음에 사용되는 훈련 데이터는 다음과 같습니다. 블룸버그GPT 금융 뉴스, 서류, 기타 금융 자료를 포함한 도메인별 문서가 51%입니다. 결과 LLM은 재무 관련 작업에 대해 테스트할 때 도메인이 아닌 특정 데이터 세트에 대해 훈련된 LLM보다 성능이 뛰어납니다. 저자 블룸버그GPT 그들의 모델은 60가지 재무 작업 중 100가지에 대해 테스트된 다른 모든 모델보다 성능이 뛰어나다는 결론을 내렸습니다. 이 모델은 Bloomberg의 내부 재무 업무에 대해 테스트했을 때 훨씬 더 나은 성능을 제공했습니다(XNUMX점 만점에 최대 XNUMX점 향상). 종합평가 결과에 대한 자세한 내용은 종이, 다음 샘플은 블룸버그GPT 논문을 통해 금융 분야별 데이터를 사용하여 LLM 교육의 이점을 엿볼 수 있습니다. 예에서 볼 수 있듯이 BloombergGPT 모델은 정답을 제공한 반면 다른 비영역 특정 모델은 어려움을 겪었습니다.

Input: CEO of Assicurazioni Generali?
BloombergGPT: Philippe Donnet
GPT-NeoX: Antonio De Lorenzo, Simone Gambarini, Enrico Zanetti
FLAN-T5-XXL: John M Forsyth, Christopher K Peters, {empty string}

Input: CEO of Silicon Valley Bank?
BloombergGPT: Greg Becker
GPT-NeoX: John Hodor, Mike Fridgen, Peter R Briger
FLAN-T5-XXL: Christian Klein, John M Forsyth, John M Forsyth

Input: CEO of IHS Markit Ltd?
BloombergGPT: Lance Uggla
GPT-NeoX: John F Lechleiter, David Steward, Niall O Broin
FLAN-T5-XXL: William M Hawkins, John M Forsyth, John M Forsyth
Input: CEO of Walgreens Boots Alliance?

BloombergGPT: Rosalind Brewer
GPT-NeoX: Mark V Dei, Stefano Pessina, Stefano Pessina
FLAN-T5-XXL: Christian Klein, John M Forsyth, John M Forsyth
Input: CEO of Citigroup Inc?

BloombergGPT: Jane Fraser
GPT-NeoX: Michael L Corbat, Michael L Corbat, Michael L Corbat
FLAN-T5-XXL: Christian Sewing, John M Forsyth, John M Forsyth

이 게시물은 특히 금융 분야에 대한 LLM 교육에 대한 가이드를 제공합니다. 우리는 다음과 같은 주요 영역을 다루고 있습니다:

  • 데이터 수집 및 준비 – 효과적인 모델 교육을 위한 관련 재무 데이터 소싱 및 선별에 대한 지침
  • 지속적인 사전 훈련과 미세 조정 – LLM 성과를 최적화하기 위해 각 기술을 사용해야 하는 경우
  • 효율적인 지속적인 사전 훈련 – 지속적인 사전 교육 프로세스를 간소화하여 시간과 자원을 절약하는 전략

이 게시물에서는 Amazon 금융 기술 내 응용 과학 연구 팀과 글로벌 금융 산업을 위한 AWS Worldwide Specialist 팀의 전문 지식을 한자리에 모았습니다. 일부 내용은 논문을 기반으로 작성되었습니다. 도메인별 대형 언어 모델 구축을 위한 효율적인 지속적 사전 학습.

금융 데이터 수집 및 준비

도메인의 지속적인 사전 학습에는 대규모의 고품질 도메인별 데이터 세트가 필요합니다. 다음은 도메인 데이터 세트 큐레이션의 주요 단계입니다.

  • 데이터 소스 식별 – 도메인 코퍼스의 잠재적인 데이터 소스에는 오픈 웹, Wikipedia, 서적, 소셜 미디어 및 내부 문서가 포함됩니다.
  • 도메인 데이터 필터 – 궁극적인 목표는 도메인 코퍼스를 선별하는 것이므로 대상 도메인과 관련 없는 샘플을 필터링하기 위해 추가 단계를 적용해야 할 수도 있습니다. 이를 통해 지속적인 사전 훈련을 위한 불필요한 코퍼스를 줄이고 훈련 비용을 절감합니다.
  • 전처리 – 데이터 품질과 훈련 효율성을 향상시키기 위해 일련의 전처리 단계를 고려할 수 있습니다. 예를 들어 특정 데이터 소스에는 상당한 수의 시끄러운 토큰이 포함될 수 있습니다. 중복 제거는 데이터 품질을 향상하고 교육 비용을 줄이는 데 유용한 단계로 간주됩니다.

금융 LLM을 개발하려면 News CommonCrawl 및 SEC 서류라는 두 가지 중요한 데이터 소스를 사용할 수 있습니다. SEC 서류는 미국 증권거래위원회(SEC)에 제출된 재무제표 또는 기타 공식 문서입니다. 상장회사는 정기적으로 각종 서류를 제출해야 합니다. 이로 인해 수년에 걸쳐 수많은 문서가 생성됩니다. 뉴스 CommonCrawl은 CommonCrawl이 2016년에 공개한 데이터 세트입니다. 여기에는 전 세계 뉴스 사이트의 뉴스 기사가 포함되어 있습니다.

뉴스 CommonCrawl은 다음에서 볼 수 있습니다. 아마존 단순 스토리지 서비스 (아마존 S3) commoncrawl 양동이 crawl-data/CC-NEWS/. 다음을 사용하여 파일 목록을 얻을 수 있습니다. AWS 명령 줄 인터페이스 (AWS CLI) 및 다음 명령:

aws s3 ls --recursive s3://commoncrawl/crawl-data/CC-NEWS/

In 도메인별 대형 언어 모델 구축을 위한 효율적인 지속적 사전 학습에서 저자는 URL 및 키워드 기반 접근 방식을 사용하여 일반 뉴스에서 금융 뉴스 기사를 필터링합니다. 특히 저자는 중요한 금융 뉴스 매체 목록과 금융 뉴스와 관련된 키워드 세트를 관리합니다. 기사가 금융 뉴스 매체에서 제공되거나 URL에 키워드가 표시되면 기사를 금융 뉴스로 식별합니다. 이 간단하면서도 효과적인 접근 방식을 사용하면 금융 뉴스 매체뿐만 아니라 일반 뉴스 매체의 금융 섹션에서도 금융 뉴스를 식별할 수 있습니다.

SEC 서류는 공개 데이터 액세스를 제공하는 SEC의 EDGAR(전자 데이터 수집, 분석 및 검색) 데이터베이스를 통해 온라인으로 제공됩니다. EDGAR에서 파일링을 직접 긁어내거나 다음에서 API를 사용할 수 있습니다. 아마존 세이지 메이커 몇 줄의 코드로 일정 기간 동안 많은 수의 티커(예: SEC 할당 식별자)에 대해 사용할 수 있습니다. 자세한 내용은 다음을 참조하세요. SEC 서류 검색.

다음 표에는 두 데이터 원본의 주요 세부 정보가 요약되어 있습니다.

. 뉴스 CommonCrawl SEC 파일링
적용 범위 2016-2022 1993-2022
크기 25.8억 단어 5.1억 단어

저자는 데이터가 훈련 알고리즘에 입력되기 전에 몇 가지 추가 전처리 단계를 거칩니다. 첫째, SEC 서류에는 표와 그림이 제거되어 시끄러운 텍스트가 포함되어 있으므로 저자는 표나 그림 레이블로 간주되는 짧은 문장을 제거했습니다. 둘째, 지역에 민감한 해싱 알고리즘을 적용하여 새 기사와 서류의 중복을 제거합니다. SEC 제출의 경우 문서 수준이 아닌 섹션 수준에서 중복을 제거합니다. 마지막으로 문서를 긴 문자열로 연결하고 이를 토큰화한 후 훈련할 모델이 지원하는 최대 입력 길이의 조각으로 토큰화를 청크합니다. 이를 통해 지속적인 사전 훈련의 처리량이 향상되고 훈련 비용이 절감됩니다.

지속적인 사전 훈련과 미세 조정

대부분의 LLM은 범용이며 도메인별 능력이 부족합니다. 도메인 LLM은 의료, 금융 또는 과학 분야에서 상당한 성과를 보여왔습니다. LLM이 도메인별 지식을 습득하는 데에는 처음부터 교육, 지속적인 사전 교육, 도메인 작업에 대한 지침 미세 조정 및 RAG(검색 증강 생성)의 네 가지 방법이 있습니다.

기존 모델에서 미세 조정은 일반적으로 도메인에 대한 작업별 모델을 만드는 데 사용됩니다. 이는 엔터티 추출, 의도 분류, 감정 분석 또는 질문 답변과 같은 여러 작업에 대해 여러 모델을 유지하는 것을 의미합니다. LLM의 출현으로 상황 내 학습 또는 프롬프트와 같은 기술을 사용하여 별도의 모델을 유지해야 할 필요성이 더 이상 필요하지 않게 되었습니다. 이렇게 하면 관련되어 있지만 서로 다른 작업을 위해 모델 스택을 유지하는 데 필요한 노력이 절약됩니다.

직관적으로 도메인별 데이터를 사용하여 처음부터 LLM을 교육할 수 있습니다. 도메인 LLM을 생성하는 대부분의 작업은 처음부터 교육에 중점을 두었지만 비용이 엄청나게 많이 듭니다. 예를 들어, GPT-4 모델 비용 $ 100 백만 이상 훈련하다. 이러한 모델은 개방형 도메인 데이터와 도메인 데이터를 혼합하여 학습됩니다. 지속적인 사전 훈련은 도메인 데이터에 대해서만 기존 개방형 도메인 LLM을 사전 훈련하기 때문에 모델이 처음부터 사전 훈련 비용을 발생시키지 않고 도메인별 지식을 획득하는 데 도움이 될 수 있습니다.

작업에 대한 명령 미세 조정을 사용하면 LLM이 명령 미세 조정 데이터 세트에 포함된 도메인 정보만 획득하므로 모델이 도메인 지식을 획득하도록 할 수 없습니다. 명령어 미세 조정을 위한 매우 큰 데이터 세트를 사용하지 않는 한, 도메인 지식을 습득하는 것만으로는 충분하지 않습니다. 고품질 교육 데이터 세트를 소싱하는 것은 일반적으로 어려운 일이며, 이것이 LLM을 처음 사용하는 이유입니다. 또한 한 작업에 대한 명령어 미세 조정은 다른 작업의 성능에 영향을 미칠 수 있습니다(그림 1 참조). 이 종이). 그러나 지침 미세 조정은 사전 훈련 대안보다 비용 효율적입니다.

다음 그림은 기존 작업별 미세 조정을 비교합니다. LLM을 사용한 상황별 학습 패러다임과 비교됩니다.

RAG는 ​​LLM이 도메인에 기반을 둔 응답을 생성하도록 안내하는 가장 효과적인 방법입니다. 도메인의 사실을 보조 정보로 제공하여 응답을 생성하도록 모델을 안내할 수 있지만, LLM이 응답을 생성하기 위해 여전히 비도메인 언어 스타일에 의존하고 있기 때문에 도메인별 언어를 습득하지 못합니다.

지속적인 사전 훈련은 비용 측면에서 사전 훈련과 교육 미세 조정 사이의 중간 지점이자 영역별 지식과 스타일을 얻는 데 대한 강력한 대안입니다. 제한된 명령 데이터에 대한 추가 명령 미세 조정이 수행될 수 있는 일반 모델을 제공할 수 있습니다. 지속적인 사전 훈련은 다운스트림 작업 세트가 크거나 알 수 없고 레이블이 지정된 명령 튜닝 데이터가 제한되는 특수 영역에 대한 비용 효율적인 전략이 될 수 있습니다. 다른 시나리오에서는 명령 미세 조정 또는 RAG가 더 적합할 수 있습니다.

미세 조정, RAG 및 모델 훈련에 대해 자세히 알아보려면 다음을 참조하세요. 기초 모델 미세 조정, 검색 증강 생성(RAG)Amazon SageMaker로 모델 훈련, 각각. 이 게시물에서는 효율적이고 지속적인 사전 훈련에 중점을 둡니다.

효율적인 지속적인 사전 훈련 방법론

지속적인 사전 훈련은 다음 방법론으로 구성됩니다.

  • 도메인 적응형 지속적 사전 학습(DACP) – 신문에 도메인별 대형 언어 모델 구축을 위한 효율적인 지속적 사전 학습, 저자는 금융 코퍼스에서 Pythia 언어 모델 제품군을 지속적으로 사전 훈련하여 금융 도메인에 적용합니다. 목표는 전체 금융 영역의 데이터를 오픈 소스 모델에 공급하여 금융 LLM을 만드는 것입니다. 학습 코퍼스에는 해당 도메인에서 선별된 모든 데이터 세트가 포함되어 있으므로 결과 모델은 금융 관련 지식을 습득하여 다양한 금융 작업에 대한 다목적 모델이 되어야 합니다. 결과적으로 FinPythia 모델이 생성됩니다.
  • 작업 적응형 지속적 사전 훈련(TACP) – 저자는 특정 작업에 맞게 모델을 조정하기 위해 레이블이 지정된 작업 데이터와 레이블이 지정되지 않은 작업 데이터에 대해 모델을 추가로 사전 훈련합니다. 특정 상황에서 개발자는 도메인 일반 모델보다는 도메인 내 작업 그룹에서 더 나은 성능을 제공하는 모델을 선호할 수 있습니다. TACP는 레이블이 지정된 데이터에 대한 요구 사항 없이 목표 작업의 성능을 향상시키는 것을 목표로 하는 지속적인 사전 교육으로 설계되었습니다. 특히 저자는 작업 토큰(레이블 없음)에 대한 오픈 소스 모델을 지속적으로 사전 교육합니다. TACP의 주요 한계는 훈련을 위해 레이블이 지정되지 않은 작업 데이터만 사용하기 때문에 기초 LLM 대신 작업별 LLM을 구성하는 데 있습니다. DACP는 훨씬 더 큰 자료를 사용하지만 엄청나게 비쌉니다. 이러한 제한 사항의 균형을 맞추기 위해 저자는 대상 작업에서 우수한 성능을 유지하면서 도메인별 기반 LLM을 구축하는 것을 목표로 하는 두 가지 접근 방식을 제안합니다.
  • 효율적인 작업 - 유사 DACP(ETS-DACP) – 저자는 임베딩 유사성을 사용하여 작업 데이터와 매우 유사한 금융 코퍼스의 하위 집합을 선택할 것을 제안합니다. 이 하위 집합은 보다 효율적으로 만들기 위해 지속적인 사전 훈련에 사용됩니다. 특히 저자는 배포 대상 작업에 가까운 금융 코퍼스에서 추출한 작은 코퍼스에 대해 오픈 소스 LLM을 지속적으로 사전 교육합니다. 이는 레이블이 지정된 데이터가 필요하지 않음에도 불구하고 작업 토큰 배포에 모델을 채택하기 때문에 작업 성능을 향상시키는 데 도움이 될 수 있습니다.
  • 효율적인 작업 독립적 DACP(ETA-DACP) – 저자는 효율적인 연속 사전 훈련을 위해 금융 코퍼스에서 샘플을 선택하기 위해 작업 데이터가 필요하지 않은 복잡성 및 토큰 유형 엔트로피와 같은 측정항목을 사용할 것을 제안합니다. 이 접근 방식은 작업 데이터를 사용할 수 없거나 더 넓은 도메인에 대한 보다 다양한 도메인 모델이 선호되는 시나리오를 처리하도록 설계되었습니다. 저자는 사전 훈련 도메인 데이터의 하위 집합에서 도메인 정보를 얻는 데 중요한 데이터 샘플을 선택하기 위해 참신함과 다양성이라는 두 가지 차원을 채택했습니다. 대상 모델이 기록한 난해함으로 측정되는 참신함은 이전에 LLM에서 볼 수 없었던 정보를 의미합니다. 참신성이 높은 데이터는 LLM에 대한 새로운 지식을 나타내며 이러한 데이터는 학습하기 더 어려운 것으로 간주됩니다. 이는 지속적인 사전 교육 중에 집중적인 도메인 지식으로 일반 LLM을 업데이트합니다. 반면, 다양성은 도메인 코퍼스에서 토큰 유형의 분포 다양성을 포착하며, 이는 언어 모델링에 대한 커리큘럼 학습 연구에서 유용한 기능으로 문서화되었습니다.

다음 그림은 ETS-DACP(왼쪽)와 ETA-DACP(오른쪽)의 예를 비교합니다.

우리는 선별된 재무 자료에서 데이터 포인트를 적극적으로 선택하기 위해 하드 샘플링과 소프트 샘플링이라는 두 가지 샘플링 방식을 채택합니다. 전자는 먼저 해당 측정 항목에 따라 재무 자료의 순위를 매긴 다음 상위 k 샘플을 선택하여 수행됩니다. 여기서 k는 훈련 예산에 따라 미리 결정됩니다. 후자의 경우 저자는 메트릭 값에 따라 각 데이터 포인트에 샘플링 가중치를 할당한 다음 훈련 예산을 충족하기 위해 k개의 데이터 포인트를 무작위로 샘플링합니다.

결과 및 분석

저자는 지속적인 사전 교육의 효율성을 조사하기 위해 다양한 재무 작업에 대한 결과 재무 LLM을 평가합니다.

  • 금융 문구 은행 – 금융 뉴스에 대한 감정 분류 작업.
  • FiQA SA – 금융 뉴스 및 헤드라인을 기반으로 한 측면 기반 감정 분류 작업입니다.
  • 표제 – 금융 기관의 헤드라인에 특정 정보가 포함되어 있는지 여부에 대한 이진 분류 작업입니다.
  • NER – SEC 보고서의 신용 위험 평가 섹션을 기반으로 하는 금융 명명 개체 추출 작업입니다. 이 작업의 단어에는 PER, LOC, ORG 및 MISC라는 주석이 붙어 있습니다.

금융 LLM은 세부적으로 조정된 교육이므로 저자는 견고성을 위해 각 작업에 대해 5단계 설정으로 모델을 평가합니다. 평균적으로 FinPythia 6.9B는 6.9가지 작업에서 Pythia 10B보다 1% 더 나은 성능을 발휘하며, 이는 도메인별 지속적인 사전 학습의 효율성을 보여줍니다. 2B 모델의 경우 개선 정도가 덜하지만 성능은 여전히 ​​평균 XNUMX% 향상됩니다.

다음 그림은 두 모델 모두 DACP 전후의 성능 차이를 보여줍니다.

다음 그림은 Pythia 6.9B와 FinPythia 6.9B에서 생성된 두 가지 정성적 예를 보여줍니다. 투자자 관리자 및 재정 조건에 관한 두 가지 재정 관련 질문의 경우 Pythia 6.9B는 용어를 이해하지 못하거나 이름을 인식하지 못하는 반면, FinPythia 6.9B는 자세한 답변을 올바르게 생성합니다. 질적 사례는 지속적인 사전 교육을 통해 LLM이 프로세스 중에 도메인 지식을 습득할 수 있음을 보여줍니다.

다음 표에서는 다양한 효율적인 연속 사전 학습 접근 방식을 비교합니다. ETA-DACP-ppl은 Perplexity(새로움)를 기반으로 한 ETA-DACP이고, ETA-DACP-ent는 Entropy(다양성)를 기반으로 합니다. ETS-DACP-com은 세 가지 지표를 모두 평균하여 데이터를 선택하는 DACP와 유사합니다. 다음은 결과에서 얻을 수 있는 몇 가지 시사점입니다.

  • 데이터 선택 방법이 효율적입니다. – 단 10%의 훈련 데이터만으로 표준 연속 사전 훈련을 능가합니다. 작업 유사 DACP(ETS-DACP), 엔트로피 기반 작업 불가지론 DACP(ESA-DACP-ent) 및 세 가지 측정 항목 모두를 기반으로 하는 작업 유사 DACP(ETS-DACP-com)를 포함한 효율적인 연속 사전 훈련은 표준 DACP보다 성능이 뛰어납니다. 그들은 금융 자료의 10%만 훈련받았음에도 불구하고 평균적으로 그렇습니다.
  • 작업 인식 데이터 선택은 소규모 언어 모델 연구에 가장 적합합니다. – ETS-DACP는 모든 방법 중에서 가장 좋은 평균 성능을 기록하고 세 가지 지표를 모두 기반으로 두 번째로 좋은 작업 성능을 기록합니다. 이는 레이블이 지정되지 않은 작업 데이터를 사용하는 것이 LLM의 경우 작업 성능을 향상시키는 효과적인 접근 방식임을 시사합니다.
  • 작업에 구애받지 않는 데이터 선택이 두 번째로 가깝습니다. – ESA-DACP-ent는 작업 인식 데이터 선택 접근 방식의 성능을 따르며, 이는 특정 작업과 관련되지 않은 고품질 샘플을 적극적으로 선택하여 작업 성능을 향상시킬 수 있음을 의미합니다. 이는 우수한 작업 성과를 달성하면서 전체 도메인에 대한 금융 LLM을 구축할 수 있는 길을 열어줍니다.

지속적인 사전 훈련에 관한 한 가지 중요한 질문은 그것이 비영역 작업의 성능에 부정적인 영향을 미치는지 여부입니다. 저자는 또한 질문 답변, 추론 및 완성 능력을 측정하는 널리 사용되는 4가지 일반 작업인 ARC, MMLU, TruthQA 및 HellaSwag에 대해 지속적으로 사전 훈련된 모델을 평가합니다. 저자는 지속적인 사전 훈련이 비영역 성능에 부정적인 영향을 미치지 않는다는 것을 발견했습니다. 자세한 내용은 다음을 참조하세요. 도메인별 대형 언어 모델 구축을 위한 효율적인 지속적 사전 학습.

결론

이 게시물은 금융 분야의 LLM 교육을 위한 데이터 수집 및 지속적인 사전 교육 전략에 대한 통찰력을 제공했습니다. 다음을 사용하여 재무 업무에 대한 자체 LLM 교육을 시작할 수 있습니다. Amazon SageMaker 교육 or 아마존 기반암 .


저자에 관하여

용시에 Amazon FinTech의 응용 과학자입니다. 그는 금융을 위한 대규모 언어 모델 및 생성적 AI 애플리케이션 개발에 중점을 두고 있습니다.

카란 아가르왈 금융 사용 사례를 위한 생성 AI에 중점을 두고 있는 Amazon FinTech의 수석 응용 과학자입니다. Karan은 시계열 분석 및 NLP 분야에서 광범위한 경험을 보유하고 있으며 제한된 레이블이 지정된 데이터로부터 학습하는 데 특히 관심이 있습니다.

아이차즈 아마드 그는 Amazon의 응용 과학 관리자로서 금융 분야의 기계 학습 및 생성 AI의 다양한 애플리케이션을 구축하는 과학자 팀을 이끌고 있습니다. 그의 연구 관심 분야는 NLP, Generative AI 및 LLM 에이전트입니다. 그는 텍사스 A&M 대학교에서 전기공학 박사 학위를 받았습니다.

칭 웨이 리 Amazon Web Services의 기계 학습 전문가입니다. 그는 박사 학위를 받았습니다. 그는 고문의 연구비 계좌를 파기하고 약속한 노벨상을 수여하지 못한 후 운영 연구 분야에서 일했습니다. 현재 그는 금융 서비스 고객이 AWS에서 기계 학습 솔루션을 구축하도록 돕고 있습니다.

라그벤더 아르니 AWS 산업 내에서 CAT(고객 가속화 팀)을 이끌고 있습니다. CAT는 고객을 상대하는 클라우드 설계자, 소프트웨어 엔지니어, 데이터 과학자, AI/ML 전문가 및 디자이너로 구성된 글로벌 다기능 팀으로, 고급 프로토타입 제작을 통해 혁신을 주도하고 전문 기술 전문 지식을 통해 클라우드 운영 우수성을 주도합니다.

spot_img

최신 인텔리전스

spot_img