Logo Zephyrnet

LLM đào tạo trước liên tục hiệu quả cho lĩnh vực tài chính | Dịch vụ web của Amazon

Ngày:

Các mô hình ngôn ngữ lớn (LLM) thường được đào tạo trên các bộ dữ liệu lớn có sẵn công khai có tính bất khả tri về miền. Ví dụ, Llama của Meta các mô hình được đào tạo trên các bộ dữ liệu như Thu thập thông tin chung, C4, Wikipedia và arXiv. Những bộ dữ liệu này bao gồm nhiều chủ đề và lĩnh vực khác nhau. Mặc dù các mô hình thu được mang lại kết quả cực kỳ tốt cho các tác vụ chung, chẳng hạn như tạo văn bản và nhận dạng thực thể, nhưng có bằng chứng cho thấy các mô hình được đào tạo với bộ dữ liệu theo miền cụ thể có thể cải thiện hơn nữa hiệu suất LLM. Ví dụ: dữ liệu huấn luyện được sử dụng cho BloombergGPT là 51% tài liệu dành riêng cho từng miền, bao gồm tin tức tài chính, hồ sơ và các tài liệu tài chính khác. Kết quả LLM vượt trội hơn các LLM được đào tạo trên các tập dữ liệu không thuộc miền cụ thể khi được thử nghiệm trên các nhiệm vụ cụ thể về tài chính. Các tác giả của BloombergGPT kết luận rằng mô hình của họ vượt trội hơn tất cả các mô hình khác được thử nghiệm cho bốn trong năm nhiệm vụ tài chính. Mô hình này thậm chí còn mang lại hiệu quả hoạt động tốt hơn khi được thử nghiệm cho các nhiệm vụ tài chính nội bộ của Bloomberg với tỷ lệ chênh lệch lớn—tốt hơn tới 60 điểm (trên 100). Mặc dù bạn có thể tìm hiểu thêm về kết quả đánh giá toàn diện trong giấy, mẫu sau được lấy từ BloombergGPT bài viết có thể cung cấp cho bạn cái nhìn thoáng qua về lợi ích của việc đào tạo LLM bằng cách sử dụng dữ liệu cụ thể theo miền tài chính. Như trong ví dụ, mô hình BloombergGPT đã cung cấp câu trả lời chính xác trong khi các mô hình không dành riêng cho miền khác gặp khó khăn:

Input: CEO of Assicurazioni Generali?
BloombergGPT: Philippe Donnet
GPT-NeoX: Antonio De Lorenzo, Simone Gambarini, Enrico Zanetti
FLAN-T5-XXL: John M Forsyth, Christopher K Peters, {empty string}

Input: CEO of Silicon Valley Bank?
BloombergGPT: Greg Becker
GPT-NeoX: John Hodor, Mike Fridgen, Peter R Briger
FLAN-T5-XXL: Christian Klein, John M Forsyth, John M Forsyth

Input: CEO of IHS Markit Ltd?
BloombergGPT: Lance Uggla
GPT-NeoX: John F Lechleiter, David Steward, Niall O Broin
FLAN-T5-XXL: William M Hawkins, John M Forsyth, John M Forsyth
Input: CEO of Walgreens Boots Alliance?

BloombergGPT: Rosalind Brewer
GPT-NeoX: Mark V Dei, Stefano Pessina, Stefano Pessina
FLAN-T5-XXL: Christian Klein, John M Forsyth, John M Forsyth
Input: CEO of Citigroup Inc?

BloombergGPT: Jane Fraser
GPT-NeoX: Michael L Corbat, Michael L Corbat, Michael L Corbat
FLAN-T5-XXL: Christian Sewing, John M Forsyth, John M Forsyth

Bài đăng này cung cấp hướng dẫn đào tạo LLM dành riêng cho lĩnh vực tài chính. Chúng tôi bao gồm các lĩnh vực chính sau:

  • Thu thập và chuẩn bị dữ liệu – Hướng dẫn tìm nguồn và quản lý dữ liệu tài chính liên quan để đào tạo mô hình hiệu quả
  • Liên tục đào tạo trước và tinh chỉnh – Khi nào nên sử dụng từng kỹ thuật để tối ưu hóa hiệu suất LLM của bạn
  • Đào tạo trước liên tục hiệu quả – Các chiến lược hợp lý hóa quá trình đào tạo trước liên tục, tiết kiệm thời gian và nguồn lực

Bài đăng này tập hợp kiến ​​thức chuyên môn của nhóm nghiên cứu khoa học ứng dụng trong Công nghệ tài chính Amazon và nhóm Chuyên gia toàn cầu của AWS cho ngành tài chính toàn cầu. Một số nội dung dựa trên bài báo Đào tạo trước liên tục hiệu quả để xây dựng các mô hình ngôn ngữ lớn dành riêng cho miền.

Thu thập và chuẩn bị dữ liệu tài chính

Việc đào tạo trước liên tục cho miền cần có một tập dữ liệu dành riêng cho miền, có chất lượng cao, quy mô lớn. Sau đây là các bước chính để quản lý tập dữ liệu tên miền:

  • Xác định nguồn dữ liệu – Các nguồn dữ liệu tiềm năng cho kho ngữ liệu tên miền bao gồm web mở, Wikipedia, sách, phương tiện truyền thông xã hội và tài liệu nội bộ.
  • Bộ lọc dữ liệu tên miền – Vì mục tiêu cuối cùng là quản lý kho ngữ liệu miền nên bạn có thể cần áp dụng các bước bổ sung để lọc ra các mẫu không liên quan đến miền mục tiêu. Điều này làm giảm kho ngữ liệu vô ích cho việc đào tạo trước liên tục và giảm chi phí đào tạo.
  • Sơ chế – Bạn có thể xem xét một loạt các bước tiền xử lý để cải thiện chất lượng dữ liệu và hiệu quả đào tạo. Ví dụ: một số nguồn dữ liệu nhất định có thể chứa số lượng mã thông báo nhiễu khá lớn; chống trùng lặp được coi là một bước hữu ích để cải thiện chất lượng dữ liệu và giảm chi phí đào tạo.

Để phát triển LLM tài chính, bạn có thể sử dụng hai nguồn dữ liệu quan trọng: hồ sơ News CommonCrawl và SEC. Hồ sơ của SEC là một báo cáo tài chính hoặc tài liệu chính thức khác được nộp cho Ủy ban Chứng khoán và Giao dịch Hoa Kỳ (SEC). Các công ty niêm yết công khai được yêu cầu phải nộp nhiều tài liệu khác nhau thường xuyên. Điều này tạo ra một số lượng lớn các tài liệu trong những năm qua. News CommonCrawl là tập dữ liệu được CommonCrawl phát hành vào năm 2016. Nó chứa các bài viết tin tức từ các trang tin tức trên toàn thế giới.

Tin tức CommonCrawl có sẵn trên Dịch vụ lưu trữ đơn giản của Amazon (Amazon S3) trong commoncrawl xô tại crawl-data/CC-NEWS/. Bạn có thể lấy danh sách các tập tin bằng cách sử dụng Giao diện dòng lệnh AWS (AWS CLI) và lệnh sau:

aws s3 ls --recursive s3://commoncrawl/crawl-data/CC-NEWS/

In Đào tạo trước liên tục hiệu quả để xây dựng các mô hình ngôn ngữ lớn dành riêng cho miền, các tác giả sử dụng URL và cách tiếp cận dựa trên từ khóa để lọc các bài báo tài chính khỏi những tin tức chung chung. Cụ thể, các tác giả duy trì một danh sách các kênh tin tức tài chính quan trọng và một bộ từ khóa liên quan đến tin tức tài chính. Chúng tôi xác định một bài viết là tin tức tài chính nếu bài viết đó đến từ các kênh tin tức tài chính hoặc bất kỳ từ khóa nào hiển thị trong URL. Cách tiếp cận đơn giản nhưng hiệu quả này cho phép bạn xác định tin tức tài chính không chỉ từ các hãng tin tài chính mà còn từ các phần tài chính của các hãng tin tức chung.

Hồ sơ của SEC có sẵn trực tuyến thông qua cơ sở dữ liệu EDGAR (Thu thập, Phân tích và Truy xuất Dữ liệu Điện tử) của SEC, nơi cung cấp quyền truy cập dữ liệu mở. Bạn có thể trích xuất trực tiếp các hồ sơ từ EDGAR hoặc sử dụng API trong Amazon SageMaker với một vài dòng mã, cho bất kỳ khoảng thời gian nào và cho một số lượng lớn mã cổ phiếu (tức là mã định danh được SEC chỉ định). Để tìm hiểu thêm, hãy tham khảo Truy xuất hồ sơ SEC.

Bảng sau đây tóm tắt các chi tiết chính của cả hai nguồn dữ liệu.

. Tin tức chungThu thập thông tin Nộp hồ sơ SEC
Bảo hiểm 2016-2022 1993-2022
Kích thước máy 25.8 tỷ từ 5.1 tỷ từ

Các tác giả thực hiện thêm một số bước tiền xử lý trước khi dữ liệu được đưa vào thuật toán huấn luyện. Đầu tiên, chúng tôi quan sát thấy hồ sơ của SEC chứa văn bản ồn ào do loại bỏ bảng và hình, vì vậy các tác giả loại bỏ các câu ngắn được coi là nhãn bảng hoặc hình. Thứ hai, chúng tôi áp dụng thuật toán băm nhạy cảm cục bộ để loại bỏ trùng lặp các bài viết và hồ sơ mới. Đối với hồ sơ SEC, chúng tôi loại bỏ trùng lặp ở cấp độ mục thay vì cấp độ tài liệu. Cuối cùng, chúng tôi ghép các tài liệu thành một chuỗi dài, mã hóa nó và chia mã thông báo thành các phần có độ dài đầu vào tối đa được mô hình đào tạo hỗ trợ. Điều này cải thiện thông lượng của quá trình đào tạo trước liên tục và giảm chi phí đào tạo.

Liên tục đào tạo trước và tinh chỉnh

Hầu hết các LLM có sẵn đều có mục đích chung và thiếu khả năng dành riêng cho miền. LLM miền đã cho thấy hiệu suất đáng kể trong các lĩnh vực y tế, tài chính hoặc khoa học. Để một LLM có được kiến ​​thức về miền cụ thể, có bốn phương pháp: đào tạo từ đầu, đào tạo trước liên tục, hướng dẫn tinh chỉnh các nhiệm vụ miền và Tạo tăng cường truy xuất (RAG).

Trong các mô hình truyền thống, việc tinh chỉnh thường được sử dụng để tạo các mô hình dành riêng cho nhiệm vụ cho một miền. Điều này có nghĩa là duy trì nhiều mô hình cho nhiều nhiệm vụ như trích xuất thực thể, phân loại ý định, phân tích cảm tính hoặc trả lời câu hỏi. Với sự ra đời của LLM, nhu cầu duy trì các mô hình riêng biệt đã trở nên lỗi thời khi sử dụng các kỹ thuật như nhắc nhở hoặc học tập trong ngữ cảnh. Điều này giúp tiết kiệm công sức cần thiết để duy trì một nhóm mô hình cho các nhiệm vụ liên quan nhưng riêng biệt.

Theo trực quan, bạn có thể đào tạo LLM từ đầu bằng dữ liệu theo miền cụ thể. Mặc dù hầu hết công việc tạo LLM miền đều tập trung vào đào tạo từ đầu nhưng nó cực kỳ tốn kém. Ví dụ: mô hình GPT-4 có giá hơn $ 100 triệu huấn luyện. Các mô hình này được đào tạo dựa trên sự kết hợp giữa dữ liệu miền mở và dữ liệu miền. Đào tạo trước liên tục có thể giúp các mô hình có được kiến ​​thức về miền cụ thể mà không phải chịu chi phí đào tạo trước từ đầu vì bạn đào tạo trước LLM miền mở hiện có chỉ trên dữ liệu miền.

Với hướng dẫn tinh chỉnh một tác vụ, bạn không thể làm cho mô hình thu được kiến ​​thức miền vì LLM chỉ thu thập thông tin miền có trong tập dữ liệu tinh chỉnh hướng dẫn. Trừ khi sử dụng một tập dữ liệu rất lớn để tinh chỉnh hướng dẫn, nếu không thì việc thu thập kiến ​​thức về miền là không đủ. Việc tìm nguồn cung cấp bộ dữ liệu hướng dẫn chất lượng cao thường là một thách thức và là lý do nên sử dụng LLM ngay từ đầu. Ngoài ra, việc tinh chỉnh hướng dẫn trên một tác vụ có thể ảnh hưởng đến hiệu suất của các tác vụ khác (như đã thấy trong bài viết này). Tuy nhiên, việc tinh chỉnh hướng dẫn sẽ tiết kiệm chi phí hơn so với các giải pháp thay thế trước đào tạo.

Hình dưới đây so sánh tinh chỉnh theo nhiệm vụ cụ thể truyền thống. so với mô hình học tập trong ngữ cảnh với LLM.

RAG là cách hiệu quả nhất để hướng dẫn LLM tạo ra phản hồi dựa trên một miền. Mặc dù nó có thể hướng dẫn mô hình tạo phản hồi bằng cách cung cấp thông tin thực tế từ miền làm thông tin phụ trợ, nhưng nó không thu được ngôn ngữ dành riêng cho miền vì LLM vẫn dựa vào kiểu ngôn ngữ ngoài miền để tạo phản hồi.

Đào tạo trước liên tục là nền tảng trung gian giữa đào tạo trước và tinh chỉnh hướng dẫn về mặt chi phí, đồng thời là một giải pháp thay thế mạnh mẽ để đạt được kiến ​​thức và phong cách cụ thể theo từng lĩnh vực. Nó có thể cung cấp một mô hình chung để có thể thực hiện việc tinh chỉnh thêm lệnh trên dữ liệu lệnh hạn chế. Đào tạo trước liên tục có thể là một chiến lược tiết kiệm chi phí cho các lĩnh vực chuyên biệt trong đó tập hợp các nhiệm vụ tiếp theo lớn hoặc không xác định và dữ liệu điều chỉnh lệnh được gắn nhãn bị hạn chế. Trong các trường hợp khác, việc tinh chỉnh lệnh hoặc RAG có thể phù hợp hơn.

Để tìm hiểu thêm về tinh chỉnh, RAG và đào tạo mô hình, hãy tham khảo Tinh chỉnh mô hình nền tảng, Truy xuất thế hệ tăng cường (RAG)Đào tạo người mẫu với Amazon SageMaker, tương ứng. Đối với bài đăng này, chúng tôi tập trung vào việc đào tạo trước liên tục một cách hiệu quả.

Phương pháp đào tạo trước liên tục hiệu quả

Đào tạo trước liên tục bao gồm các phương pháp sau:

  • Đào tạo trước liên tục thích ứng với miền (DACP) - Trong bài báo Đào tạo trước liên tục hiệu quả để xây dựng các mô hình ngôn ngữ lớn dành riêng cho miền, các tác giả liên tục huấn luyện trước bộ mô hình ngôn ngữ Pythia trên kho dữ liệu tài chính để điều chỉnh nó phù hợp với lĩnh vực tài chính. Mục tiêu là tạo LLM tài chính bằng cách cung cấp dữ liệu từ toàn bộ miền tài chính vào mô hình nguồn mở. Vì kho dữ liệu đào tạo chứa tất cả các tập dữ liệu được quản lý trong miền nên mô hình kết quả sẽ thu được kiến ​​thức cụ thể về tài chính, từ đó trở thành mô hình linh hoạt cho các nhiệm vụ tài chính khác nhau. Điều này dẫn đến các mô hình FinPythia.
  • Đào tạo trước liên tục thích ứng với nhiệm vụ (TACP) – Các tác giả đào tạo trước các mô hình thêm về dữ liệu nhiệm vụ được gắn nhãn và không được gắn nhãn để điều chỉnh chúng cho các nhiệm vụ cụ thể. Trong một số trường hợp nhất định, các nhà phát triển có thể thích các mô hình mang lại hiệu suất tốt hơn cho một nhóm tác vụ trong miền hơn là mô hình chung cho một miền. TACP được thiết kế dưới dạng đào tạo trước liên tục nhằm nâng cao hiệu suất thực hiện các nhiệm vụ được nhắm mục tiêu mà không yêu cầu dữ liệu được dán nhãn. Cụ thể, các tác giả liên tục đào tạo trước các mô hình nguồn mở trên mã thông báo nhiệm vụ (không có nhãn). Hạn chế chính của TACP nằm ở việc xây dựng LLM dành riêng cho nhiệm vụ thay vì LLM cơ bản, do việc sử dụng duy nhất dữ liệu nhiệm vụ không được gắn nhãn để đào tạo. Mặc dù DACP sử dụng kho dữ liệu lớn hơn nhiều nhưng nó cực kỳ tốn kém. Để cân bằng những hạn chế này, các tác giả đề xuất hai cách tiếp cận nhằm xây dựng LLM nền tảng cho từng miền cụ thể trong khi vẫn duy trì hiệu suất vượt trội đối với các nhiệm vụ mục tiêu:
  • DACP tương tự nhiệm vụ hiệu quả (ETS-DACP) – Các tác giả đề xuất lựa chọn một tập hợp con của kho dữ liệu tài chính có độ tương đồng cao với dữ liệu nhiệm vụ bằng cách sử dụng tính tương tự nhúng. Tập hợp con này được sử dụng để đào tạo trước liên tục nhằm làm cho nó hiệu quả hơn. Cụ thể, các tác giả liên tục đào tạo trước LLM nguồn mở trên một kho dữ liệu nhỏ được trích xuất từ ​​kho dữ liệu tài chính gần với các nhiệm vụ mục tiêu trong phân phối. Điều này có thể giúp cải thiện hiệu suất nhiệm vụ vì chúng tôi áp dụng mô hình phân phối mã thông báo nhiệm vụ mặc dù không yêu cầu dữ liệu được gắn nhãn.
  • DACP bất khả tri nhiệm vụ hiệu quả (ETA-DACP) – Các tác giả đề xuất sử dụng các số liệu như entropy loại mã thông báo và độ bối rối không yêu cầu dữ liệu nhiệm vụ để chọn mẫu từ kho dữ liệu tài chính nhằm đào tạo trước liên tục hiệu quả. Cách tiếp cận này được thiết kế để giải quyết các tình huống trong đó dữ liệu tác vụ không có sẵn hoặc các mô hình miền linh hoạt hơn cho miền rộng hơn được ưu tiên. Các tác giả áp dụng hai chiều để chọn các mẫu dữ liệu quan trọng để lấy thông tin miền từ một tập hợp con dữ liệu miền tiền đào tạo: tính mới và tính đa dạng. Tính mới, được đo bằng mức độ phức tạp được mô hình đích ghi lại, đề cập đến thông tin mà LLM chưa nhìn thấy trước đó. Dữ liệu có tính mới cao cho biết kiến ​​thức mới về LLM và dữ liệu đó được coi là khó học hơn. Điều này cập nhật các LLM chung với kiến ​​thức chuyên sâu về miền trong quá trình đào tạo trước liên tục. Mặt khác, tính đa dạng nắm bắt sự đa dạng trong phân phối các loại mã thông báo trong kho ngữ liệu, được ghi nhận là một tính năng hữu ích trong nghiên cứu chương trình học về mô hình hóa ngôn ngữ.

Hình dưới đây so sánh một ví dụ về ETS-DACP (trái) với ETA-DACP (phải).

Chúng tôi áp dụng hai phương án lấy mẫu để chủ động chọn các điểm dữ liệu từ kho dữ liệu tài chính được quản lý: lấy mẫu cứng và lấy mẫu mềm. Việc đầu tiên được thực hiện bằng cách xếp hạng tập tài liệu tài chính theo số liệu tương ứng và sau đó chọn các mẫu top-k, trong đó k được xác định trước theo ngân sách đào tạo. Về sau, các tác giả chỉ định trọng số lấy mẫu cho từng điểm dữ liệu theo các giá trị số liệu, sau đó lấy mẫu ngẫu nhiên k điểm dữ liệu để đáp ứng ngân sách đào tạo.

Kết quả và phân tích

Các tác giả đánh giá kết quả LLM tài chính dựa trên một loạt nhiệm vụ tài chính để điều tra tính hiệu quả của việc đào tạo trước liên tục:

  • Ngân hàng cụm từ tài chính – Nhiệm vụ phân loại tình cảm trên tin tức tài chính.
  • FiQA SA – Nhiệm vụ phân loại cảm tính dựa trên khía cạnh dựa trên tin tức và tiêu đề tài chính.
  • Headline – Nhiệm vụ phân loại nhị phân về việc tiêu đề của một thực thể tài chính có chứa thông tin nhất định hay không.
  • NER – Nhiệm vụ trích xuất đơn vị tài chính dựa trên phần đánh giá rủi ro tín dụng trong báo cáo của SEC. Các từ trong nhiệm vụ này được chú thích bằng PER, LOC, ORG và MISC.

Bởi vì LLM tài chính được hướng dẫn tinh chỉnh nên các tác giả đánh giá các mô hình theo cài đặt 5 lần cho mỗi nhiệm vụ vì mục đích mạnh mẽ. Trung bình, FinPythia 6.9B vượt trội hơn Pythia 6.9B 10% trong bốn nhiệm vụ, điều này chứng tỏ tính hiệu quả của việc đào tạo trước liên tục theo từng miền cụ thể. Đối với mô hình 1B, sự cải thiện ít sâu sắc hơn nhưng hiệu suất vẫn cải thiện trung bình 2%.

Hình dưới đây minh họa sự khác biệt về hiệu suất trước và sau DACP trên cả hai mẫu.

Hình dưới đây trình bày hai ví dụ định tính do Pythia 6.9B và FinPythia 6.9B tạo ra. Đối với hai câu hỏi liên quan đến tài chính liên quan đến người quản lý nhà đầu tư và thuật ngữ tài chính, Pythia 6.9B không hiểu thuật ngữ này hoặc nhận ra tên, trong khi FinPythia 6.9B đưa ra câu trả lời chi tiết chính xác. Các ví dụ định tính chứng minh rằng việc đào tạo trước liên tục cho phép LLM thu được kiến ​​thức về lĩnh vực trong quá trình này.

Bảng sau đây so sánh các phương pháp đào tạo trước liên tục hiệu quả khác nhau. ETA-DACP-ppl là ETA-DACP dựa trên tính phức tạp (tính mới) và ETA-DACP-ent dựa trên entropy (tính đa dạng). ETS-DACP-com tương tự DACP ở chỗ lựa chọn dữ liệu bằng cách lấy trung bình cả ba số liệu. Sau đây là một số điều rút ra từ kết quả:

  • Phương pháp lựa chọn dữ liệu hiệu quả – Họ vượt qua tiêu chuẩn đào tạo trước liên tục chỉ với 10% dữ liệu đào tạo. Đào tạo trước liên tục hiệu quả bao gồm DACP tương tự nhiệm vụ (ETS-DACP), DACP bất khả tri nhiệm vụ dựa trên entropy (ESA-DACP-ent) và DACP tương tự nhiệm vụ dựa trên cả ba chỉ số (ETS-DACP-com) vượt trội hơn DACP tiêu chuẩn trung bình mặc dù thực tế là họ chỉ được đào tạo về 10% dữ liệu tài chính.
  • Lựa chọn dữ liệu nhận biết nhiệm vụ hoạt động tốt nhất phù hợp với nghiên cứu mô hình ngôn ngữ nhỏ – ETS-DACP ghi lại hiệu suất trung bình tốt nhất trong số tất cả các phương pháp và dựa trên cả ba số liệu, ghi lại hiệu suất nhiệm vụ tốt thứ hai. Điều này cho thấy rằng việc sử dụng dữ liệu nhiệm vụ không được gắn nhãn vẫn là một cách tiếp cận hiệu quả để tăng hiệu suất nhiệm vụ trong trường hợp LLM.
  • Lựa chọn dữ liệu bất khả tri về nhiệm vụ đứng thứ hai – ESA-DACP-ent tuân theo hiệu suất của phương pháp lựa chọn dữ liệu nhận biết nhiệm vụ, ngụ ý rằng chúng tôi vẫn có thể tăng hiệu suất nhiệm vụ bằng cách chủ động chọn các mẫu chất lượng cao không bị ràng buộc với các nhiệm vụ cụ thể. Điều này mở đường cho việc xây dựng LLM tài chính cho toàn bộ miền đồng thời đạt được hiệu suất nhiệm vụ vượt trội.

Một câu hỏi quan trọng liên quan đến việc đào tạo trước liên tục là liệu nó có ảnh hưởng tiêu cực đến hiệu suất của các tác vụ không thuộc miền hay không. Các tác giả cũng đánh giá mô hình được đào tạo trước liên tục dựa trên bốn nhiệm vụ chung được sử dụng rộng rãi: ARC, MMLU, TruthQA và HellaSwag, nhằm đo lường khả năng trả lời câu hỏi, lý luận và hoàn thành câu hỏi. Các tác giả nhận thấy rằng việc đào tạo trước liên tục không ảnh hưởng xấu đến hiệu suất phi miền. Để biết thêm chi tiết, hãy tham khảo Đào tạo trước liên tục hiệu quả để xây dựng các mô hình ngôn ngữ lớn dành riêng cho miền.

Kết luận

Bài đăng này cung cấp thông tin chi tiết về việc thu thập dữ liệu và các chiến lược đào tạo trước liên tục để đào tạo LLM cho lĩnh vực tài chính. Bạn có thể bắt đầu đào tạo LLM của riêng mình cho các nhiệm vụ tài chính bằng cách sử dụng Đào tạo Amazon SageMaker or nền tảng Amazon hôm nay.


Về các tác giả

Yong Xie là một nhà khoa học ứng dụng tại Amazon FinTech. Anh tập trung phát triển các mô hình ngôn ngữ lớn và các ứng dụng Generative AI cho tài chính.

Karan Aggarwal là Nhà khoa học ứng dụng cấp cao của Amazon FinTech, tập trung vào AI sáng tạo cho các trường hợp sử dụng tài chính. Karan có nhiều kinh nghiệm trong phân tích chuỗi thời gian và NLP, đặc biệt quan tâm đến việc học hỏi từ dữ liệu được dán nhãn hạn chế

Aitzaz Ahmad là Giám đốc Khoa học Ứng dụng tại Amazon, nơi ông lãnh đạo một nhóm các nhà khoa học xây dựng các ứng dụng khác nhau của Machine Learning và Generative AI trong Tài chính. Mối quan tâm nghiên cứu của ông là về NLP, AI sáng tạo và Đại lý LLM. Ông nhận bằng Tiến sĩ Kỹ thuật Điện tại Đại học Texas A&M.

Thanh Vĩ là Chuyên gia về học máy tại Amazon Web Services. Ông đã nhận bằng Tiến sĩ. trong Nghiên cứu Hoạt động sau khi anh ta phá vỡ tài khoản trợ cấp nghiên cứu của cố vấn của mình và không trao được giải thưởng Nobel như anh ta đã hứa. Hiện tại, anh đang giúp khách hàng trong lĩnh vực dịch vụ tài chính xây dựng các giải pháp machine learning trên AWS.

Raghvender Arni lãnh đạo Nhóm tăng tốc khách hàng (CAT) trong AWS Industries. CAT là một nhóm đa chức năng toàn cầu gồm các kiến ​​trúc sư đám mây, kỹ sư phần mềm, nhà khoa học dữ liệu, chuyên gia và nhà thiết kế AI/ML làm việc trực tiếp với khách hàng, thúc đẩy sự đổi mới thông qua tạo nguyên mẫu nâng cao và thúc đẩy hoạt động xuất sắc của đám mây thông qua chuyên môn kỹ thuật chuyên biệt.

tại chỗ_img

Tin tức mới nhất

tại chỗ_img