Logo Zephyrnet

Viện Đổi mới Công nghệ đào tạo mô hình nền tảng Falcon LLM 40B hiện đại nhất trên Amazon SageMaker | Dịch vụ web của Amazon

Ngày:

Bài đăng trên blog này được đồng viết với Tiến sĩ Ebtesam Almazrouei, Giám đốc điều hành – Quyền Trưởng phòng nghiên cứu AI của Đơn vị Trung tâm AI-Cross và Trưởng dự án cho các Dự án LLM tại TII.

Các Tiểu vương quốc Ả Rập Thống nhất (UAE) Viện Đổi mới Công nghệ (TII), trụ cột nghiên cứu ứng dụng của Abu Dhabi Hội đồng nghiên cứu công nghệ tiên tiến, đã ra mắt Falcon LLM, một mô hình ngôn ngữ lớn nền tảng (LLM) với 40 tỷ tham số. TII là một trung tâm nghiên cứu toàn cầu hàng đầu chuyên thúc đẩy các giới hạn của tri thức. Đội ngũ các nhà khoa học, nhà nghiên cứu và kỹ sư của TII làm việc để cung cấp khoa học khám phá và công nghệ biến đổi. Công việc của TII tập trung vào những bước đột phá sẽ là bằng chứng cho xã hội của chúng ta trong tương lai. Được đào tạo trên 1 nghìn tỷ mã thông báo, TII Falcon LLM tự hào về hiệu suất vượt trội trong khi vẫn tiết kiệm chi phí một cách đáng kinh ngạc. Falcon-40B phù hợp với hiệu suất của các LLM hiệu suất cao khác và là mô hình nguồn mở được xếp hạng hàng đầu trong công chúng Bảng xếp hạng LLM ôm mặt mở. Nó có sẵn dưới dạng mã nguồn mở với hai kích cỡ khác nhau – Falcon-40B và Falcon-7B và được xây dựng từ đầu bằng cách sử dụng các công việc đào tạo mô hình và tiền xử lý dữ liệu được xây dựng trên Amazon SageMaker. Falcon 40B mã nguồn mở cho phép người dùng xây dựng và tùy chỉnh các công cụ AI đáp ứng nhu cầu riêng của từng người dùng, tạo điều kiện tích hợp liền mạch và đảm bảo lưu giữ tài sản dữ liệu lâu dài. Trọng lượng mô hình có sẵn để tải xuống, kiểm tra và triển khai ở mọi nơi.

Bắt đầu từ ngày 7 tháng XNUMX, cả hai Falcon LLM cũng sẽ có sẵn trong Amazon SageMaker JumpStart, trung tâm máy học (ML) của SageMaker cung cấp các mô hình được đào tạo trước, thuật toán tích hợp và mẫu giải pháp dựng sẵn để giúp bạn nhanh chóng bắt đầu với ML. Bạn có thể triển khai và sử dụng Falcon LLM với một vài cú nhấp chuột trong Studio SageMaker hoặc lập trình thông qua SDK Python của SageMaker. Để triển khai và chạy suy luận đối với Falcon LLM, hãy tham khảo Giới thiệu về SageMaker JumpStart – Tạo văn bản với Falcon LLMs sổ tay ví dụ.

Tiến sĩ Ebtesam Almazrouei, Giám đốc điều hành – Quyền Trưởng phòng nghiên cứu AI của Đơn vị Trung tâm AI-Cross và Trưởng dự án cho các dự án LLM tại TII, chia sẻ:

“Chúng tôi tự hào công bố bản phát hành nguồn mở chính thức của Falcon-40B, mô hình ngôn ngữ nguồn mở hàng đầu thế giới, được phát triển bởi TII. Falcon-40B đã vượt qua các mẫu nổi tiếng như LLaMA-65B, StableLM, RedPajama và MPT trên bảng xếp hạng công khai do Hugging Face duy trì, thể hiện hiệu suất vượt trội mà không cần tinh chỉnh chuyên dụng.”

Tiến sĩ Almamazrouei tiếp tục: “Thành tích ấn tượng này phản ánh sự cống hiến của UAE trong việc thúc đẩy ranh giới của sự đổi mới AI. “Bằng cách phát hành Falcon-40B dưới dạng mô hình nguồn mở, chúng tôi mang đến cho các nhà nghiên cứu, doanh nghiệp và tổ chức cơ hội tận dụng các khả năng mạnh mẽ của nó trong các lĩnh vực khác nhau. Bản phát hành mã nguồn mở của Falcon-40B trao quyền cho các tổ chức khai thác các khả năng đặc biệt của nó và thúc đẩy những tiến bộ trong các giải pháp dựa trên AI. Nó đại diện cho một cột mốc quan trọng trong cam kết của chúng tôi trong việc thúc đẩy đổi mới AI và minh họa cho những đóng góp khoa học sâu sắc của UAE. Để khám phá tiềm năng vượt trội của Falcon-40B, vui lòng truy cập FalconLLM.tii.ae. Hãy cùng chúng tôi tận dụng sức mạnh của Falcon-40B để định hình tương lai của AI và cách mạng hóa các ngành công nghiệp.”

Trong bài đăng này, chúng tôi sẽ tìm hiểu sâu với Tiến sĩ Almazrouei về khóa đào tạo Falcon LLM trên SageMaker, quản lý dữ liệu, tối ưu hóa, hiệu suất và các bước tiếp theo.

Một thế hệ LLM mới

LLM là các thuật toán phần mềm được đào tạo để hoàn thành các chuỗi văn bản tự nhiên. Do kích thước và khối lượng dữ liệu đào tạo mà chúng tương tác, LLM có khả năng xử lý văn bản ấn tượng, bao gồm tóm tắt, trả lời câu hỏi, học theo ngữ cảnh, v.v.

Vào đầu năm 2020, các tổ chức nghiên cứu trên khắp thế giới tập trung vào kích thước mô hình, quan sát thấy độ chính xác tương quan với số lượng tham số. Ví dụ: GPT-3 (2020) và BLOOM (2022) có khoảng 175 tỷ tham số, Gopher (2021) có 230 tỷ tham số và MT-NLG (2021) có 530 tỷ tham số. Năm 2022, Hoffman và cộng sự. quan sát thấy rằng sự cân bằng điện toán hiện tại giữa các tham số mô hình và kích thước tập dữ liệu là dưới mức tối ưu và các luật điều chỉnh tỷ lệ theo kinh nghiệm đã công bố cho thấy rằng việc cân bằng ngân sách điện toán đối với các mô hình nhỏ hơn được đào tạo trên nhiều dữ liệu hơn có thể dẫn đến các mô hình hoạt động tốt hơn. Họ đã triển khai hướng dẫn của mình trong mô hình Chinchilla (70) tham số 2022B, mô hình này hoạt động tốt hơn nhiều so với các mô hình lớn hơn.

Đào tạo LLM trên SageMaker

SageMaker là tập hợp các API được quản lý để phát triển, đào tạo, điều chỉnh và lưu trữ các mô hình máy học (ML), bao gồm cả LLM. Nhiều khách hàng dựa vào SageMaker cho khối lượng công việc LLM của họ, chẳng hạn như AI ổn định, Phòng thí nghiệm AI21LG trí tuệ nhân tạo. Đào tạo SageMaker điều khoản tính toán các cụm với mã và cấu hình phần cứng do người dùng xác định. Công việc điện toán được tính phí cho mỗi lần chạy, được tính theo tỷ lệ thứ hai, nghĩa là người dùng không bị tính phí cho dung lượng GPU khi không sử dụng dịch vụ. TII đã sử dụng các cụm tạm thời do API đào tạo SageMaker cung cấp để đào tạo Falcon LLM, tối đa 48 phiên bản ml.p4d.24xlarge, tích lũy trong 384 GPU NVIDIA A100. Hiện tại, TII đang đào tạo Falcon LLM tiếp theo và mở rộng quy mô đào tạo của họ lên 3,136 GPU A100 (392 phiên bản ml.p4d).

Một số lượng lớn các đổi mới tùy chỉnh chưa từng có đã được đưa vào tất cả các lớp của dự án nhằm nâng cao chất lượng khoa học và tốc độ đào tạo. Trong các phần tiếp theo, chúng tôi mô tả các tối ưu hóa mà TII đã thực hiện ở tất cả các lớp của hệ thống đào tạo học sâu (DL).

Quản lý dữ liệu có thể mở rộng

Các LLM thế hệ mới nhất có được sức mạnh từ quy mô và chất lượng của dữ liệu đào tạo. Nhóm đã dành sự quan tâm đặc biệt cho việc tạo ra bộ dữ liệu nghìn tỷ mã thông báo chất lượng cao. Một số tác vụ CPU đào tạo SageMaker đã biến hàng petabyte dữ liệu web rẻ tiền, có thể mở rộng thành một bộ dữ liệu đào tạo an toàn, được quản lý. Các hệ thống tự động đã lọc và loại bỏ dữ liệu trùng lặp; ví dụ: bộ phân loại ML được sử dụng để lọc ngôn từ tục tĩu. Các tác vụ CPU chạy trên ml.c5.18xlarge (72 vCPU, 144 GB RAM) đã được khởi tạo trong một vài lệnh gọi API thông qua chương trình Đào tạo SageMaker để chạy các tác vụ chuyển đổi dữ liệu. Nhóm đã sử dụng cả tác vụ CPU đơn phiên bản và đa phiên bản cho các trường hợp sử dụng khác nhau. Một số tác vụ trong số này sử dụng hàng trăm tác vụ kiến ​​trúc không chia sẻ song song (SNA), mỗi tác vụ trên một máy duy nhất và đối với các tác vụ yêu cầu đồng bộ hóa giữa các nhân viên, nhóm đã khởi chạy tác vụ đa phiên bản, tích lũy trong hàng chục phiên bản và hàng nghìn vCPU. Thông thường, trong một nhiệm vụ chuẩn bị tập dữ liệu xuôi dòng, nhóm đã tăng tới 257 ml.c5.18xlarge trong một công việc Đào tạo SageMaker duy nhất, tích lũy trong 18,504 vCPU và 37 TB bộ nhớ.

Tối đa hóa thông lượng đào tạo

Để giảm thiểu cả chi phí đào tạo và thời gian đưa ra thị trường, nhóm đã theo đuổi một số hướng tối ưu hóa để tăng tốc độ đào tạo tỷ lệ thuận với mã thông báo đào tạo được xử lý mỗi giây và được đo bằng TFLOP/GPU. Nhóm đã sử dụng khung đào tạo LLM song song 3D hoàn toàn tùy chỉnh, có các lớp được tối ưu hóa tùy chỉnh được viết bằng mã GPU đã biên dịch. Nhóm đã tiến xa hơn khi viết triển khai phép nhân ma trận tùy chỉnh của riêng họ để đạt được tốc độ cao hơn nữa! Nhóm cũng đã phát triển logic điều chỉnh giao tiếp song song với cấu trúc liên kết mạng cơ bản. Trong các thử nghiệm mở rộng quy mô ban đầu của họ, TII đã có thể đạt tới 166 TFLOP/GPU trên mẫu 147B trên 256 GPU và 173 TFLOP/GPU trên mẫu 13B trên 16 GPU, theo hiểu biết của chúng tôi, mẫu TFLOP được biết đến nhanh nhất đạt được trên đám mây tại thời điểm kiểm tra vào cuối năm 2022.

Lưu trữ không có máy chủ

Đào tạo LLM chuyên sâu về lưu trữ; vài terabyte dữ liệu đào tạo cần được chuyển đến cụm đào tạo và vài terabyte điểm kiểm tra mô hình thường xuyên di chuyển ngược lại từ cụm đến bộ lưu trữ vĩnh viễn. Các điểm kiểm tra cũng cần đến cụm đào tạo càng nhanh càng tốt trong trường hợp khởi động lại công việc. Trong điện toán hiệu năng cao (HPC) truyền thống, các nút điện toán được kết nối với hệ thống tệp phân tán, cung cấp thông lượng và I/O hiệu suất cao thông qua giao diện giống như POSIX. Ở AWS, khách hàng thường xuyên sử dụng Amazon FSx cho ánh hệ thống tập tin cho mục đích này (để biết thêm chi tiết, tham khảo Tăng tốc đào tạo trên Amazon SageMaker bằng Amazon FSx cho các hệ thống tệp Luster và Amazon EFS) và chúng tôi cũng đã ghi lại việc sử dụng BeeGFS tự quản lý trong một nghiên cứu điển hình về thị giác máy tính phân tán. Do tập trung vào chi phí và sự đơn giản trong vận hành, nhóm đã quyết định không triển khai và vận hành các máy chủ hệ thống tệp mà thay vào đó, họ đã vượt qua thử thách xây dựng độc quyền trên lưu trữ đối tượng không có máy chủ Dịch vụ lưu trữ đơn giản của Amazon (Amazon S3). Một lớp bộ dữ liệu S3 tùy chỉnh được xây dựng bằng cách sử dụng AWS SDK dành cho Python (Boto3) và mang lại hiệu suất thỏa đáng trong khi cho phép các nhà khoa học lặp lại một cách tự động về kỹ thuật I/O và khoa học mô hình trong cùng một cơ sở mã.

Đổi mới phía khách hàng

Một dự án LLM hiếm khi bao gồm một công việc đào tạo duy nhất; nhiều công việc là cần thiết để tiến hành các thử nghiệm và kinh nghiệm ban đầu. Trong quá trình đào tạo sản xuất chính, một số công việc có thể được xâu chuỗi, chẳng hạn như cập nhật cấu hình hoặc phiên bản phần mềm, triển khai các bản vá lỗi hoặc khôi phục sau lỗi. Các nhà khoa học từ TII đã tiến hành kỹ thuật quan trọng để xây dựng các khách hàng tùy chỉnh phù hợp với đào tạo LLM. Ứng dụng khách trình khởi chạy được xây dựng dựa trên SDK đào tạo SageMaker để kết hợp nhiều chức năng trong một lệnh, chẳng hạn như lập phiên bản mã, xây dựng hình ảnh Docker và khởi chạy công việc. Ngoài ra, một AWS Lambda chức năng điện toán không có máy chủ được thiết kế để theo dõi, giám sát và can thiệp vào các công việc khi cần.

Sử dụng bot Slack để kiểm tra chất lượng suy luận

Vào cuối khóa đào tạo, nhóm đã triển khai mô hình trên một mạng nội bộ Điểm cuối GPU lưu trữ SageMaker cho tương tác thời gian thực. Nhóm đã đi xa đến mức tạo ra một bot Slack để đối thoại, nhận phản hồi thực tế và chạy kiểm tra chất lượng định tính của mô hình.

Đào tạo và giám sát hiệu suất

Đào tạo LLM yêu cầu một lượng lớn tài nguyên tính toán, bao gồm tài nguyên CPU, GPU và bộ nhớ. Do đó, TII cần giám sát hiệu suất và thời gian nhàn rỗi của công việc đào tạo để đảm bảo sử dụng tối ưu tài nguyên máy tính và hiệu quả chi phí của chúng.

Để xây dựng giải pháp giám sát tự động, TII đã sử dụng amazoncloudwatch báo động để giám sát việc sử dụng GPU, CPU và bộ nhớ cho các công việc đào tạo. CloudWatch thu thập dữ liệu thô và xử lý dữ liệu đó thành các chỉ số có thể đọc được, gần thời gian thực từ các phiên bản vùng chứa cơ bản đang được sử dụng trong công việc Đào tạo SageMaker. Sau đó, chúng tôi đặt ngưỡng cho từng chỉ số này và nếu bất kỳ chỉ số nào giảm xuống dưới ngưỡng, một cảnh báo sẽ được kích hoạt. Cảnh báo này thông báo cho nhóm của TII về mức sử dụng tài nguyên thấp, cho phép họ thực hiện các hành động khắc phục để khắc phục các hạn chế về sử dụng tài nguyên.

Ngoài việc giám sát việc sử dụng tài nguyên, TII cũng có thể giám sát thời gian nhàn rỗi của các tài nguyên công việc đào tạo. Nếu tài nguyên công việc đào tạo không hoạt động trong một thời gian dài, điều đó có thể cho thấy nút cổ chai ở bất kỳ giai đoạn nào của chu kỳ đào tạo và yêu cầu điều tra thủ công. Trong một số trường hợp, việc sử dụng tài nguyên vẫn tương đối tối ưu, nhưng bản thân quá trình đào tạo không tiến triển. Đối với những trường hợp này, TII tích hợp cảnh báo CloudWatch với các chức năng Lambda để truy vấn và đọc nhật ký đào tạo đã tạo, sau đó thực hiện hành động tự động dựa trên lỗi đã tạo hoặc tình trạng không hoạt động của quá trình tạo nhật ký (cụm bị tạm dừng). Cảnh báo kích hoạt một hành động để dừng công việc đào tạo, điều này đảm bảo rằng TII không phát sinh chi phí không cần thiết khi tài nguyên không được sử dụng.

Kết luận

Sử dụng SageMaker kết hợp với đổi mới tùy chỉnh, độc quyền, TII có thể đào tạo một mô hình hiện đại nhất ở nhiều khía cạnh: đột phá công nghệ, chất lượng khoa học, tốc độ đào tạo và cả sự đơn giản trong vận hành.

“Falcon LLM của chúng tôi minh họa cho sự dẫn đầu về công nghệ của UAE và mở đường cho sự đổi mới do AI cung cấp trong khu vực. Theo Chiến lược AI Quốc gia của Các Tiểu vương quốc Ả Rập Thống nhất 2031, việc UAE tham gia vào các tiến bộ công nghệ toàn cầu như Falcon LLM là một thành phần quan trọng trong hành trình hướng tới nền kinh tế dựa trên tri thức của chúng ta. UAE chọn tham gia tích cực vào cuộc trò chuyện rộng lớn hơn bằng cách đầu tư và phát triển các giải pháp AI sẽ giúp tạo ra các cơ hội kinh tế, xã hội và giáo dục mới. Là một phần của cam kết này, việc phát hành mã nguồn mở của Falcon LLM thể hiện sự cống hiến của UAE trong việc thúc đẩy sự hợp tác, thúc đẩy tính minh bạch và hỗ trợ đổi mới cũng như nghiên cứu trong lĩnh vực AI. Bằng cách tạo mã nguồn mở cho Falcon LLM, chúng tôi mong muốn cho phép truy cập rộng rãi vào các khả năng công nghệ tiên tiến của nó và trao quyền cho các nhà nghiên cứu và tổ chức trên toàn thế giới. Bước quan trọng này thể hiện cam kết của UAE trong việc thúc đẩy những tiến bộ trong AI và củng cố vị trí dẫn đầu trong cộng đồng AI toàn cầu. Các bước tiếp theo bao gồm đóng góp vào những tiến bộ hơn nữa trong lĩnh vực AI và công nghệ tiên tiến, với các mô hình mới sắp ra mắt và thúc đẩy việc sử dụng công nghệ AI tiên tiến trong các tổ chức và doanh nghiệp của UAE.”

– Tiến sĩ Almamazrouei

Để tìm hiểu thêm về Falcon LLM, hãy xem trang web FalconLLM.tii.ae và thẻ người mẫu trên Ôm mặt!


Về các tác giả

Tiến sĩ Ebtesam Almazrouei là Giám đốc Điều hành – Quyền Trưởng phòng Nghiên cứu AI của Đơn vị Trung tâm AI-Cross và Trưởng dự án cho các Dự án LLM tại TII. Công việc của cô tập trung vào việc cung cấp AI và các giải pháp công nghệ tiên tiến trong nhiều ngành từ chăm sóc sức khỏe, viễn thông, giáo dục, năng lượng và an ninh. Tiến sĩ Almazrouei đóng một vai trò quan trọng trong việc xây dựng LLM và nâng cao năng lực của UAE trong không gian này, lãnh đạo nhóm xây dựng Falcon LLM. Ngoài ra, bà còn lãnh đạo sự phát triển của Noor, LLM tiếng Ả Rập lớn nhất thế giới cho đến nay.

Will Badr là Giám đốc cấp cao của Kiến trúc sư giải pháp AI/ML có trụ sở tại Dubai – UAE, người làm việc như một phần của nhóm Amazon Machine Learning toàn cầu. Will đam mê sử dụng công nghệ theo những cách sáng tạo để tác động tích cực đến cộng đồng. Khi rảnh rỗi, anh thích đi lặn, đá bóng và khám phá các đảo ở Thái Bình Dương.

Olivier Cruchant là Kiến trúc sư Giải pháp Chuyên gia về Học máy tại AWS, có trụ sở tại Pháp. Olivier giúp khách hàng của AWS - từ các công ty khởi nghiệp nhỏ đến các doanh nghiệp lớn - phát triển và triển khai các ứng dụng học máy ở cấp độ sản xuất. Trong thời gian rảnh rỗi, anh ấy thích đọc các tài liệu nghiên cứu và khám phá vùng hoang dã với bạn bè và gia đình.

tại chỗ_img

Tin tức mới nhất

tại chỗ_img

Trò chuyện trực tiếp với chúng tôi (chat)

Chào bạn! Làm thế nào để tôi giúp bạn?