Zephyrnet Logosu

Technology Innovation Institute, Amazon SageMaker'da son teknoloji ürünü Falcon LLM 40B temel modelini eğitiyor | Amazon Web Hizmetleri

Tarih:

Bu blog yazısı, AI-Cross Center Unit'in İcra Direktörü-Vekili AI Araştırmacısı ve TII'de LLM Projeleri Proje Lideri olan Dr. Ebtesam Almazrouei ile birlikte yazılmıştır.

Birleşik Arap Emirlikleri (BAE) Teknoloji İnovasyon Enstitüsü (TII), Abu Dabi'nin uygulamalı araştırma ayağı İleri Teknoloji Araştırma Konseyi, 40 milyar parametreye sahip temel bir büyük dil modeli (LLM) olan Falcon LLM'yi piyasaya sürdü. TII, bilginin sınırlarını zorlamaya kendini adamış lider bir küresel araştırma merkezidir. TII'nin bilim adamları, araştırmacılar ve mühendislerden oluşan ekibi keşif bilimi ve dönüştürücü teknolojiler sunmak için çalışıyor. TII'nin çalışmaları, toplumumuzu geleceğe hazırlayacak atılımlara odaklanıyor. 1 trilyon jeton üzerinde eğitildi, TSEV Falcon LLM inanılmaz derecede uygun maliyetli kalırken birinci sınıf performansa sahiptir. Falcon-40B, diğer yüksek performanslı LLM'lerin performansıyla eşleşir ve kamuda en üst sıralarda yer alan açık kaynak modelidir. Hugging Face Open LLM skor tablosu. Falcon-40B ve Falcon-7B olmak üzere iki farklı boyutta açık kaynak olarak mevcuttur ve veri ön işleme ve model eğitim işleri kullanılarak sıfırdan oluşturulmuştur. Amazon Adaçayı Yapıcı. Açık kaynaklı Falcon 40B, kullanıcıların benzersiz ihtiyaçlarını karşılayan yapay zeka araçlarını oluşturmasına ve özelleştirmesine olanak tanıyarak sorunsuz entegrasyonu kolaylaştırıyor ve veri varlıklarının uzun vadeli korunmasını sağlıyor. Model ağırlıkları her yerde indirilebilir, incelenebilir ve dağıtılabilir.

7 Haziran'dan itibaren, her iki Falcon LLM de SageMaker'ın makine öğrenimi (ML) merkezi olan Amazon SageMaker JumpStart'ta, makine öğrenimine hızlı bir şekilde başlamanıza yardımcı olmak için önceden eğitilmiş modeller, yerleşik algoritmalar ve önceden oluşturulmuş çözüm şablonları sunuyor. Falcon LLM'leri birkaç tıklamayla dağıtabilir ve kullanabilirsiniz. Adaçayı Yapıcı Stüdyo veya program aracılığıyla SageMaker Python SDK'sı. Falcon LLM'lere karşı çıkarım uygulamak ve çalıştırmak için bkz. SageMaker JumpStart'a Giriş – Falcon LLM'lerle Metin Oluşturma örnek defter.

AI-Cross Center Unit Baş Yapay Zeka Araştırmacısı Vekili ve TII'de Yüksek Lisans Projeleri Proje Lideri olan Dr. Ebtesam Almazrouei şunları paylaşıyor:

“TII tarafından geliştirilen, dünyanın bir numaralı açık kaynak dil modeli olan Falcon-40B'nin resmi açık kaynak yayınını gururla duyuruyoruz. Falcon-40B, Hugging Face tarafından sürdürülen genel skor tablosunda LLaMA-65B, StableLM, RedPajama ve MPT gibi ünlü modelleri geride bırakarak özel ince ayar gerektirmeden olağanüstü performansını gösterdi.”

Almazrouei, "Bu etkileyici başarı, BAE'nin yapay zeka inovasyonunun sınırlarını zorlama kararlılığını yansıtıyor" diye devam ediyor. "Falcon-40B'yi açık kaynaklı bir model olarak piyasaya sürerek, araştırmacılara, işletmelere ve kuruluşlara çeşitli sektörlerdeki güçlü yeteneklerini kullanma fırsatı sunuyoruz. Falcon-40B'nin açık kaynak sürümü, kuruluşlara olağanüstü yeteneklerinden yararlanma ve yapay zeka odaklı çözümlerde ilerleme sağlama gücü verir. AI inovasyonunu teşvik etme taahhüdümüzde önemli bir kilometre taşını temsil ediyor ve BAE'nin derin bilimsel katkılarını örnekliyor. Falcon-40B'nin olağanüstü potansiyelini keşfetmek için lütfen şu adresi ziyaret edin: FalconLLM.tii.ae. Yapay zekanın geleceğini şekillendirmek ve endüstrilerde devrim yaratmak için Falcon-40B'nin gücünden yararlanma konusunda bize katılın."

Bu yazıda, Dr. Almazrouei ile SageMaker'da Falcon LLM eğitimi, veri iyileştirme, optimizasyon, performans ve sonraki adımlar hakkında derinlemesine inceleme yapıyoruz.

Yeni nesil LLM'ler

LLM'ler, doğal metin dizilerini tamamlamak için eğitilmiş yazılım algoritmalarıdır. Boyutları ve etkileşime girdikleri eğitim verilerinin hacmi nedeniyle, LLM'ler özetleme, soru yanıtlama, bağlam içi öğrenme ve daha fazlası dahil olmak üzere etkileyici metin işleme becerilerine sahiptir.

2020'nin başlarında, dünyanın dört bir yanındaki araştırma kuruluşları, doğruluğun parametre sayısıyla ilişkili olduğunu gözlemleyerek model boyutuna vurgu yaptı. Örneğin, GPT-3 (2020) ve BLOOM (2022) yaklaşık 175 milyar parametre içerir, Gopher (2021) 230 milyar parametreye ve MT-NLG (2021) 530 milyar parametreye sahiptir. 2022'de Hoffman ve ark. model parametreleri ile veri kümesi boyutu arasındaki mevcut bilgi işlem dengesinin optimalin altında olduğunu gözlemledi ve daha fazla veri üzerinde eğitilmiş daha küçük modellerle işlem bütçesinin dengelenmesinin daha iyi performans gösteren modellere yol açabileceğini öne süren ampirik ölçeklendirme yasaları yayınladı. Kılavuzlarını, çok daha büyük modellerden daha iyi performans gösteren 70B parametreli Chinchilla (2022) modelinde uyguladılar.

SageMaker'da LLM eğitimi

SageMaker, LLM'ler dahil olmak üzere makine öğrenimi (ML) modellerini geliştirmek, eğitmek, ayarlamak ve barındırmak için yönetilen bir API koleksiyonudur. Çok sayıda müşteri, LLM iş yükleri için SageMaker'a güveniyor, örneğin Stabilite AI, AI21 Laboratuvarları, ve LG Yapay Zeka. SageMaker Eğitimi kullanıcı tanımlı donanım yapılandırması ve koduyla bilgi işlem kümeleri sağlar. Bilgi işlem işleri çalıştırma başına faturalandırılır ve saniyeye eşit olarak değerlendirilir; bu, hizmeti kullanmadıklarında kullanıcılardan GPU kapasitesi için ücret alınmadığı anlamına gelir. TII, Falcon LLM'yi eğitmek için SageMaker Eğitim API'si tarafından sağlanan, 48 NVIDIA A4 GPU'da biriken 24 ml.p384d.100xlarge bulut sunucusuna kadar geçici kümeler kullandı. Şimdi TII, bir sonraki Falcon LLM'yi eğitiyor ve eğitimlerini 3,136 A100 GPU'ya (392 ml.p4d örnekleri) ölçeklendirdi.

Bilim kalitesi ve eğitim hızı çıtasını yükseltmek için projenin tüm katmanlarına benzeri görülmemiş miktarda özel yenilik girdi. Sonraki bölümlerde, TII'nin derin öğrenme (DL) eğitim sisteminin tüm katmanlarında gerçekleştirdiği optimizasyonları açıklıyoruz.

Ölçeklenebilir veri iyileştirme

En yeni nesil LLM'ler, gücünü eğitim verilerinin boyutundan ve kalitesinden alır. Ekip, yüksek kaliteli bir trilyon token veri kümesinin oluşturulmasına özel bir özen gösterdi. Birkaç SageMaker Training CPU işi, petabaytlarca ucuz, ölçeklenebilir web verisini derlenmiş, güvenli bir eğitim veri setine dönüştürdü. Otomatik sistemler verileri filtreledi ve tekilleştirdi; örneğin, küfürü filtrelemek için makine öğrenimi sınıflandırıcıları kullanıldı. ml.c5.18xlarge (72 vCPU'lar, 144 GB RAM) üzerinde çalışan CPU işleri, veri dönüştürme görevlerini çalıştırmak için SageMaker Eğitimi aracılığıyla birkaç API çağrısında başlatıldı. Ekip, farklı kullanım durumları için hem tek eşgörünümlü hem de çok eşgörünümlü CPU işlerini kullandı. Bu işlerden bazıları, her biri tek bir makinede yüzlerce paralel hiçbir şey paylaşma mimarisi (SNA) işi kullandı ve çalışanlar arası senkronizasyon gerektiren görevler için ekip, düzinelerce örnek ve binlerce vCPU'da biriken çok eşgörünümlü işler başlattı. Anekdot olarak, bir aşağı akış veri seti hazırlama görevinde, ekip tek bir SageMaker Training işinde toplam 257 vCPU ve 5.18 TB bellekle 18,504 ml.c37xlarge'a çıktı.

Eğitim verimini en üst düzeye çıkarma

Hem eğitim maliyetlerini hem de pazara sunma süresini en aza indirmek için ekip, eğitim hızını saniyede işlenen ve TFLOP/GPU cinsinden ölçülen eğitim belirteçleriyle orantılı olarak hızlandırmak için çeşitli optimizasyon yönleri izledi. Ekip, derlenmiş GPU kodunda yazılmış özel olarak optimize edilmiş katmanlara sahip, tamamen özel bir 3B paralel LLM eğitim çerçevesi kullandı. Ekip, daha fazla hız kazanmak için kendi özel matris çarpım uygulamalarını yazmaya kadar gitti! Ekip ayrıca, paralel iletişimi altta yatan ağ topolojisine uyarlayan bir mantık geliştirdi. İlk ölçeklendirme deneyleri sırasında TII, 166 GPU'da 147B modelinde 256 TFLOP/GPU'ya ve 173 GPU'da 13B modelinde 16 TFLOP/GPU'ya ulaşmayı başardı; 2022 sonlarında test zamanı.

sunucusuz depolama

LLM eğitimi yoğun depolama gerektirir; birkaç terabaytlık eğitim verisinin eğitim kümesine kanalize edilmesi gerekir ve birkaç terabaytlık model kontrol noktası düzenli olarak kümeden kalıcı depolamaya geri döner. Kontrol noktalarının ayrıca işin yeniden başlatılması durumunda eğitim kümesine olabildiğince hızlı ulaşması gerekir. Geleneksel yüksek performanslı bilgi işlemde (HPC), bilgi işlem düğümleri, POSIX benzeri bir arabirim aracılığıyla yüksek performanslı G/Ç ve verim sağlayan dağıtılmış dosya sistemlerine bağlanır. AWS'de müşteriler, Lustre için Amazon FSx dosya sistemi (daha fazla ayrıntı için bkz. Luster ve Amazon EFS dosya sistemleri için Amazon FSx kullanarak Amazon SageMaker ile eğitimi hızlandırın) ve BeeGFS'nin kendi kendini yöneten kullanımını da belgeledik. dağıtılmış bir bilgisayarla görme vaka çalışması. Ekip, maliyetlere ve operasyonel basitliğe odaklandıkları için dosya sistemi sunucularını uygulamamaya ve çalıştırmamaya karar verdi, bunun yerine yalnızca sunucusuz nesne depolamanın üzerine inşa etme zorluğunu üstlendi. Amazon Basit Depolama Hizmeti (Amazon S3). AWS SDK for Python (Boto3) kullanılarak özel bir S3 veri kümesi sınıfı oluşturuldu ve tatmin edici bir performans sunarken bilim adamlarının aynı kod tabanı içinde G/Ç mühendisliği ve model bilimi üzerinde özerk bir şekilde yineleme yapmasına olanak sağladı.

İstemci taraflı yenilik

Bir LLM projesi nadiren tek bir eğitim işinden oluşur; İlk testleri ve deneyimleri yürütmek için çok sayıda işe ihtiyaç vardır. Ana üretim eğitimi boyunca, örneğin yapılandırmayı veya yazılım sürümlerini güncellemek, yamaları dağıtmak veya hatalardan kurtarmak gibi birkaç iş zincirlenebilir. TII'den bilim adamları, LLM eğitimine uyarlanmış özel istemciler oluşturmak için önemli mühendislik çalışmaları yürüttüler. Kod sürüm oluşturma, Docker görüntü oluşturma ve iş başlatma gibi birden çok işlevi tek bir komutta bir araya getirmek için SageMaker Eğitim SDK'sının üzerine bir başlatıcı istemcisi oluşturuldu. Ek olarak, bir AWS Lambda sunucusuz bilgi işlem işlevi, işleri gerektiği gibi izlemek, izlemek ve müdahale etmek için tasarlandı.

Çıkarım kalitesi denetimleri için Slack botlarını kullanma

Eğitimin sonuna doğru ekip, modeli dahili bir SageMaker Barındırma GPU uç noktası gerçek zamanlı etkileşim için. Ekip, diyalog kurmak, gerçekçi geri bildirim almak ve modelin niteliksel kalite denetimlerini yapmak için bir Slack botu oluşturmaya kadar gitti.

Eğitim ve performans izleme

Bir LLM eğitimi, CPU, GPU ve bellek kaynakları dahil olmak üzere büyük miktarda hesaplama kaynağı gerektirir. Bu nedenle, TII'nin hesaplama kaynaklarının optimum kullanımını ve maliyet etkinliğini sağlamak için eğitim işinin performansını ve boşta kalma süresini izlemesi gerekiyordu.

Otomatikleştirilmiş bir izleme çözümü oluşturmak için TII, Amazon Bulut İzleme eğitim işleri için GPU, CPU ve bellek kullanımını izlemek için alarmlar. CloudWatch ham verileri toplar ve SageMaker Training işinde kullanılan temel kapsayıcı örneklerinden okunabilir, neredeyse gerçek zamanlı metrikler halinde işler. Daha sonra bu metriklerin her biri için eşikler belirliyoruz ve herhangi bir metrik eşiğin altına düşerse bir alarm tetikleniyor. Bu alarm, TII ekibine düşük kaynak kullanımı hakkında bilgi verir ve kaynak kullanım kısıtlamalarını düzeltmek için düzeltici önlemler almalarına olanak tanır.

TII, kaynak kullanımının izlenmesine ek olarak, eğitim işi kaynaklarının boşta kalma sürelerini de izleyebilir. Eğitim işi kaynakları uzun bir süre boşta kaldıysa bu, eğitim döngüsünün herhangi bir aşamasında bir darboğaza işaret edebilir ve manuel inceleme gerektirebilir. Bazı durumlarda, kaynak kullanımı hala nispeten optimaldi, ancak eğitim sürecinin kendisi ilerlemiyordu. Bu durumlar için TII, oluşturulan eğitim günlüklerini sorgulamak ve okumak için Lambda işlevleriyle CloudWatch alarmlarını entegre etti ve ardından oluşturulan hataya veya günlük oluşturma sürecinin boşta kalmasına bağlı olarak otomatik eylemler gerçekleştirdi (küme durduruldu). Alarm, eğitim işini durdurmak için bir eylemi tetikler, bu da TII'nin kaynaklar kullanılmadığında gereksiz maliyetlere maruz kalmamasını sağlar.

Sonuç

Tescilli, özel yenilikle birlikte SageMaker'ı kullanan TII, birden çok boyutta en son teknolojiye sahip bir modeli eğitmeyi başardı: teknolojik atılım, bilim kalitesi, eğitim hızı ve ayrıca operasyonel basitlik.

"Falcon LLM'miz BAE'nin teknoloji liderliğini gösteriyor ve bölgede AI destekli inovasyonun önünü açıyor. BAE Ulusal Yapay Zeka Stratejisi 2031 ile uyumlu olarak, BAE'nin Falcon LLM gibi küresel teknolojik gelişmelere katılımı, bilgiye dayalı bir ekonomiye doğru yolculuğumuzda kritik bir bileşendir. BAE, yeni ekonomik, sosyal ve eğitimsel fırsatlar yaratmaya yardımcı olacak AI çözümlerine yatırım yaparak ve bunları geliştirerek kendisini daha geniş bir sohbete aktif olarak dahil etmeyi seçiyor. Bu taahhüdün bir parçası olarak Falcon LLM'nin açık kaynaklı sürümü, BAE'nin yapay zeka alanında işbirliğini geliştirmeye, şeffaflığı teşvik etmeye ve inovasyonu ve araştırmayı desteklemeye olan bağlılığını sergiliyor. Falcon LLM'yi açık kaynak yaparak, gelişmiş teknoloji yeteneklerine yaygın erişim sağlamayı ve dünya çapındaki araştırmacıları ve kuruluşları güçlendirmeyi amaçlıyoruz. Bu önemli adım, BAE'nin yapay zekadaki ilerlemeleri artırma taahhüdünü örneklemektedir ve küresel yapay zeka topluluğundaki lider konumunu sağlamlaştırmaktadır. Sonraki adımlar, ufukta yeni modellerle yapay zeka ve ileri teknolojiler alanındaki daha fazla ilerlemeye katkıda bulunmayı ve gelişmiş yapay zeka teknolojisinin BAE kuruluşları ve işletmelerinde kullanılmasını teşvik etmeyi içeriyor."

– Dr. Almazrouei

Falcon LLM hakkında daha fazla bilgi edinmek için web sitesine bakın FalconLLM.tii.ae ve Hugging Face'teki model kartı!


Yazarlar Hakkında

Dr.Ebtesam Almazrouei AI-Cross Center Unit'in İcra Direktörü-Baş Yapay Zeka Araştırmacısı Vekili ve TII'de LLM Projeleri için Proje Lideridir. Çalışmaları, sağlık, telekomünikasyon, eğitim, enerji ve güvenlik gibi birçok sektörde yapay zeka ve ileri teknoloji çözümleri sunmaya odaklanıyor. Dr. Almazrouei, Falcon LLM'yi inşa eden ekibe liderlik ederek LLM'lerin oluşturulmasında ve BAE'nin bu alandaki kapasitesinin artırılmasında çok önemli bir rol oynuyor. Ayrıca, bugüne kadar dünyanın en büyük Arapça LLM'si olan Noor'un gelişimine öncülük etti.

Badr olacak küresel Amazon Makine Öğrenimi ekibinin bir parçası olarak çalışan Dubai – BAE merkezli AI/ML Solutions Architects Kıdemli Yöneticisidir. Will, toplumu olumlu yönde etkilemek için teknolojiyi yenilikçi şekillerde kullanma konusunda tutkulu. Boş zamanlarında dalmayı, futbol oynamayı ve Pasifik Adalarını keşfetmeyi seviyor.

Olivier Cruchant Fransa merkezli AWS'de Makine Öğrenimi Uzmanı Çözüm Mimarıdır. Olivier, küçük girişimlerden büyük kuruluşlara kadar AWS müşterilerinin üretim düzeyinde makine öğrenimi uygulamaları geliştirmesine ve dağıtmasına yardımcı olur. Boş zamanlarında araştırma makalelerini okumaktan ve arkadaşları ve ailesiyle vahşi doğayı keşfetmekten hoşlanır.

spot_img

En Son İstihbarat

spot_img