Zephyrnet Logosu

Andrej Karpathy ile 60 Dakikada Yüksek Lisansın Sırlarını Açığa Çıkarın – KDnuggets

Tarih:

Andrej Karpathy ile 60 Dakikada Yüksek Lisansın Sırlarını Çözün
Editöre göre resim
 

Duydun mu Andrej Karpati? Kendisi, derin öğrenme ve sinir ağları üzerine yaptığı çalışmalarla tanınan ünlü bir bilgisayar bilimcisi ve yapay zeka araştırmacısıdır. OpenAI'de ChatGPT'nin geliştirilmesinde önemli bir rol oynadı ve daha önce Tesla'da Yapay Zeka Kıdemli Direktörü olarak görev yaptı. Bundan önce bile ilk derin öğrenme dersini tasarladı ve ana eğitmenliğini yaptı. Stanford – CS 231n: Görsel Tanıma için Evrişimli Sinir Ağları. Sınıf, Stanford'daki en büyük sınıflardan biri haline geldi ve 150'te kayıtlı 2015 öğrenciden 750'de 2017 öğrenciye yükseldi. Derin öğrenmeye ilgi duyan herkesin bunu YouTube'da izlemesini şiddetle tavsiye ediyorum. Onun hakkında daha fazla ayrıntıya girmeyeceğim ve odak noktamızı YouTube'daki en popüler konuşmalarından birine kaydıracağız. 1.4 milyon görüntüleme “Geniş Dil Modellerine Giriş.” Bu konuşma, meşgul kişiler için Yüksek Lisans'a giriş niteliğindedir ve Yüksek Lisans'la ilgilenen herkesin mutlaka izlemesi gereken bir konuşmadır.

Bu konuşmanın kısa bir özetini verdim. Bu ilginizi çekerse, bu makalenin sonunda verilecek slaytlara ve YouTube bağlantısına göz atmanızı şiddetle tavsiye ederim.

Bu konuşma, Yüksek Lisans'lara, yeteneklerine ve bunların kullanımıyla ilişkili potansiyel risklere kapsamlı bir giriş sağlar. Aşağıdaki gibi 3 ana bölüme ayrılmıştır:

Bölüm 1: Yüksek Lisans Dereceleri

Andrej Karpathy ile 60 Dakikada Yüksek Lisansın Sırlarını Çözün
Andrej Karpathy'nin slaytları
 

Yüksek Lisans'lar, insan benzeri yanıtlar oluşturmak için geniş bir metin külliyatı üzerinde eğitilir. Bu bölümde Andrej özel olarak Llama 2-70b modelini tartışıyor. 70 milyar parametreyle en büyük LLM'lerden biridir. Model iki ana bileşenden oluşur: parametreler dosyası ve çalıştırma dosyası. Parametreler dosyası, modelin ağırlıklarını ve sapmalarını içeren büyük bir ikili dosyadır. Bu ağırlıklar ve önyargılar esasen modelin eğitim sırasında öğrendiği "bilgidir". Çalıştırma dosyası, parametreler dosyasını yüklemek ve modeli çalıştırmak için kullanılan bir kod parçasıdır. Modelin eğitim süreci aşağıdaki iki aşamaya ayrılabilir:

1. Ön Eğitim

Bu, internetten yaklaşık 10 terabaytlık büyük bir metin yığınının toplanmasını ve ardından modeli bu veriler üzerinde eğitmek için bir GPU kümesinin kullanılmasını içerir. Eğitim sürecinin sonucu internetin kayıplı sıkıştırılması olan bir temel modeldir. Tutarlı ve alakalı metinler üretme yeteneğine sahiptir ancak soruları doğrudan yanıtlamaz.

2. İnce ayar

Önceden eğitilmiş model, daha kullanışlı hale getirilmesi için yüksek kaliteli bir veri kümesi üzerinde daha fazla eğitilir. Bu bir asistan modeliyle sonuçlanır. Andrej ayrıca karşılaştırma etiketlerinin kullanılmasını içeren ince ayarın üçüncü aşamasından da bahsediyor. Sıfırdan yanıtlar üretmek yerine, modele birden fazla aday yanıtı veriliyor ve en iyi olanı seçmesi isteniyor. Bu, yanıt üretmekten daha kolay ve etkili olabilir ve modelin performansını daha da artırabilir. Bu sürece insan geribildiriminden takviyeli öğrenme (RLHF) adı verilir.

Bölüm 2: Yüksek Lisans'ın Geleceği

Andrej Karpathy ile 60 Dakikada Yüksek Lisansın Sırlarını Çözün
Andrej Karpathy'nin slaytları
 

Büyük dil modellerinin geleceği ve yetenekleri tartışılırken aşağıdaki önemli noktalar tartışılmaktadır:

1. Ölçeklendirme Yasası

Model performansı iki değişkenle (parametre sayısı ve eğitim metni miktarı) ilişkilidir. Daha fazla veriyle eğitilen daha büyük modeller daha iyi performans elde etme eğilimindedir.

2. Araçların Kullanımı

ChatGPT gibi LLM'ler, normalde yalnızca model için zorlayıcı veya imkansız olacak görevleri gerçekleştirmek için tarayıcı, hesap makinesi ve Python kitaplıkları gibi araçları kullanabilir.

3. Yüksek Lisans'ta Sistem Bir ve Sistem İki Düşüncesi

Şu anda Yüksek Lisans'lar ağırlıklı olarak hızlı, içgüdüsel ve modele dayalı birinci sistem düşüncesini kullanıyor. Bununla birlikte, ikinci sistem düşüncesini (daha yavaş, rasyonel ve bilinçli çaba gerektiren) gerçekleştirebilecek yüksek lisans eğitimlerinin geliştirilmesine ilgi vardır. 

4. Yüksek Lisans İşletim Sistemi

Yüksek Lisans, yeni ortaya çıkan bir işletim sisteminin çekirdek süreci olarak düşünülebilir. Sistem 2'yi kullanarak metin okuyabilir ve oluşturabilir, çeşitli konularda kapsamlı bilgiye sahip olabilir, internette gezinebilir veya yerel dosyalara başvurabilir, mevcut yazılım altyapısını kullanabilir, görüntü ve video oluşturabilir, duyabilir ve konuşabilir ve uzun süre düşünebilirler. LLM, bilgisayardaki RAM'e benzer ve çekirdek işlemi, görevleri gerçekleştirmek için ilgili bilgileri bağlam penceresinin içine ve dışına sayfalamaya çalışır.

Bölüm 3: Yüksek Lisans Güvenliği

Andrej Karpathy ile 60 Dakikada Yüksek Lisansın Sırlarını Çözün
Andrej Karpathy'nin slaytları
 

Andrej, Yüksek Lisans'larla ilgili güvenlik sorunlarının çözümüne yönelik devam eden araştırma çabalarının altını çiziyor. Aşağıdaki saldırılar tartışılmaktadır:

1. Firar

Zararlı veya uygunsuz bilgileri çıkarmak için LLM'lerdeki güvenlik önlemlerini atlamaya çalışır. Örnekler arasında modeli kandırmak için rol yapma ve optimize edilmiş kelime veya görüntü dizilerini kullanarak yanıtları manipüle etme yer alır.

2. Hızlı Enjeksiyon

Yanıtlarını değiştirmek için bir LLM'ye yeni talimatlar veya istemler enjekte etmeyi içerir. Saldırganlar talimatları resimlerin veya web sayfalarının içine gizleyebilir, bu da modelin yanıtlarına alakasız veya zararlı içeriklerin dahil edilmesine yol açabilir.

3. Veri Zehirlenmesi / Arka Kapı Saldırısı / Uyuyan Ajan Saldırısı

Tetikleyici ifadeler içeren kötü amaçlı veya manipüle edilmiş veriler üzerinde geniş bir dil modelinin eğitilmesini içerir. Model, tetikleyici ifadeyle karşılaştığında, istenmeyen eylemleri gerçekleştirmek veya yanlış tahminler sağlamak üzere manipüle edilebilir.

Kapsamlı videoyu YouTube'da aşağıya tıklayarak izleyebilirsiniz:

[gömülü içerik][gömülü içerik]

Slaytlar: Buraya Tıkla

Yüksek Lisans'ta yeniyseniz ve yolculuğunuza başlamak için kaynaklar arıyorsanız, bu kapsamlı liste başlamak için harika bir yerdir! Sağlam bir temel oluşturmanıza yardımcı olacak hem temel hem de LLM'ye özgü kurslar içerir. Ayrıca, daha yapılandırılmış bir öğrenme deneyimiyle ilgileniyorsanız, Maxime Labonne yakın zamanda ihtiyaçlarınıza ve deneyim seviyenize göre seçebileceğiniz üç farklı bölümle LLM kursunu başlattı. Size kolaylık sağlamak için her iki kaynağın da bağlantılarını burada bulabilirsiniz:

  1. Kanwal Mehreen'den Büyük Dil Modellerinde Uzmanlaşmaya Yönelik Kaynakların Kapsamlı Listesi
  2. Maxime Labonne'dan Geniş Dil Modeli Kursu

 
 

Kanval Mehreen veri bilimine ve yapay zekanın tıptaki uygulamalarına büyük ilgi duyan, gelecek vadeden bir yazılım geliştiricisidir. Kanwal, APAC bölgesi için Google Generation Scholar 2022 olarak seçildi. Kanwal, trend olan konularda makaleler yazarak teknik bilgilerini paylaşmayı seviyor ve teknoloji endüstrisinde kadınların temsilini geliştirme konusunda tutkulu.

spot_img

En Son İstihbarat

spot_img