Zephyrnet Logosu

Makineler, boyutsallığın laneti tarafından rahatsız ediliyor

Tarih:

Birçok boyuta veya özelliğe sahip çok sayıda veriyle uğraştığımızda boyutluluğun laneti devreye girer. Verinin boyutu, bir veri kümesindeki özelliklerin veya sütunların sayısıdır.

Yüksek boyutlu verilerin birkaç zorluğu vardır, bunlardan en dikkat çekeni, onu işlerken ve görselleştirirken anlamlı korelasyonlar bulmanın son derece zor hale gelmesidir. Ayrıca, boyut sayısı arttıkça modelin eğitimi çok daha yavaş hale gelir. Daha fazla boyut, çoklu bağlantı için daha fazla şansı da davet eder. Çoklu doğrusallık, iki veya daha fazla değişkenin birbiriyle yüksek oranda ilişkili olduğu bir durumdur.

İçindekiler

Boyutluluğun laneti nedir?

Boyutluluğun laneti, yüksek boyutlu verileri, özellikle veri seyrekliği ve verilerin "yakınlığını" sınıflandırırken, düzenlerken ve analiz ederken sorunları tanımlamak için kullanılan bir terimdir.

Neden lanet olsun?

Veri seyrekliği, daha yüksek boyutlara gittiğinizde ortaya çıkan bir sorundur. Temsil edilen alan miktarı o kadar hızlı büyüdüğünden veri yetişemez, aşağıda görüldüğü gibi seyrekleşir. Seyreklik sorunu, istatistiksel anlamlılık için büyük bir sorundur. Veri alanı iki boyuta ve ardından üç boyuta yaklaştıkça, onu dolduran veri miktarı azalır. Bunun bir sonucu olarak, analiz için veriler önemli ölçüde büyür. 

Boyutluluğun Laneti
Boyutluluğun laneti: Verinin boyutu, bir veri kümesindeki özelliklerin veya sütunların sayısı olarak tanımlanır.

Bir boyutta dört nokta içeren bir veri seti düşünün (veri setinde yalnızca bir özellik). Basitçe bir çizgi kullanılarak temsil edilebilir ve sadece dört veri noktası olduğundan boyut uzayı 4'e eşittir. Uzayda 4 boyutlu bir artışla sonuçlanan başka bir özellik eklediğimizi varsayalım. Buna bir bileşen daha eklersek, uzay 16 boyuta genişleyecektir. Boyutlar alanı, boyutların sayısı arttıkça katlanarak büyür.

Boyutluluğun Laneti
Boyutluluğun laneti: Düşük boyutlu uzaylarda veriler benzer görünebilir, ancak boyut arttıkça bu veri noktaları daha uzak görünebilir

İkinci konu, verilerin nasıl sıralanacağı veya sınıflandırılacağıdır. Düşük boyutlu uzaylarda veriler benzer görünebilir, ancak boyut arttıkça bu veri noktaları daha uzak görünebilir. Yukarıdaki resimde, iki boyut birbirine yakın görünüyor, ancak üç boyutta bakıldığında uzak görünüyor. Boyutluluk laneti veriler üzerinde aynı etkiye sahiptir.

Boyutlardaki artışla birlikte, gözlemler arasındaki mesafeyi hesaplamak giderek zorlaşıyor ve korelasyona dayanan tüm algoritmalar bunu zorlu bir mücadele olarak hesaplıyor.

Daha fazla boyut daha fazla eğitim gerektirir 

Nöral ağlar belirli sayıda özellik (boyut) ile somutlaştırılır. Her verinin, her biri bir boyut boyunca bir yere düşen kendi özellikleri vardır. Örneğin, bir özelliğin rengi işlemesini, diğerinin ise ağırlığı ele almasını isteyebiliriz. Her özellik bilgi ekler ve akla gelebilecek her özelliği kavrayabilseydik, hangi meyveyi düşündüğümüzü doğru bir şekilde aktarabilirdik. Bununla birlikte, sonsuz sayıda özellik, sonsuz eğitim örneği gerektirir ve bu nedenle ağımızın gerçek dünyadaki kullanışlılığını şüpheli hale getirir.

Gereken eğitim verilerinin miktarı, her yeni özellik ile büyük ölçüde artar. Her biri 'evet' veya 'hayır' sorusu olan sadece 15 özelliğimiz olsa bile, gereken eğitim örneği sayısı 21532,000 olacaktır.

Boyutluluğun Laneti
Boyutluluğun laneti: Sonsuz sayıda özellik, sonsuz eğitim örneği gerektirir, bu nedenle ağların gerçek dünyadaki kullanışlılığını şüpheli hale getirir

Boyutluluk laneti ne zaman yürürlüğe girer?

Aşağıdakiler, boyutsallık lanetinin doğrudan sonucunun gözlemlenebileceği alanlara ilişkin sadece birkaç örnektir: Makine öğrenme lanetten en kötü darbeyi alır.

Makine öğrenme

Makine Öğreniminde, boyuttaki marjinal bir artış, karşılaştırılabilir sonuçları sürdürmek için veri miktarında önemli bir genişlemeyi gerektirir. Yüksek boyutlu verilerle meydana gelen bir olgunun yan ürünü, boyutluluğun lanetidir.

Anomali tespiti

Anomali tespiti verilerde olağandışı öğeler veya olaylar bulmaktır. Yüksek boyutlu verilerde, anomalilerin çoğu zaman alakasız birçok özelliği vardır; çeşitli şeyler komşu listelerinde diğerlerinden daha sık görünür.

Kombinatorik

Girdi kombinasyonları için daha fazla olasılık olduğunda, karmaşıklık hızla artar ve boyutluluğun laneti baş gösterir.

Boyutluluk lanetini hafifletmek

Yüksek boyutlu verilerin neden olduğu boyutluluk laneti ile başa çıkmak için, "olarak bilinen bir yöntemler topluluğu"Boyut Azaltma Teknikleri” istihdam edilmektedir. Boyut küçültme prosedürleri “Özellik seçimi” ve “Özellik çıkarma” olarak ikiye ayrılır.

Özellik seçim teknikleri

Özellikler, kullanışlılık açısından değerlendirilir ve daha sonra öznitelik seçim yöntemlerinde seçilir veya elimine edilir. Aşağıdakiler, en popüler Özellik seçim prosedürlerinden bazılarıdır.

  • Düşük Varyans filtresi: Bu yöntemde bir veri setindeki tüm değişkenlerin dağılımındaki varyans karşılaştırılır ve çok düşük varyasyona sahip olanlar çıkarılır. Biraz varyansa sahip nitelikler neredeyse sabit olacaktır; bu nedenle, modelin öngörülebilirliğine yardımcı olmazlar.
  • Yüksek Korelasyon filtresi: Nitelikler arasındaki korelasyon bu yöntemde değerlendirilir. En ilişkili özellik çifti silinir ve diğeri korunur. Alıkonan, elimine edilen özellikteki farkın derecesini kaydeder.
  • Çoklu doğrusallık: Nitelikler yüksek oranda ilişkili olduğunda, özellik çiftleri için yüksek derecede kesinlik elde edilemeyebilir, ancak her bir nitelik diğerlerinin bir fonksiyonu olarak gerilerse, bazı niteliklerin varyanslarının diğerleri tarafından tamamen kapsandığını gözlemleyebiliriz. Çoklu bağlantı sorunu, genellikle 10'dan büyük yüksek VIF değerlerine sahip öznitelikler kaldırılarak düzeltilir. Yüksek VIF değerleri, ilgili değişkenler arasında çok fazla fazlalık olabileceğini ve bir regresyon modelinde kararsızlığa neden olabileceğini gösterir.
  • Özellik Sıralaması: Karar ağaçları ve CART gibi benzer modeller, öznitelikleri önemlerine veya modelin öngörülebilirliğine katkılarına göre sıralayabilir. Yüksek boyutlu verilerde, boyutların sayısını azaltmak için bazı düşük dereceli değişkenler kaldırılabilir.
  • İleri seçim: Çok-doğrusal regresyon modellerinin oluşturulmasında yüksek boyutlu veriler kullanıldığında, başlamak için yalnızca bir özniteliğin seçildiği bir yöntem kullanılabilir. Nihai özellikler ayrı ayrı eklenir ve değerleri “Adjusted-R2” değerleri ile doğrulanır. Düzeltilmiş-R2 değeri önemli ölçüde artarsa, değişken tutulur; aksi takdirde elenir.

Özellik ÇIKARMA TEKNİKLERİ 

Yüksek boyutlu özellikler, düşük boyutlu bileşenlerde (PCA veya ICA) birleştirilir veya düşük boyutlu bileşenlerde (FA) faktörlenir.

  • Temel Bileşen Analizi (PCA): Temel Bileşen Analizi (PCA), yüksek boyutlu bağıntılı verilerin, temel bileşenler olarak bilinen daha düşük boyutlu bir ilişkisiz bileşenler kümesine dönüştürüldüğü bir boyutluluk azaltma tekniğidir. Azaltılmış boyutlu temel bileşenler, orijinal yüksek boyutlu veri kümesindeki bilgilerin çoğunu oluşturur. 'n' boyutlu bir veri seti, 'n' temel bileşenlere dönüştürülür, 'n' ilke bileşenlerinin bir alt kümesi, ilkeler aracılığıyla yakalanacak verilerdeki varyans yüzdesine göre seçilir.
  • Faktör Analizi (FA): Faktör analizi, bir veri kümesinde gözlenen tüm özelliklerin, gizli faktörlerin ağırlıklı doğrusal bir kombinasyonu olarak temsil edilebileceğini varsayar. Bu yaklaşımın arkasındaki düşünce, 'n boyutlu bir verinin 'm' bileşenleriyle (m) modellenebileceğidir.
  • Bağımsız Bileşen Analizi (ICA): ICA varsayımının temeli, tüm özniteliklerin bağımsız bileşenlerden oluşması ve bu değişkenlerin bu bileşenlerin bir karışımına bölünmesidir. PCA, CCA'dan daha dayanıklıdır ve çoğunlukla PCA ve FA başarısız olduğunda kullanılır.

spot_img

En Son İstihbarat

spot_img

Bizimle sohbet

Merhaba! Size nasıl yardım edebilirim?