2023'te Eğitim-Test-Doğrulama Bölünmesi İçin Kapsamlı Bir Kılavuz

Giriş

Denetimli öğrenmenin amacı, bir dizi yeni veri üzerinde iyi performans gösteren bir model oluşturmaktır. Sorun şu ki, yeni verileriniz olmayabilir, ancak bunu yine de tren-test-doğrulama ayrımı gibi bir prosedürle deneyimleyebilirsiniz.

Modelinizin bir veri kümesinde nasıl performans gösterdiğini görmek ilginç değil mi? Bu! Özel olarak çalışmanın en iyi yönlerinden biri, çabalarınızın verimli bir makine öğrenimi modeli oluşturmak ve etkili sonuçlar üretmek için iyi biçimlendirilmiş bir şekilde kullanıldığını görmektir.

Tren Testi Doğrulama Bölünmesi nedir?

Tren-test-doğrulama ayrımı temeldir makine öğrenme ve özellikle model geliştirme sırasında veri analizi. Bir veri kümesini üç alt kümeye bölmeyi içerir: eğitim, test ve doğrulama. Tren testi bölünmesi, modelinizin yeni bir veri kümesiyle nasıl performans göstereceğini kontrol etmenize olanak tanıyan bir model doğrulama işlemidir.

Eğitim-test-doğrulama ayrımı, bir makine öğrenimi modelinin yeni, görülmemiş verilere ne kadar iyi genelleştirileceğinin değerlendirilmesine yardımcı olur. Ayrıca, bir modelin eğitim verileri üzerinde iyi performans gösterdiği ancak yeni örneklere genelleştiremediği aşırı uyumu da önler. Uygulayıcılar, bir doğrulama seti kullanarak, görünmeyen veriler üzerinde daha iyi performans elde etmek için modelin parametrelerini yinelemeli olarak ayarlayabilirler.

Makine Öğreniminde Veri Bölmenin Önemi

Veri bölme Bir veri kümesinin eğitim, doğrulama ve test alt kümelerine bölünmesini içerir. Makine Öğreniminde Veri Bölmenin önemi aşağıdaki hususları kapsar:

Eğitim, Doğrulama ve Test

Veri bölme, bir veri kümesini üç ana alt kümeye ayırır: modeli eğitmek için kullanılan eğitim kümesi; model parametrelerini izlemek ve aşırı uyumu önlemek için kullanılan doğrulama seti; ve modelin yeni veriler üzerindeki performansını kontrol etmek için kullanılan test seti. Her alt küme, bir makine öğrenimi modelinin geliştirilmesine yönelik yinelemeli süreçte benzersiz bir amaca hizmet eder.

Model Geliştirme ve Ayarlama

Model geliştirme aşamasında, algoritmanın veri içindeki çeşitli kalıplara maruz kalması için eğitim seti gereklidir. Model, hataları en aza indirecek şekilde parametrelerini ayarlayarak bu alt kümeden öğrenir. Doğrulama seti, hiperparametre izleme sırasında önemlidir ve modelin konfigürasyonunun optimize edilmesine yardımcı olur.

Aşırı Uyum Önleme

Aşırı uyum, bir model eğitim verilerini iyi öğrendiğinde, gürültüyü ve alakasız kalıpları yakaladığında ortaya çıkar. Doğrulama seti, aşırı uyumun tespitine izin veren bir kontrol noktası görevi görür. Modelin performansını farklı bir veri kümesinde değerlendirerek, aşırı uyumu önlemek ve genellemeyi geliştirmek için model karmaşıklığını, teknikleri veya diğer hiper parametreleri ayarlayabilirsiniz.

Performans değerlendirmesi

Test seti, bir makine öğrenimi modelinin performansı için gereklidir. Eğitim ve doğrulamanın ardından model, gerçek dünya senaryolarını kontrol eden test setiyle karşı karşıya gelir. Test setindeki iyi performans gösteren bir model, onun yeni, görülmemiş verilere başarılı bir şekilde adapte olduğunu gösterir. Bu adım, modeli gerçek dünya uygulamalarına dağıtma konusunda güven kazanmak açısından önemlidir.

Önyargı ve Farklılık Değerlendirmesi

Tren Testi Doğrulama Bölünmesi önyargı değiş tokuşunun anlaşılmasına yardımcı olur. Eğitim seti, modelin önyargısı hakkında bilgi sağlayarak doğal kalıpları yakalar; doğrulama ve test setleri ise varyansın değerlendirilmesine yardımcı olarak modelin veri setindeki dalgalanmalara karşı duyarlılığını gösterir. Önyargı ve varyans arasında doğru dengeyi yakalamak, farklı veri kümelerinde iyi genelleme yapan bir model elde etmek için hayati öneme sahiptir.

Sağlamlık için Çapraz Doğrulama

Basit bir tren-doğrulama-test ayrımının ötesinde, k-katlı çapraz doğrulama gibi teknikler modellerin sağlamlığını daha da artırır. Çapraz doğrulama, veri kümesini k alt kümeye bölmeyi, modeli k-1 alt kümeleri üzerinde eğitmeyi ve geri kalanını doğrulamayı içerir. Bu işlem k kez tekrarlanır ve sonuçların ortalaması alınır. Çapraz doğrulama, bir modelin farklı veri alt kümelerindeki performansının daha kapsamlı anlaşılmasını sağlar.

Model Performansında Veri Bölmenin Önemi

Model performansında Veri bölmenin önemi aşağıdaki amaçlara hizmet eder:

Model Genellemesinin Değerlendirilmesi

Modeller sadece eğitim verilerini ezberlememeli, aynı zamanda iyi bir şekilde genelleştirebilmelidir. Veri bölme, bir modelin yeni veriler üzerinde ne kadar iyi performans gösterdiğini kontrol etmek için gerçek dünya kontrolleri sağlayan bir test seti oluşturmaya olanak tanır. Özel bir test seti olmadan, bir model eğitim verilerine çok yakın uyum sağladığında aşırı uyum riski artar. Veri bölme, bir modelin gerçek genelleme yeteneklerini değerlendirerek bu riski azaltır.

Aşırı Uyumun Önlenmesi

Aşırı uyum, bir model daha karmaşık hale geldiğinde ve eğitim verilerinden gürültü veya belirli desenler yakalayıp genelleme yeteneğini azalttığında meydana gelir.

Model Hiperparametrelerinin Optimizasyonu Bir modeli izlemek, performansa ulaşmak için hiperparametrelerin ayarlanmasını içerir. Bu süreç, ayrı bir doğrulama seti tarafından yapılan, model davranışına dayalı yinelemeli ayarlamalar gerektirir.

Güç Değerlendirmesi

Sağlam bir model, farklı veri kümeleri ve senaryolarda tutarlı bir şekilde performans göstermelidir. Veri bölme, özellikle k-katlı çapraz doğrulama, bir modelin sağlamlığının değerlendirilmesine yardımcı olur. Farklı alt kümeler üzerinde eğitim ve doğrulama yaparak, bir modelin çeşitli veri dağılımlarına ne kadar iyi genelleştirildiğine dair içgörüler elde edebilirsiniz.

Önyargı-Varyans Dengeleme Yönetimi

Önyargı ve varyans arasında bir denge kurmak, verilere gereğinden fazla uymayan modeller geliştirmek için çok önemlidir. Veri bölme, bir modelin eğitim seti üzerindeki önyargısının ve doğrulama veya test seti üzerindeki varyansının değerlendirilmesine olanak tanır. Bu anlayış, model karmaşıklığını optimize etmek için gereklidir.

Veri Bölünmesini Anlamak: Eğitim, Test, Doğrulama

Bir modelin eğitim ve test amaçları için veriler üç farklı veri kümesine bölünmelidir:

Eğitim Seti

Modelin verilerdeki gizli özellikleri öğrenmesini sağlamak ve eğitmek için kullanılan veri kümesidir. Modelin her koşulda eğitilebilmesi ve gelecekte ortaya çıkabilecek herhangi bir veri örneğini tahmin edebilmesi için eğitim setinin farklı girdilere sahip olması gerekir.

Doğrulama Seti

Doğrulama seti, eğitim sırasında model performansını doğrulamak için kullanılan bir veri setidir.

Bu doğrulama süreci, modelin yapılandırmalarının ayarlanmasına yardımcı olan bilgileri verir. Her çağdan sonra model eğitim seti üzerinde eğitilir ve doğrulama seti üzerinde model değerlendirmesi gerçekleştirilir.

Veri setini doğrulama setine bölmenin ana fikri, modelin eğitim setindeki örnekleri sınıflandırmada iyi olmasına rağmen daha önce görmediği veriler üzerinde genelleme ve doğru sınıflandırmalar yapamamasını engellemektir.

Test Seti

Test seti, eğitim tamamlandıktan sonra modeli test etmek için kullanılan bir veri setidir. Doğruluk ve hassasiyet açısından son model performansı sağlar.

Veri Ön İşleme ve Temizleme

Veri ön işleme, ham veri kümesinin anlaşılır bir formata dönüştürülmesini içerir. Verilerin ön işlenmesi, veri madenciliğinde veri verimliliğini artırmaya yardımcı olan önemli bir aşamadır.

Veri Bölmede Rastgeleleştirme

Rastgeleleştirme, makine öğreniminde tarafsız eğitim, doğrulama ve alt kümeleri test etme açısından önemlidir. Bölümlendirmeden önce veri kümesinin rastgele karıştırılması, veri sırasına özgü kalıpların tanıtılması riskini en aza indirir. Bu, modellerin düzenlemeye bağlı olarak gürültülü verileri öğrenmesini engeller. Rastgeleleştirme, modellerin genelleme yeteneğini geliştirerek onları çeşitli veri dağılımlarında sağlam hale getirir. Ayrıca, her bir alt kümenin genel veri kümesindeki çeşitliliği yansıtmasını sağlayarak olası önyargılara karşı da koruma sağlar.

Tren-Test Bölünmesi: Nasıl Yapılır

Bir eğitim-test ayrımı gerçekleştirmek için Python'daki scikit-learn gibi kütüphaneleri kullanın. 'train_test_split' işlevini içe aktarın, veri kümesini belirtin ve test boyutunu ayarlayın (örneğin, %20). Bu işlev, verileri rastgele eğitim ve test kümelerine bölerek sınıfların veya sonuçların dağılımını korur.

Train Test Split için Python kodu:

from sklearn.model_selection import train_test_split
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.2, random_state=42)
#import csv

Doğrulama Bölünmesi: Nasıl Yapılır

Eğitim-test bölünmesinden sonra, doğrulama bölünmesi için eğitim setini daha fazla bölümlendirin. Bu, model ayarı için çok önemlidir. Yine, doğrulama seti olarak bir kısım (örneğin, %15) tahsis ederek eğitim verileri üzerinde "train_test_split"i kullanın. Bu, el değmemiş test setine dokunmadan modelin parametrelerinin hassaslaştırılmasına yardımcı olur.

Doğrulama Bölünmesi için Python Kodu

from sklearn.model_selection import train_test_split
X_train_temp, X_temp, y_train_temp, y_temp = train_test_split(X, y, test_size=0.3, random_state=42) X_val, X_test, y_val, y_test = train_test_split(X_temp, y_temp, test_size=0.5, random_state=42)
#import csv

Sınıflandırma için Tren Testi Bölümü

Sınıflandırmada veriler eğitim ve test setleri olmak üzere iki kısma ayrılır. Model bir eğitim seti üzerinde eğitilir ve performansı bir test seti üzerinde incelenir. Eğitim seti verinin %80’ini, test seti ise %20’sini içerir.

Gerçek Veri Örneği:

from sklearn.model_selection import train_test_split
from sklearn.datasets import load_trivia
from sklearn.linear_model import LogisticRegression
from sklearn.metrics import accuracy_score
iris = load_trivia()
X = trivia.data
y = trivia.target
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.2, random_state=42)
model = LogisticRegression()
model.fit(X_train, y_train)
y_pred = model.predict(X_test)
accuracy = accuracy_score(y_test, y_pred)
print(f"Accuracy: {accuracy}")
#import csv

Çıktı

Doğruluk: 1.0

Tren Testi Regresyon

Regresyon veri kümelerini eğitim ve test veri kümelerine bölün. Modeli eğitim verilerine göre eğitin ve performans, test verilerine göre değerlendirilir. Temel amaç, modelin yeni veri setine ne kadar iyi genelleştirildiğini görmektir.

from sklearn.model_selection import train_test_split
from sklearn.datasets import load_boston
from sklearn.linear_model import LinearRegression
from sklearn.metrics import mean_squared_error
boston = load_boston()
X = boston.data
y = boston.target
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.2, random_state=42)
model = LinearRegression()
model.fit(X_train, y_train)
y_pred = model.predict(X_test)
mse = mean_squared_error(y_test, y_pred)
print(f"Mean Squared Error: {mse}")
#import csv

Ortalama Kare Hatası: 24.291119474973616

Veri Bölmede En İyi Uygulamalar

Rastgeleleştirme: Sırayla ilgili önyargılardan kaçınmak için verileri bölmeden önce rastgele karıştırın.
Tabakalaşma: Sınıflandırma görevleri için gerekli olan her bölünmede sınıf dağılımını koruyun.
Çapraz Doğrulama: Özellikle daha küçük veri kümelerinde sağlam model değerlendirmesi için k-katlı çapraz doğrulamayı kullanın.

Kaçınılması Gereken Genel Hatalar

Eğitim-Test-Doğrulama Bölünmesini gerçekleştirirken kaçınılması gereken yaygın hatalar şunlardır:

Veri sızıntısı: Test setindeki hiçbir bilginin eğitimi veya doğrulamayı etkilemediğinden emin olun.
Sınıf Dengesizliğini Göz ardı Etmek: Daha iyi model eğitimi için bölünmeleri katmanlandırarak sınıf dengesizliklerini giderin
Çapraz Doğrulamaya Bakış: Yalnızca tek bir tren-test ayrımına güvenmek, model değerlendirmesinde yanlılık yaratabilir.

Sonuç

Eğitim-Test-Doğrulama Bölünmesi, bir makine öğrenimi modelinin verimliliğini test etmek için önemli bir testtir. Makine öğrenimi modelinin doğruluğunu kontrol etmek için farklı veri kümelerini değerlendirir, dolayısıyla teknolojik alanda önemli bir araç olarak hizmet eder.

Önemli Noktalar

Stratejik Veri Bölümü:
- Etkili model geliştirme için verileri eğitim, test ve doğrulama kümelerine bölmenin önemini öğrenin.
- Aşırı uyumu önleme ve model performansını optimize etme konusunda her bir alt kümenin kendine özgü rollerini anlayın.
Pratik uygulama:
- Python kitaplıklarını kullanarak eğitim-test-doğrulama ayrımlarını uygulama becerilerini edinin.
- Tarafsız ve güvenilir model değerlendirmesi için rastgeleleştirme ve sınıflandırmanın önemini kavrayın.
Yaygın Hatalara Karşı Korunmak:
- Sızıntı ve sınıf dengesizliği gibi veri bölme sırasında karşılaşılan yaygın tuzaklara ilişkin öngörüler edinin.
- Modelin sağlamlığının ve çeşitli veri kümeleri genelinde genelleştirilmesinin sağlanmasında çapraz doğrulamanın rolü.

İlgili bağlantılar

SEO Destekli İçerik ve Halkla İlişkiler Dağıtımı. Bugün Gücünüzü Artırın.
PlatoData.Network Dikey Üretken Yapay Zeka. Kendine güç ver. Buradan Erişin.
PlatoAiStream. Web3 Zekası. Bilgi Genişletildi. Buradan Erişin.
PlatoESG. karbon, temiz teknoloji, Enerji, Çevre, Güneş, Atık Yönetimi. Buradan Erişin.
PlatoSağlık. Biyoteknoloji ve Klinik Araştırmalar Zekası. Buradan Erişin.
Kaynak: https://www.analyticsvidhya.com/blog/2023/11/train-test-validation-split/

Üretken Veri Zekası