Zephyrnet Logosu

Julius ile İkili Lojistik Regresyon Modeli Nasıl Çalıştırılır?

Tarih:

Giriş

Lojistik regresyon bir istatistiksel teknik Bir veya daha fazla öngörücü değişkene dayalı ikili (iki farklı değer alabilen kategorik değişken) sonucun olasılığını modellemek için kullanılır. Sürekli değişkenleri tahmin eden (belirli bir aralıktaki herhangi bir sonsuz sayıyı varsayar) doğrusal regresyonun aksine, lojistik regresyon iki olası sonucu olan kategorik sonuçlar için kullanılır: evet/hayır, başarılı/başarısız veya 0/1. Bu, Julius ile ikili lojistik regresyon modelinin çalıştırılmasına ilişkin bir kılavuzdur.

Genel Bakış

  • Lojistik regresyonun temellerini ve bunun ikili sonuçlara uygulanmasını anlayın.
  • İkili lojistik regresyon analizi için bir veri kümesinin nasıl hazırlanacağını ve doğrulanacağını öğrenin.
  • Çoklu bağlantı ve diğer model varsayımlarını kontrol etme ve ele alma konusunda bilgi edinin.
  • İkili lojistik regresyon modelinin sonuçlarının nasıl yorumlanacağını keşfedin. Lojistik regresyon modellerini çalıştırma ve değerlendirme sürecini kolaylaştırmak için Julius AI'dan yararlanın.

İçindekiler

Julius AI nedir?

Julius A.I. veri bilimcileri için güçlü bir araçtır. Büyük veri kümelerini analiz edip görselleştirerek net görsel temsillerle içgörüler sağlar. Tahmin ve regresyon analizi gibi karmaşık görevleri yerine getirir. Julius AI ayrıca makine öğrenimi modellerini eğitiyor, algoritma seçimini, parametre ayarlamayı ve doğrulamayı otomatikleştiriyor. İş akışlarını kolaylaştırır, manuel çabayı azaltır ve veri odaklı projelerde doğruluğu ve verimliliği artırır.

Şimdi Julius AI'nın İkili Lojistik Regresyon Modelini çalıştırmak için nasıl kullanılabileceğine bakalım.

Veri Kümesi Varsayımları

İkili lojistik regresyonu çalıştırmak için veri kümemizin aşağıdaki varsayımları takip ettiğinden emin olmalıyız:

  • İkili sonuç bağımlı değişkenin ikili olması gerekir: tam olarak iki kategoriye sahiptir
  • Gözlemler bağımsız olmalıdır; yani bir değişkenin sonucu diğerinin sonucunu etkilememelidir.
  • Logit'in doğrusallığı, her bir yordayıcı değişken arasındaki ilişkidir ve sonucun log olasılıkları doğrusal olmalıdır.
  • Çoklu Bağlantı Yok Bağımsız değişkenler arasında çoklu bağlantı çok az olmalı veya hiç olmamalıdır.
  • Büyük bir örneklem büyüklüğü, tahminlerin istikrarını ve güvenilirliğini sağlamaya yardımcı olur.

Araştırma sorusu

Burada, demografik değişkenlerin farklı eğitim ortamlarındaki işten ayrılma oranlarını tahmin edip edemeyeceğini araştırmak istedik. Devlet eğitim kurumlarının farklı okul müdürleriyle ilgili kamuya açık verilerine ulaştık. Çalışmayı takip eden iki yıl boyunca devir oranını evet veya hayır olarak ölçtük (ikili faktör varsayımını yerine getirerek). Listelenen diğer değişkenler veritabanı okul türü, ırk/etnik köken, cinsiyet, taban maaş ve yıllara göre kaydedilen toplam eğitim deneyimini içermektedir. veri kümesi 1200'den fazla okul müdürünü içeriyordu (Büyük örneklem büyüklüğü varsayımının karşılandığı). Veri kümesinin önizlemesi aşağıda listelenmiştir.

Araştırma Sorusu | Julius ile İkili Lojistik Regresyon Modelini Çalıştırma Kılavuzu

metodoloji

Açık ve öz olması için istemler oluşturduk. Julius'u kullandık, önde gelen istatistiksel yazılım aracımodelle ilgili her şeyi otomatik olarak üretmedi. Sonuç olarak, model varsayımlarını kontrol ettik ve bağımlı değişkenleri ve yordayıcı değerleri belirledik. Daha sonra koştuk tanımlayıcı istatistikler ve model uyumunu değerlendirdik. Her birinden sonra istemiJulius'a bulguları yorumlaması talimatını verdik. Aşağıda istemlerimizin ve Julius'un çıktısının kapsamlı bir listesi bulunmaktadır. Julius'un çıktılarını aynen kopyaladık, orijinal konuşmaları hiçbir değişiklik yapmadan kaydettik. Julius'un çıktılarının doğruluğunu doğrulamak için SPSS'i kullandık.

istemleri

Kullanıcı: İkili lojistik regresyon modelini çalıştırın. Aşağıdaki lojistik model varsayımlarını kontrol edin:

  1. Mükemmel diye bir şey olmamalı eşdüzlemlilik bağımsız değişkenler arasında
  2. Sürekli tahmin ediciler, sonucun dönüştürülmüş bir versiyonuyla (doğrusallık) doğrusal olarak ilişkilidir. Bağımlı değişken iş devridir. Yordayıcı değişkenler okul türü, ırk, etnik köken, cinsiyet, dolar cinsinden taban maaş ve yıl cinsinden toplam deneyimdir.

Nihai model raporu aşağıdakileri içermelidir:

  1. Sonuç değişkenine ve her bir yordayıcıya ilişkin tanımlayıcı istatistikler.
  2. Hangi varsayımların kontrol edildiği ve karşılanıp karşılanmadığına ilişkin bilgiler.
  3. OR'ler ve bunların %95 GA'sı dahil olmak üzere modelin önemi, model uyumu ve model tahminleri hakkında bir beyan.
  4. Bulguların yorumlanması
  5. R kare kullanılarak açıklanan varyans yüzdesini gösterin ve her öngörücü değerin katkısını gösterin.

Julius ile İkili Lojistik Regresyon Modelini Çalıştırma Kılavuzu

Şimdi Julius ile ikili lojistik regresyon modelinin çalıştırılmasına adım adım bakalım:

1. Adım: Veri Kümesini Önizleme

Ciro.xlsx dosyasının 1. Sayfasındaki veri kümesi yüklendi. İşte verilerin bir önizlemesi:

Julius ile İkili Lojistik Regresyon Modelini Çalıştırma Kılavuzu

Şimdi, model varsayımlarının, tanımlayıcı istatistiklerin, model öneminin, uygunluğunun, tahminlerinin ve bulguların yorumlanmasının kontrol edilmesi de dahil olmak üzere ikili lojistik regresyon modeli analizine devam edeceğim. Sonuç değişkeninin ve her bir yordayıcının tanımlayıcı istatistikleriyle başlayalım.

Adım 2: Tanımlayıcı İstatistikleri, Model Anlamını, Uyumunu ve Tahminlerini Kontrol Etme

Sayısal değişkenlere (dolar cinsinden taban maaş ve yıl cinsinden toplam deneyim) ve sonuç değişkenine (iş devir hızı, 'HAYIR' için 0 ve 'EVET' için 1 olarak kodlanmıştır) ilişkin tanımlayıcı istatistikler aşağıdaki gibidir:

Julius ile İkili Lojistik Regresyon Modelini Çalıştırma Kılavuzu

Kategorik değişkenler için (okul türü, ırk/etnik köken, cinsiyet), tanımlayıcı istatistikler şöyledir:

Julius ile İkili Lojistik Regresyon Modelini Çalıştırma Kılavuzu

Adım 3a: VIF ve Logit Doğrusallığını Kullanarak Bağımsız Değişkenler Arasında Çoklu Bağlantının Kontrol Edilmesi

Daha sonra, bağımsız değişkenler arasındaki çoklu bağlantının test edilmesiyle başlayarak ve ardından sonucun logitiyle sürekli yordayıcıların doğrusallığını değerlendirerek lojistik model varsayımlarını kontrol edeceğim.

Değişkenler arasındaki çoklu bağlantının kontrol edilmesi için Varyans Enflasyon Faktörü (VIF) kullanıldı. Sonuçlar aşağıdaki gibidir:

Julius ile İkili Lojistik Regresyon Modelini Çalıştırma Kılavuzu

Çoğu değişken için VIF 10'un altındadır; bu genellikle kabul edilebilirdir ve ciddi bir çoklu bağlantının olmadığını gösterir. Bununla birlikte, 'Kesişme' ve 'okul türü' içindeki bazı kategoriler daha yüksek VIF değerlerine sahiptir ve bu, bu kategorik değişkenler içindeki olası çoklu bağlantı sorunlarına işaret etmektedir.

Box-Tidwell testini kullanarak doğrusallık varsayımını kontrol etmeye çalışırken, dönüştürülen değişkenlerdeki eksik veriler veya sonsuz değerler nedeniyle bir hata oluştu. Bu, 'dolar cinsinden taban maaş' ve 'Yıl Bazında Toplam Deneyim' cinsinden sıfır veya negatif değerlerin, günlüğe kaydedildiğinde tanımsız değerlerle sonuçlanabileceğini göstermektedir.

Adım 3b: Sorunlu Değerlerin Ele Alınması: Sıfırlar veya Negatif Değerler

Devam etmeden önce bu sorunlu değerleri kaldırarak veya yükleyerek bu sorunu çözmeliyim. Öncelikle bu sütunlardaki verilerde sıfır veya negatif değer olup olmadığını inceleyelim ve sonraki adımlara karar verelim.

'Yıllara Göre Toplam Deneyim' sütununda sıfır değerli satırlar doğrusallık varsayımı kontrolü sırasında hataya neden olmuştur. İşte sorunlu satırlar:

Julius ile İkili Lojistik Regresyon Modelini Çalıştırma Kılavuzu

Doğrusallık varsayımı kontrolüne devam etmek için birkaç seçeneğimiz var: Bu satırları veri kümesinden kaldırın. Sıfır değerlerini uygun bir istatistikle girin (örneğin, 'Yıllar Bazında Toplam Deneyim'in ortalaması veya medyanı).

Julius tanımlayıcı istatistikleri çalıştırabilir, varsayımları çalıştırabilir ve bize eksik verileri nasıl ele almak istediğimizi sorabilir. Devam edelim:

Kullanıcı: “Yıllara Göre Toplam Deneyim”de sıfır değerli satırları kaldırmak mı yoksa sıfır değerleri uygun bir istatistikle girmek mi istiyorsunuz?

Julius: Lojistik regresyon analizi için verilerin bütünlüğünü korumak amacıyla 'Yıllara Göre Toplam Deneyim'de sıfır değerli satırları kaldıralım. Bu yaklaşım, veri dağılımını yapay olarak değiştirmeden doğrusallık varsayımını doğru bir şekilde değerlendirmemize olanak sağlayacaktır. Bu satırları kaldıracağım ve ardından doğrusallık varsayımı kontrolünü yeniden deneyeceğim.

Adım 4: Doğrusallık Varsayım Kontrolünün Sonucu

'Yıllara Göre Toplam Deneyim'de sıfır değerli satırları çıkardıktan sonra Box-Tidwell testini kullanarak doğrusallık varsayımı kontrolünü tamamladık. Lojistik regresyon modelinin sonuçları şunlardır:

Julius ile İkili Lojistik Regresyon Modelini Çalıştırma Kılavuzu

Model, logaritmik olarak dönüştürülmüş 'dolar cinsinden temel maaş' ve 'Yıllar Bazında Toplam Deneyim' tahminlerini içerir. Her iki öngörücü de p değerlerinin gösterdiği gibi istatistiksel olarak anlamlıdır (P<0.05). 'Dolar bazında taban maaş' katsayısı pozitif olup, taban maaş arttıkça işten ayrılma olasılığının da arttığını göstermektedir. 'Yıllara Göre Toplam Deneyim günlüğü' katsayısı negatiftir; bu, toplam deneyim arttıkça işten ayrılma olasılığının azaldığını gösterir.

Adım 5: Lojistik Regresyon Modelinin Gerçekleştirilmesi

Daha sonra, modelin anlamlılığını, uyumunu, tahminlerini (OR'ler ve bunların %95 GA'ları) ve her öngörücü değişkenin göreceli katkısını değerlendirmek için tüm yordayıcıları içeren tam lojistik regresyon modeliyle ilerleyeceğim.

Lojistik regresyon modeli analizinin tamamı tamamlandı. İşte model sonuçlarının bir özeti:

Julius ile İkili Lojistik Regresyon Modelini Çalıştırma Kılavuzu

Model, okul türü, ırk/etnik köken, cinsiyet, logaritmik olarak dönüştürülmüş taban maaş ve logaritmik olarak dönüştürülmüş toplam deneyim gibi tahmin edicileri içerir. Modelin sözde R-kare değeri 0.04257'dir ve bu da mütevazı bir uyumu gösterir. Log-dönüştürülmüş taban maaş ve toplam deneyim, 0.05'ten düşük p değerleri ile iş cirosunun istatistiksel olarak anlamlı belirleyicileridir. Okul türü, ırk/etnik köken ve cinsiyet gibi diğer değişkenlere ilişkin katsayılar istatistiksel olarak 0.05 düzeyinde anlamlı değildir.

Adım 6: Değişkenler Arasındaki İlişkinin Gücünü ve Yönünü Ölçmek için Olasılık Oranını Kullanmak

Her tahminci için Olasılık Oranları (OR'ler) ve bunların %95 Güven Aralıkları (CI'ler) aşağıdaki gibidir:

Julius ile İkili Lojistik Regresyon Modelini Çalıştırma Kılavuzu

Log-dönüştürülmüş taban maaş için OR 0.337'dir; bu, log-dönüştürülmüş taban maaştaki her birim artış için iş devir hızı oranının yaklaşık %66.3 azaldığını gösterir. Log-dönüştürülmüş toplam deneyim için OR 0.429 olup, log-dönüştürülmüş toplam deneyimdeki her birim artış için iş devir oranının yaklaşık %57.1 azaldığını göstermektedir. Okul türü, ırk/etnik köken ve cinsiyete ilişkin OR'ler, bunların işten ayrılma olasılığı üzerindeki göreceli etkilerini göstermektedir, ancak bu etkiler istatistiksel olarak anlamlı değildir.

Bu analiz, maaş ve deneyimin önemini vurgulayarak iş devrini etkileyen faktörlere ilişkin bilgiler sağlar.

Sonuç

Dolar cinsinden taban maaşın ve yıllara göre toplam deneyimin, müdürler arasındaki işten ayrılma oranlarının iki önemli belirleyicisi olduğunu bulduk. İkili lojistik regresyon modeli Julius -1.0874 katsayısıyla (SE = 0.411, p = 0.008) baz maaşın işten ayrılma oranlarını önemli ölçüde etkilediğini göstermektedir. Logaritmik olarak dönüştürülmüş baz maaştaki her birim arttıkça iş cirosu %66.3 oranında azalıyor. Ayrıca toplam deneyim -0.4792 katsayısıyla işten ayrılma oranlarını önemli ölçüde etkilemektedir (SE = 0.194, p = 0.014). Deneyimdeki her birim artış, iş cirosunda %57.1'lik bir azalmaya neden olur.

spot_img

En Son İstihbarat

spot_img

Bizimle sohbet

Merhaba! Size nasıl yardım edebilirim?