Zephyrnet Logosu

İnsanların, etiketleme konusunda anlaşamadığımız için yapay zeka sistemlerini yoldan çıkardığı ortaya çıktı.

Tarih:

Bir çalışma, AI modellerini eğitmek ve teknolojinin zaman içinde nasıl ilerlediğini kıyaslamak için kullanılan en iyi veri kümelerinin etiketleme hatalarıyla dolu olduğunu gösteriyor.

Veriler, makinelere belirli görevlerin nasıl tamamlanacağını öğretmede hayati bir kaynaktır, ister farklı bitki türlerini tanımlamak isterse otomatik olarak altyazı oluşturmak olsun. Çoğu sinir ağı, verilerdeki ortak kalıpları öğrenmeden önce kaşıkla beslenen partiler ve çok sayıda açıklamalı örnektir.

Ancak bu etiketler her zaman doğru değildir; Hataya açık veri kümelerini kullanan eğitim makineleri, performanslarını veya doğruluğunu azaltabilir. İçinde bahsi geçen çalışmaMIT liderliğindeki analistler, akademik makalelerde 100,000'den fazla kez atıfta bulunulan on popüler veri kümesini taradılar ve örneklerin ortalama yüzde 3.4'ünün yanlış etiketlendiğini buldular.

Baktıkları veri kümeleri, ImageNet'teki fotoğraflardan AudioSet'teki seslere, Amazon'dan alınan incelemelere ve QuickDraw'daki eskizlere kadar uzanıyor. Bazı hatalardan örnekler derlenmiş Araştırmacılar tarafından, bazı durumlarda, timsah olarak etiketlenmiş bir ampul çizimi gibi açık bir gaf olduğunu, ancak diğerlerinde her zaman açık olmadığını gösteriyor. Bir kova beyzbol topu resmine 'beyzbol topu' veya 'kova' olarak etiketlenmeli mi?

Şok içerikler ortaya çıktı

Dünyanın yapay zekasını eğitmek için kullanılan 1 TB ImageNet veri kümesinin içinde: Çıplak çocuklar, sarhoş frat partileri, porno yıldızları ve daha fazlası

DAHA FAZLA BİLGİ AL

Her örneğe açıklama eklemek zahmetli bir iştir. Bu iş genellikle, yapay zeka sistemlerine beslemek için görüntüleri ve sesleri etiketleyerek, verileri parça parça gözden geçirmeleri için işçilere toplamın karekökü kadar ödeme yapılan Amazon Mechanical Turk gibi hizmetlere dışarıdan sağlanan işlerdir. Vice'ın belgelediği gibi, bu süreç önyargıları ve hataları artırır okuyun.

İşçilere ödeme almak istiyorlarsa statükoyu kabul etmeleri için baskı yapılıyor: eğer birçoğu bir kova beyzbol topunu 'kova' olarak etiketliyorsa ve siz bunun 'beyzbol' olduğuna karar veriyorsanız, platform size hiç ödeme yapmayabilir. Yanlış olduğunuzu veya kasıtlı olarak etiketlemeyi bozmaya çalıştığınızı gösteriyor. Bu, çalışanların bir hata yapmış gibi görünmemek için en popüler etiketi seçeceği anlamına gelir. Anlatıya bağlı kalmak ve ağrılı bir başparmak gibi dışarı çıkmaktan kaçınmak onların çıkarınadır. Bu, bu veri kümelerinde hatalar veya daha da kötüsü, ırksal önyargılar ve benzeri kartopu anlamına gelir.

Hata oranları veri kümeleri arasında farklılık gösterir. İçinde IMAGEnet, nesne tanıma için modelleri eğitmek için kullanılan en popüler veri kümesi, hız yüzde altı. Yaklaşık 15 milyon fotoğraf içerdiği düşünülürse, bu yüz binlerce etiketin yanlış olduğu anlamına gelir. Bazı görüntü sınıfları diğerlerinden daha fazla etkilenir; örneğin, 'bukalemun' genellikle 'yeşil kertenkele' ile karıştırılır ve bunun tersi de geçerlidir.

Başka zincirleme etkiler de vardır: sinir ağları, verilerdeki özellikleri belirli etiketlerle yanlış bir şekilde ilişkilendirmeyi öğrenebilir. Diyelim ki, denizin birçok görüntüsü tekneler içeriyor gibi görünüyorsa ve bunlar 'deniz' olarak etiketlenmeye devam ediyorsa, bir makinenin kafası karışabilir ve tekneleri yanlış bir şekilde deniz olarak tanıması daha olası olabilir.

Bu gürültülü veri kümelerini kullanan modellerin performansını karşılaştırmaya çalışırken sorunlar ortaya çıkmaz. Araştırmanın başyazarı ve MIT'de doktora öğrencisi olan Curtis Northcutt, aynı zamanda bir makine öğrenimi donanımı girişimi olan ChipBrain'in kurucu ortağı ve CTO'su Curtis Northcutt, bu sistemlerin gerçek dünyada kullanılması durumunda risklerin daha yüksek olduğunu açıkladı. Kayıt.

"Kavşaklarda direksiyon kararları vermek için bir AI modeli kullanan kendi kendine giden bir araba hayal edin" dedi. “Kendi kendini süren bir araba, üç yönlü bir kavşağı dört yönlü kavşak olarak yanlış etiketleyen sık etiket hatalarına sahip bir veri kümesi üzerinde eğitilirse ne olur? Cevap: Üç yollu kavşaklarla karşılaştığında yoldan çıkmayı öğrenebilir.

Kendi kendini süren bir araba, üç yönlü bir kavşağı dört yönlü kavşak olarak yanlış etiketleyen sık etiket hatalarına sahip bir veri kümesi üzerinde eğitilirse ne olur?

“Belki de kendi kendine giden yapay zeka modellerinizden biri aslında gürültüyü eğitmeye daha dayanıklıdır, böylece yoldan çok fazla çıkmaz. Test setiniz çok gürültülüyse bunu asla bilemezsiniz çünkü test seti etiketleriniz gerçekle eşleşmeyecektir. Bu, otomatik pilot AI modellerinden hangisinin en iyi sürdüğünü doğru bir şekilde ölçemeyeceğiniz anlamına gelir - en azından arabayı gerçek dünyada, yoldan çıkabileceği bir yere yerleştirene kadar.”

Çalışma üzerinde çalışan ekip, ImageNet'in hatalardan arındırılmış kısımları üzerinde bazı evrişimsel sinir ağlarını eğittiğinde, performansları arttı. Boffin'ler, geliştiricilerin yüksek hata oranlarına sahip veri kümeleri üzerinde büyük modelleri eğitmek konusunda iki kez düşünmeleri ve önce örnekleri sıralamalarını önermeleri gerektiğine inanıyor. Ekibin geliştirdiği ve yanlış ve tutarsız etiketleri belirlemek için kullandığı Cleanlab yazılımı şu adreste bulunabilir: GitHub.

Northcutt, "Cleanlab, gürültülü etiketlerle makine öğrenimi için açık kaynaklı bir python paketidir" dedi. "Cleanlab, MIT'de icat edilen, kendine güvenen öğrenme adı verilen makine öğreniminin alt alanındaki tüm teori ve algoritmaları uygulayarak çalışıyor. Cleanlab'ı diğer araştırmacıların güvenli öğrenmeyi kullanmalarına izin vermek için (genellikle yalnızca birkaç satır kodla) ancak daha da önemlisi, gürültülü etiketlerle makine öğreniminde bilimin ilerlemesini ilerletmek ve yeni araştırmacıların kolayca başlaması için bir çerçeve sağlamak için kurdum. ”

Ve bir veri kümesinin etiketleri özellikle kalitesiz ise, büyük karmaşık sinir ağlarını eğitmek her zaman çok avantajlı olmayabileceğini unutmayın. Daha büyük modeller, verilere küçük olanlardan daha fazla uyma eğilimindedir.

"Bazen daha küçük modeller kullanmak çok gürültülü veri kümeleri için işe yarayabilir. Ancak, çok gürültülü veri kümeleri için her zaman daha küçük modelleri kullanmak yerine, bence ana çıkarım, makine öğrenimi mühendislerinin modellerini kıyaslamadan önce test kümelerini temizlemeleri ve düzeltmeleri gerektiğidir." ®

Coinsmart. Europa İçindeki En İyi Bitcoin-Börse
Kaynak: https://go.theregister.com/feed/www.theregister.com/2021/04/01/mit_ai_accuracy/

spot_img

En Son İstihbarat

VC Kafe

LifeSciVC

spot_img