Zephyrnet Logosu

Çoğu şirkette veri erişimi ciddi şekilde eksik ve %71'i sentetik verilerin yardımcı olabileceğine inanıyor – KDnuggets

Tarih:

Sponsor Mesaj

MOSTLY AI, veri bilimi AI/ML topluluğundaki ilk sentetik veri anketini gerçekleştirdi. Amacımız, 2023'te sentetik verilerin durumunu anlamaktı. Şirketlerin AI/ML'yi başarılı bir şekilde benimsemesini ve ölçeklendirmesini hâlâ engelleyen nedir? Yapay zeka tarafından üretilen sentetik veri kavramı ne kadar iyi anlaşıldı? AI/ML oluşturucularının yardıma ihtiyaç duyduğu tam veri zorlukları nelerdir? 2023'te veri erişimi nasıl çalışır? Sentetik veriler, veri boşlukları arasında nasıl köprü kurabilir ve mühendisler teknolojiyi ne kadar sürede benimser? 

Anket, 2023'ün ilk yarısında veri bilimi, makine öğrenimi, yapay zeka ve analitik topluluğu KDnuggets ve 300'den fazla katılımcı ile iş birliği içinde gerçekleştirildi.     

2023'te veri erişimi ve sentetik verilerin durumu

 
 
Çoğu şirkette veri erişimi ciddi şekilde eksik ve %71'i sentetik verilerin yardımcı olabileceğine inanıyor

Çoğu şirkette veri erişimi ciddi şekilde eksik ve %71'i sentetik verilerin yardımcı olabileceğine inanıyor
 

TL;DR: Ortalama olarak, AI/ML modellerinin yalnızca %15'i üretimde. AI/ML projelerinin başarısızlığının arkasındaki nedenle ilgili olarak, %35'i AI/ML yeteneği eksikliğini belirtirken, %28'i veri erişimi eksikliğini suçladı. Katılımcıların %71'i kaliteli verilere erişmenin aylar sürdüğünü belirtirken, %XNUMX'i yapay zeka/ML projelerinin başarılı olması için gereken yapbozun eksik parçası olduğuna katılıyor.

2023'teki sentetik verilerin durumu, en son LLM atılımları sayesinde, üretken yapay zeka etrafındaki yutturmaca ve yapay zeka destekli teknolojilerin her yerde mevcut patlamasından büyük ölçüde etkileniyor. Burada, MOSTLY AI'da, ChatGPT'nin yaygınlaşmasından bu yana gelen isteklerde ve genel sorgularda bir artış yaşadık. 

İnsanlar, günlük işlerinde yapay zekadan yararlanmaktan heyecan duyuyor ve üretken yapay zeka süper güçleri aracılığıyla yapılandırılmış veri alternatifleri arıyor. LLM'ler, önceden eğitilmiş modeller ve denetimli öğrenme ile tamamen farklı bir canavar olsa da, yapay zeka destekli sentetik veri oluşturucular, orijinal verilerin yerine kolayca kullanılabilecek temsili sentetik verilere veri erişimi sağlayabilir. Sentetik veriler, veri erişimini demokratikleştirmenin ve veri kümelerini belirli amaçlara uyacak şekilde artırmanın gizlilik açısından güvenli bir yolunu sunar. Sonuç, daha kısa veri süresi, daha kolay veri erişimi ve veri bilimi görev otomasyonu. 

Sentetik veri oluşturucular, veri bilimcilerden AI/ML mühendislerine kadar yapılandırılmış verilerle çalışan kişilere şimdiden yardımcı oluyor. Ancak kategori ne kadar iyi anlaşıldı ve tam ölçekli benimseme konusunda ne kadar uzaktayız? 

MOSTLY AI CEO'su Tobi Hann şöyle diyor: 

Sentetik veri platformları, verilerle çalışma şeklimizi ve ayrıca tüm sektörlerde veri merkezli AI/ML geliştirme şeklimizi değiştiriyor. Bugün bankacılık, sigortacılık ve sağlık hizmetleri gibi büyük miktarda hassas ve işle ilgili kritik verilerin işlendiği alanlarda en yüksek benimseme oranlarını görüyoruz. Bu yıl şimdiye kadar sentetik veri alanına olan ilgi daha da arttı ve bunun en azından kısmen ChatGPT'nin üretken yapay zeka sahnesine getirdiği tüm ilgiden kaynaklandığından şüpheleniyorum.

Ancak, veri erişimi çoğu kuruluş için bir sorun olmaya devam ediyor ve gizlilik endişeleri her zamankinden daha acil. Yapay zekayı benimseme ve ölçeklendirme aciliyeti sektörler arasında somut olsa da, veri gizliliği sorunları ve farkındalık eksikliği gizliliği artırıcı teknolojilersentetik veriler gibi, çoğu şirketin yapay zeka destekli iş ve hizmetlere geçişten yararlanmasını engeller. 

AI/ML projeleri neden gerçekleştirilemiyor?

 
Gittikçe daha fazla insan teknoloji yığınlarında yapay zeka destekli araçları benimsiyor olsa da, yapay zeka/ML modellerinin büyük ölçekli dağıtımı hâlâ sınırlı bir ayrıcalık. İlerleme görülüyor, ancak AI/ML'yi üretime taşımak hala zor. Ancak şirketler bunu gerçekleştirmek için her zamankinden daha fazla mücadele ediyor. Yapay zekayı veya gelişmiş makine öğrenimini geliştiren ve ölçeklendiren projeler yıllar önce kıtken, şimdi herkes bu projeleri yeni bulunan bir aciliyet duygusuyla gerçekleştirmeye çalışıyor. Hırslara rağmen, mutlu sonlara ulaşmak hala zor.

AI/ML projelerinin gerçekleştirilememesinin nedenini anket katılımcılarına sorduk. Yanıt verenlerin %35'i AI/ML yeteneği eksikliğini belirtirken, %28'i veri erişimi eksikliğini suçladı. Bu sorunları çözmek kolay bir iş değil ve yapay zeka tarafından üretilen sentetik verilerin her iki cephede de yardımcı olabileceğine yürekten inanıyoruz.

Veri erişimi: En büyük darboğaz

 
 
Çoğu şirkette veri erişimi ciddi şekilde eksik ve %71'i sentetik verilerin yardımcı olabileceğine inanıyor

Çoğu şirkette veri erişimi ciddi şekilde eksik ve %71'i sentetik verilerin yardımcı olabileceğine inanıyor
 

Anket sırasında toplanan en şaşırtıcı veri şuydu: Ankete katılanların yalnızca %18'i kaliteli verilere erişimin kendileri için sorun olmadığını söyledi. %20'si için haftalar sürerken, sorulan kişilerin %61'i için verilere erişim aylar sürüyor. Veri merkezli projelerin başarılı olmamasına şaşmamalı.

OpenAI'nin LLM'leri halka açık derlemler konusunda eğitmesi kolaydır (elbette beklemede olan telif hakkı sorunları), ancak ortalama bir veri ekibi için, şirket içi veri varlıkları bile dahili politikalar tarafından kilitlenir, veri maskeleme ile yok edilir ve yalnızca özel kullanım durumları. Şirketler yapay zeka yarışına ayak uydurmak istiyorsa, bunun hızla değişmesi gerekiyor. AI/ML yeteneğinin, alan bilgisinin yanı sıra uzmanlığı büyütmek ve geliştirmek için veri erişimine ihtiyacı vardır. 

Oyuncak veri kümeleri, özellikle veri bilimi yolculuğunuza başladığınızda ve varsayımlarınızı test etmek istediğinizde sizi yalnızca bir yere kadar götürür. Şirket içi yeteneklerin gelişimi ve yurttaş veri bilimcilerin yükselişi, anlamlı olmadan başarılı olamaz. veri demokratikleştirme Bu aynı zamanda bir veri erişim sorunudur.

AI/ML yapbozunun eksik parçası

 
 
Çoğu şirkette veri erişimi ciddi şekilde eksik ve %71'i sentetik verilerin yardımcı olabileceğine inanıyor

Çoğu şirkette veri erişimi ciddi şekilde eksik ve %71'i sentetik verilerin yardımcı olabileceğine inanıyor
 
Sentetik veri sürümleri, veri erişimini ve sınırsız veri tüketimini hızlandırmaya yardımcı olan en kolay varlıklardır. Ankete katılanların %71'i, AI/ML projelerinin başarılı olması için yapbozun eksik parçasının sentetik veriler olduğu konusunda hemfikir. Gartner'ın 2030 yılına kadar sentetik verilerin yapay zeka modellerindeki gerçek verileri tamamen gölgede bırakacağı yönündeki tahminine ulaşma yolunda ilerliyoruz. benziyor sentetik veriler gerçekten de yapay zekanın geleceğidir.

 
Çoğu şirkette veri erişimi ciddi şekilde eksik ve %71'i sentetik verilerin yardımcı olabileceğine inanıyor

Çoğu şirkette veri erişimi ciddi şekilde eksik ve %71'i sentetik verilerin yardımcı olabileceğine inanıyor
 

332 ankete katılanların yüzde yetmiş ikisi bir AI destekli sentetik veri üreteci önümüzdeki birkaç yıl içinde ve neredeyse %40'ı önümüzdeki üç ay içinde bir tane kullanmayı planlıyor ve çoğu kişi ana kullanım durumu olarak veri artırmayı gösteriyor (%46).
Heyecan yüksek olsa da anket, veri topluluğunu sentetik verilerin faydaları, sınırlamaları ve kullanım durumları hakkında eğitmeye yönelik artan ihtiyacın altını çizdi. 

AI/ML uzmanları arasında bile yanlış anlamalar yaygındır

 
"Sentetik veri" terimiyle ilgili hala çok fazla kafa karışıklığı var; Ankete katılanların %59'u bilmiyordu kural tabanlı ve yapay zeka tarafından oluşturulan sentetik veriler arasındaki fark. Bu, sentetik veri şirketlerinin veri tüketicilerini eğitme ve gerçek veri kümelerinin sentetik sürümleriyle çalışmanın nasıl bir şey olduğunu ve bunu nasıl iyi yapacaklarını ilk elden öğrenme konusunda büyük bir sorumluluğa sahip olduğunu gösteriyor. Ücretsiz, sağlam sentetik veri üreteçleri MOSTLY AI'nin sentetik veri platformu gibi API seçenekleriyle birlikte kullanımı kolay kullanıcı arayüzleri, halkı eğitmede başarılı olma olasılığı en yüksek olanlardır.

“İnsanları büyük ölçüde eğitmeliyiz. Her gün sentetik verilerle çalıştığımız için, ilgili pek çok bilgiyi kesin olarak kabul ediyoruz ve yalnızca konuşmalar daha derin bir düzeye geldiğinde, bazen mühendislerin bile sentetik veri üretiminin çalışma şekli hakkında temel yanlış anlamalar olduğunu fark ediyoruz. çözebildiği kullanım durumları. Bir numaralı önceliğimiz, insanların günlük görevlerinde yetenekleri gerçekten öğrenmeleri ve hatta sentetik verilerle çalışmanın bizim düşünmediğimiz yeni yollarını keşfetmeleri için sentetik veri teknolojisini uygulamalı hale getirmektir." Tobi Hann'ı ekledi.

Sentetik veri potansiyeli

 
En sık kullanılanlar sorulduğunda veri anonimleştirme araçları ve teknikler, yanıtlayanların %49'u verileri anonimleştirmek için veri maskeleme kullandıklarını söyledi. Yüzde yirmi, yalnızca gizlilik açısından güvensiz olmakla kalmayan, aynı zamanda yüksek kaliteli eğitim verileri için gereken veri faydasını da yok edebilen bir yaklaşım olan, veri kümelerinden PII'yi kaldırdıklarını söyledi. Gizliliği artıran teknolojiler, homomorfik şifreleme, yapay zeka tarafından oluşturulan sentetik veriler ve diğerleri gibi %31'i oluşturur. 

Veri anonimleştirme ve daha iyi hale getirmek için veri hazırlama konusundaki alışkanlıkları geliştirmek ve değiştirmek için kesinlikle yer var. MOSTLY AI ekibi, sentetik veri trendlerini izlemeye devam edecek ve anketi gelecek yıl tekrarlayacağız. En son araştırma sonuçları, yönetmelikler veya işlerin işle ilgili tarafı gibi sentetik verilerle ilgili en son haberlerden haberdar olmak istiyorsanız - aylık Sentetik Veri Bülteni'ne kaydolun!

Şirketinizde veri erişimini hızlandırmaya hazırsanız veya son teknoloji veri artırma özelliklerimizi denemek istiyorsanız, sonsuza kadar ücretsiz hesabınız için kaydolun MOSTLY AI'nin kullanımı kolay ve güvenli sentetik veri platformuyla uygulamalı olarak çalışmak için. Ekibimiz, sentetik veri üretiminden en iyi şekilde yararlanmanıza yardımcı olmak için sizi desteklemek üzere doğrudan uygulamadan erişilebilir.
 

spot_img

VC Kafe

VC Kafe

En Son İstihbarat

spot_img