Zephyrnet-logotyp

Kan datastyrning åtgärda AI-trötthet? – KDnuggets

Datum:

Kan datastyrning åtgärda AI-trötthet?
Bild av författare
 

Datastyrning och AI-trötthet låter som två olika koncept, men det finns ett inneboende samband mellan de två. För att förstå det bättre, låt oss börja med deras definition. 

Det har varit kärnfokus för dataindustrin under lång tid.

Google uttrycker det bra – "Datastyrning är allt du gör för att säkerställa att data är säker, privat, korrekt, tillgänglig och användbar. Det innebär att fastställa interna standarder – datapolicyer – som gäller för hur data samlas in, lagras, bearbetas och kasseras.”

Som denna definition framhåller handlar datastyrning om att hantera data – just motorn som driver AI-modeller.

Nu när de första tecknen på kopplingen mellan datastyrning och AI har börjat dyka upp, låt oss relatera det till AI-trötthet. Även om namnet avslöjar det, säkerställer det att belysa orsakerna till sådan trötthet konsekvent användning av denna term under hela inlägget.  

AI-trötthet sätter in på grund av de motgångar och utmaningar som organisationer, utvecklare eller team möter, vilket ofta leder till misslyckat värdeförverkligande eller implementering av AI-system.

Det börjar mestadels med orealistiska förväntningar på vad AI är kapabel till. För sofistikerad teknik som AI måste nyckelintressenter inte bara anpassa sig till AI:s förmågor och möjligheter utan också dess begränsningar och risker.

På tal om risker anses etik ofta vara en eftertanke som leder till att AI-initiativ som inte uppfyller kraven skrotas.

Du måste undra över vilken roll datastyrning har för att orsaka AI-trötthet - premissen för det här inlägget.

Det är dit vi är på väg härnäst. 

AI-trötthet kan i stora drag kategoriseras som pre-deployment och post-deployment. Låt oss först fokusera på pre-deployment först.

Förinstallation

Olika faktorer bidrar till att uppgradera en Proof of Concept (PoC) till implementering, till exempel:

  • Vad försöker vi lösa?
  • Varför är det ett övertygande problem att prioritera nu?
  • Vilken data finns tillgänglig?
  • Är det ML-lösbart i första hand?
  • Har data ett mönster?
  • Kan fenomenet upprepas?
  • Vilka ytterligare data skulle lyfta modellens prestanda?

 

Kan datastyrning åtgärda AI-trötthet?
Bild från Freepik 
 

När vi har utvärderat att problemet bäst kan lösas med ML-algoritmer, utför datavetenskapsteamet en utforskande dataanalys. Många underliggande datamönster avslöjas i detta skede, vilket framhäver om den givna datan är rik på signalen. Det hjälper också till att skapa konstruerade funktioner för att påskynda inlärningsprocessen för algoritmen.

Därefter bygger teamet den första baslinjemodellen, ofta och upptäcker att den inte presterar upp till den acceptabla nivån. En modell vars produktion är lika bra som en myntflip tillför inget värde. Detta är ett av de första motgångarna, även lektioner, när man bygger ML-modeller.

Organisationer kan flytta från ett affärsproblem till ett annat, vilket orsakar trötthet. Ändå, om den underliggande datan inte bär en rik signal, kan ingen AI-algoritm bygga på den. Modellen måste lära sig de statistiska sambanden från träningsdata för att generalisera på osynliga data.

Efter implementering

Trots att den utbildade modellen visar lovande resultat på valideringsuppsättningen, i linje med de kvalificerande affärskriterierna, såsom 70 % precision, kan trötthet fortfarande uppstå om modellen inte fungerar tillräckligt i produktionsmiljön.

Denna typ av AI-trötthet kallas post-deployment-fasen. 

Många orsaker kan leda till försämrad prestanda, där dålig datakvalitet är det vanligaste problemet som plågar modellen. Det begränsar modellens förmåga att exakt förutsäga målsvaret i frånvaro av avgörande attribut. 

Tänk på när en av de väsentliga funktionerna, som bara saknades till 10 % i träningsdata, nu blir null 50 % av tiden i produktionsdata, vilket leder till felaktiga förutsägelser. Sådana iterationer och ansträngningar för att säkerställa att modellerna fungerar konsekvent skapar trötthet hos dataforskarna och affärsteamen, och urholkar därmed förtroendet för datapipelines och riskerar investeringarna i projektet.

Robusta datastyrningsåtgärder är avgörande för att hantera båda typerna av AI-trötthet. Med tanke på att data är kärnan i ML-modeller är signalrik, felfri och högkvalitativ data ett måste för att ett ML-projekt ska lyckas. Att ta itu med AI-trötthet kräver ett starkt fokus på datastyrning. Så vi måste arbeta rigoröst för att säkerställa rätt datakvalitet, lägga grunden för att bygga toppmoderna modeller och leverera pålitliga affärsinsikter.

Datakvalitet

Datakvalitet, nyckeln till blomstrande datastyrning, är en kritisk framgångsfaktor för maskininlärningsalgoritmer. Organisationer måste investera i datakvalitet, som att publicera rapporter till datakonsumenterna. I datavetenskapliga projekt, tänk på vad som händer när data av dålig kvalitet tar sig till modellerna, vilket kan leda till dålig prestanda.

Först under felanalysen skulle teamen få identifiera datakvalitetsproblemen, som, när de skickas för att fixas uppströms, till slut orsakar trötthet bland teamen.

Det är uppenbarligen inte bara den ansträngning som lagts ner, utan mycket tid går förlorad tills rätt data börjar strömma in.

Därför rekommenderas det alltid att åtgärda dataproblem vid källan för att förhindra sådana tidskrävande iterationer. Så småningom anspelar de publicerade datakvalitetsrapporterna på datavetenskapsteamet (eller, för den delen, andra nedströmsanvändare och datakonsumenter) med en förståelse för den acceptabla kvaliteten på inkommande data.

Utan datakvalitet och styrningsåtgärder skulle datavetare bli överbelastade med dataproblem, vilket bidrar till misslyckade modeller som driver AI-trötthet. 

Inlägget belyste de två stadierna där AI-trötthet sätter in och presenterade hur datastyrningsåtgärder som datakvalitetsrapporter kan vara en möjliggörare för att bygga tillförlitliga och robusta modeller.

Genom att etablera en solid grund genom datastyrning kan organisationer bygga en färdplan för framgångsrik och sömlös AI-utveckling och adoption, vilket skapar entusiasm.

För att säkerställa att inlägget ger en holistisk översikt över olika sätt att hantera AI-trötthet, betonar jag också organisationskulturens roll, som, i kombination med andra bästa praxis som datastyrning, kommer att möjliggöra och ge datavetenskapsteam möjlighet att bygga meningsfulla AI-bidrag tidigare och snabbare.
 
 

Vidhi Chugh är en AI-strateg och en digital transformationsledare som arbetar i skärningspunkten mellan produkt, vetenskap och teknik för att bygga skalbara maskininlärningssystem. Hon är en prisbelönt innovationsledare, en författare och en internationell talare. Hon är på ett uppdrag att demokratisera maskininlärning och bryta jargongen för alla att vara en del av denna transformation.

plats_img

VC Café

VC Café

Senaste intelligens

plats_img