Wat heeft COVID met al onze modellen gedaan?

Heruitgegeven door Plato

Datum:

2 april 2021

Aantal keer bekeken: 703

Wat heeft COVID met al onze modellen gedaan?

= Vorige post

Tags: AI, coronavirus, Covid-19, data Science, Interview, mes

Een interview met Dean Abbott en John Elder over verandermanagement, complexiteit, interpreteerbaarheid en het risico dat AI de mensheid overneemt.

By Heather Fyson, MES

Wat heeft COVID met al onze modellen gedaan?

Na het KNIME herfsttop, gingen de dinosauriërs terug naar huis ... nou ja, ze zetten hun laptops uit. Decaan Abbott en John ouderling, al lang bestaande data science-experts, werden uitgenodigd voor de Fall Summit door Michael om met hem mee te praten over De toekomst van datawetenschap: een gesprek bij het haardvuur met dinosaurussen uit de industrie Het resultaat was een sprankelend gesprek over uitdagingen op het gebied van data science en nieuwe trends. Sinds het uitschakelen van de studiolampen, Rosaria heeft enkele hoogtepunten over verandermanagement, complexiteit, interpreteerbaarheid en meer in de data science-wereld gedestilleerd en uitgebreid. Eens kijken waar het ons heeft gebracht.

Wat is jouw ervaring met verandermanagement in AI, wanneer de realiteit verandert en modellen moeten worden bijgewerkt? Wat heeft COVID met al onze modellen gedaan?

[Decaan] Machine Learning (ML) -algoritmen gaan uit van consistentie tussen verleden en toekomst. Als er dingen veranderen, mislukken de modellen. COVID heeft onze gewoontes veranderd, en dus ook onze gegevens. Pre-COVID-modellen hebben moeite om met de nieuwe situatie om te gaan.

[John] Een eenvoudig voorbeeld is de verkeerslaag op Google Maps. Nadat de lockdowns land na land troffen in 2020, waren de verkeersschattingen van Google Maps een tijdje erg onnauwkeurig. Het was gebouwd op redelijk stabiele trainingsgegevens, maar nu was dat systeem volledig uit de maling genomen.

Hoe kom je erachter wanneer de wereld is veranderd en de modellen niet meer werken?

[Decaan] Hier is een kleine truc die ik gebruik: ik partitioneer mijn gegevens op tijd en label records als "voor" en "na". Vervolgens bouw ik een classificatiemodel om onderscheid te maken tussen "na" en "ervoor" op basis van dezelfde invoer die het model gebruikt. Als de discriminatie mogelijk is, dan is de "na" anders dan de "ervoor", de wereld is veranderd, de gegevens zijn veranderd en de modellen moeten opnieuw worden geschoold.

Hoe ingewikkeld is het om modellen in projecten bij te scholen, vooral na jaren van maatwerk?

[John] Trainingsmodellen zijn meestal de gemakkelijkste stap van allemaal! De overgrote meerderheid van verder succesvolle projecten sterven in de implementatiefase. De beste niet de tijd of wordt besteed in de fase van het opschonen en voorbereiden van gegevens. En het meest problemen worden gemist of gemaakt in de fase van zakelijk begrip / projectdefinitie. Dus als u begrijpt wat de fout is en nieuwe gegevens kunt verkrijgen en over het implementatiekader beschikt, is het in vergelijking daarmee heel eenvoudig om een nieuw model te maken.

Hoe complex is het op basis van je decennialange ervaring om een echt functionerende Data Science-applicatie samen te stellen?

[John] Het kan natuurlijk variëren, afhankelijk van de complexiteit. De meeste van onze projecten krijgen in ieder geval binnen een paar maanden functionerende prototypes. Maar ik kan het belang van feedback niet genoeg benadrukken: je moet veel vaker met mensen praten dan je wilt. En luister! We leren elke keer nieuwe dingen over het bedrijfsprobleem, de gegevens of beperkingen. Wij kwantitatieve mensen zijn niet allemaal bedreven in het spreken met mensen, dus daar is vaak een team voor nodig. Maar het hele team van stakeholders moet dezelfde taal leren spreken.

[Decaan] Het is belangrijk om met onze zakelijke tegenhanger te praten. Mensen zijn bang voor verandering en willen de huidige status niet veranderen. Een belangrijk probleem is echt psychologisch. De analisten worden vaak als ergernis ervaren. We moeten dus het vertrouwen opbouwen tussen de zakelijke tegenhanger en de analytische nerds. De start van een project moet altijd de volgende stap omvatten: Synchroniseer domeinexperts / projectmanagers, de analisten en het IT- en infrastructuur (DevOps) -team, zodat iedereen duidelijk is over de doelstellingen van het project en hoe het zal worden uitgevoerd. Analisten staan op nummer 11 in de top 10 van mensen die ze elke dag moeten zien! Laten we de arrogantie van datawetenschappers vermijden: "Het bedrijf kan ons / onze technieken niet begrijpen, maar we weten wat het beste werkt". Wat we echter niet begrijpen, is dat de domeinexperts eigenlijk experts zijn in het domein waarin we werken! De vertaling van aannames en benaderingen van data science in taal die wordt begrepen door de domeinexperts is essentieel!

De nieuwste trend is nu deep learning, blijkbaar kan het alles oplossen. Ik kreeg onlangs een vraag van een student met de vraag "waarom moeten we andere ML-algoritmen leren als deep learning de stand van de techniek is om datawetenschapsproblemen op te lossen"?

[Decaan] Door deep learning werd veel zuurstof uit de kamer gezogen. Het voelt zo veel als het begin van de jaren negentig toen neurale netwerken opstegen met een vergelijkbaar optimisme! Deep Learning is zeker een reeks krachtige technieken, maar ze zijn moeilijk te implementeren en te optimaliseren. XGBoost, Ensembles of trees, zijn ook krachtig, maar momenteel meer mainstream. De overgrote meerderheid van de problemen die we moeten oplossen met behulp van geavanceerde analyses vereisen echt geen complexe oplossingen, dus begin eenvoudig; diep leren is in deze situaties overdreven. U kunt het beste het scheerprincipe van Occam gebruiken: als twee modellen hetzelfde presteren, kiest u het eenvoudigste.

Over complexiteit. De andere trend, in tegenstelling tot deep learning, is ML-interpreteerbaarheid. Hier vereenvoudig je het model sterk (overdreven?) Om het te kunnen uitleggen. Is interpreteerbaarheid zo belangrijk?

[John] Ik merk dat ik vaak vecht tegen interpreteerbaarheid. Het is leuk, zeker, maar het kost vaak te hoge kosten van de belangrijkste modeleigenschap: betrouwbare nauwkeurigheid. Maar veel belanghebbenden zijn van mening dat interpreteerbaarheid essentieel is, dus het wordt een barrière voor acceptatie. Het is dus essentieel om te ontdekken wat voor soort interpreteerbaarheid nodig is. Misschien is het gewoon weten wat de belangrijkste variabelen zijn? Dat is te doen met veel niet-lineaire modellen. Misschien moet men, net als bij het uitleggen aan kredietaanvragers waarom ze zijn afgewezen, de output voor één zaak tegelijk interpreteren? We kunnen een lineaire benadering bouwen voor een bepaald punt. Of we kunnen gegevens genereren uit ons black box-model en een "interpreteerbaar" model van elke complexiteit bouwen dat bij die gegevens past.

Ten slotte heeft onderzoek aangetoond dat als gebruikers de kans krijgen om met een model te spelen - dat wil zeggen, het te porren met proefwaarden van inputs en de outputs ervan te zien, en misschien te visualiseren - ze dezelfde warme gevoelens van interpreteerbaarheid krijgen. Over het algemeen is vertrouwen - in de mensen en technologie achter het model - noodzakelijk voor acceptatie, en dit wordt versterkt door regelmatige communicatie en door de uiteindelijke gebruikers van het model te betrekken bij de bouwfasen en beslissingen van het modelleerproces.

[Decaan] Overigens heeft KNIME Analytics Platform een geweldige functie om het belang van de invoervariabelen in een Random Forest te kwantificeren! De Willekeurige bosleerder knooppunt voert de statistieken van kandidaat- en splitsingsvariabelen uit. Onthoud dat wanneer u het Random Forest Learner-knooppunt gebruikt.

Er zijn steeds meer verzoeken om uitleg over wat een model doet. Voor sommige beveiligingsklassen eist de Europese Unie bijvoorbeeld verificatie dat het model niet doet wat het niet zou moeten doen. Als we het allemaal moeten uitleggen, dan is Machine Learning misschien niet de juiste keuze. Geen machine learning meer?

[Decaan] Misschien is volledige uitlegbaarheid te moeilijk te verkrijgen, maar we kunnen vooruitgang boeken door een rasterzoekopdracht uit te voeren op modelinvoer om zoiets als een scorekaart te maken die beschrijft wat het model doet. Dit is zoiets als regressietesten in hardware en software QA. Als een formeel bewijs niet mogelijk is wat modellen doen, laten we dan testen en testen en testen! Input Shuffling en Target Shuffling kunnen helpen om een ruwe weergave van het modelgedrag te krijgen.

[John] Nu we het hebben over begrijpen wat een model doet, zou ik het probleem van reproduceerbaarheid in de wetenschap aan de orde willen stellen. Aangenomen wordt dat een groot deel van de tijdschriftartikelen op alle gebieden - 65 tot 90% - niet kan worden gerepliceerd. Dit is een echte crisis in de wetenschap. Medische papieren proberen u te vertellen hoe u hun resultaten kunt reproduceren. ML-papers lijken nog niet te geven om reproduceerbaarheid. Een recente studie toonde aan dat slechts 15% van de AI-papers hun code deelt.

Laten we het hebben over Machine Learning Bias. Is het mogelijk om modellen te bouwen die niet discrimineren?

[John] (Om even een nerd te zijn, dat woord is helaas overbelast "Discrimineren" in het ML-wereldwoord is uw eigenlijke doel: onderscheid maken tussen twee klassen.) Maar wat uw echte vraag betreft, hangt het af van de gegevens (en of de analist slim genoeg is om zich aan te passen voor zwakheden in de gegevens ): De modellen halen uit de gegevens de informatie die erin wordt weergegeven. De computer weet niets over de wereld, behalve wat er in de gegevens ervoor staat. Dus de analist moet de gegevens beheren - de verantwoordelijkheid nemen voor die gevallen die de realiteit weerspiegelen. Als bepaalde typen mensen bijvoorbeeld ondervertegenwoordigd zijn, zal het model er minder aandacht aan besteden en in de toekomst minder nauwkeurig op hen zijn. Ik vraag: "Waar moesten de gegevens doorheen om hier te komen?" (om in deze dataset te komen) om na te denken over hoe andere gevallen tijdens het proces zouden kunnen zijn afgevallen (dat is overlevingsvooroordeel). Een bekwame datawetenschapper kan naar dergelijke problemen zoeken en manieren bedenken om ze aan te passen / te corrigeren.

[Decaan] De bias zit niet in de algoritmen. De bias zit in de gegevens. Als de gegevens bevooroordeeld zijn, werken we met een bevooroordeelde kijk op de wereld. Wiskunde is gewoon wiskunde, het is niet bevooroordeeld.

Zal AI de mensheid overnemen ?!

[John] Ik geloof dat AI gewoon een goede techniek is. Zal AI de menselijke intelligentie overtreffen? In mijn ervaring gelooft iedereen onder de 40 van ja, dit is onvermijdelijk, en de meeste boven de 40 (zoals ik natuurlijk): nee! AI-modellen zijn snel, loyaal en gehoorzaam. Net als een goede Duitse herdershond, zal een AI-model die bal gaan halen, maar hij weet niets over de wereld behalve de gegevens die hij heeft getoond. Het heeft geen gezond verstand. Het is een geweldige assistent voor specifieke taken, maar eigenlijk nogal dom.

[Decaan] In dat opzicht wil ik twee citaten vermelden die Marvin Minsky in 1961 en 1970 heeft gemaakt, vanaf het begin van AI, die volgens mij de toekomst van AI goed beschrijven.

"Tijdens ons leven zullen sommige machines ons overtreffen in algemene intelligentie" (1961)

"Over drie tot acht jaar hebben we een machine met de intelligentie van een mens" (1970)

Deze ideeën bestaan al heel lang. Hier is een reden waarom AI niet alle problemen oplost: we beoordelen zijn gedrag op basis van één cijfer, slechts één cijfer! (Modelfout.) Bijvoorbeeld, voorspellingen van aandelenkoersen voor de komende vijf jaar, voorspeld door het bouwen van modellen met de gemiddelde kwadratenfout als de foutmetriek, kunnen onmogelijk het volledige beeld schetsen van wat de gegevens feitelijk doen en het model ernstig belemmeren. en zijn vermogen om de patronen flexibel bloot te leggen. We weten allemaal dat RMSE een te grove maat is. Deep Learning-algoritmen zullen steeds beter worden, maar we moeten ook beter worden in het beoordelen van hoe goed een model werkelijk is. Dus nee! Ik denk niet dat AI de mensheid zal overnemen.

We zijn aan het einde van dit interview gekomen. We willen Dean en John bedanken voor hun tijd en hun kennispillen. Laten we hopen dat we elkaar snel weer ontmoeten!

Over Dean Abbott en John Elder

Wat heeft COVID met al onze modellen gedaan?

Decaan Abbott is medeoprichter en Chief Data Scientist bij SmarterHQ. Hij is een internationaal erkende expert en innovator op het gebied van datawetenschap en voorspellende analyse, met drie decennia ervaring met het oplossen van problemen in omnichannel klantanalyses, fraudedetectie, risicomodellering, text mining en enquête-analyse. Hij wordt regelmatig opgenomen in lijsten van baanbrekende datawetenschappers en datawetenschappers, en is een populaire keynotespreker en workshopinstructeur op conferenties over de hele wereld, en is tevens lid van adviesraden voor de UC / Irvine Predictive Analytics en UCSD Data Science Certificate-programma's. Hij is de auteur van Applied Predictive Analytics (Wiley, 2014) en co-auteur van The IBM SPSS Modeler Cookbook (Packt Publishing, 2013).

Wat heeft COVID met al onze modellen gedaan?

John ouderling richtte in 1995 Elder Research op, Amerika's grootste en meest ervaren data science-adviesbureau. Met kantoren in Charlottesville VA, Baltimore MD, Raleigh, NC, Washington DC en Londen, hebben ze honderden uitdagingen voor commerciële en overheidsklanten opgelost door bruikbare kennis te verzamelen van alle soorten gegevens. Dr. Elder was co-auteur van drie boeken - over praktische datamining, ensembles en text mining - waarvan er twee de 'boek van het jaar'-prijzen wonnen. John heeft dataminingtools gemaakt, was een ontdekker van ensemblemethoden, is voorzitter van internationale conferenties en is een populaire workshop en keynotespeaker.

Bio: Heather Fyson is de blogredacteur bij KNIME. Aanvankelijk bij het Event Team, ligt haar achtergrond eigenlijk in vertalen en proeflezen, dus door in 2019 naar de blog te gaan, is ze teruggekeerd naar haar echte passie om met teksten te werken. PS Ze is altijd benieuwd naar jouw ideeën voor nieuwe artikelen.

ORIGINELE. Met toestemming opnieuw gepost.

Zie ook:

= Vorige post

Topverhalen afgelopen 30 dagen

Meest populair
Gebruikt u in 2021 nog steeds panda's om big data te verwerken? Hier zijn twee betere opties Hoe de angst voor wiskunde te overwinnen en wiskunde te leren voor gegevenswetenschap Top YouTube-kanalen voor datawetenschap Meer Cheatsheets voor Data Science Hoe u kunt slagen om een freelance datawetenschapper te worden

meest gedeeld
Hoe de angst voor wiskunde te overwinnen en wiskunde te leren voor gegevenswetenschap Top YouTube-kanalen voor datawetenschap Gebruikt u in 2021 nog steeds panda's om big data te verwerken? Hier zijn twee betere opties Hoe u kunt slagen om een freelance datawetenschapper te worden 3 wiskundige wetten die datawetenschappers moeten weten

Coinsmart. Beste Bitcoin-beurs in Europa
Bron: https://www.kdnuggets.com/2021/04/covid-do-all-our-models.html

spot_img

Laatste intelligentie

spot_img