Avmystifiera dålig vetenskap - Platon Data Intelligence

Många utbredda vetenskapliga teorier visades senare vara felaktiga, eftersom detta kortfattade Artikeln visar. Hur kan detta hända?

För det första är vetenskapen fortfarande under utveckling, och vår förståelse av många grundläggande fenomen är fortfarande långt ifrån komplett. En annan anledning är att vetenskap – åtminstone på vår planet – bedrivs av människor och vi människor har många svagheter. Fördomar av olika slag, finansieringskonflikter, egon och ren inkompetens är några av de mycket mänskliga sakerna som kan undergräva all forskning.

Forskare har ibland rätt men de som rapporterar det har fel. Få journalister har arbetat som vetenskapsmän och de flesta har inte haft mer utbildning i naturvetenskap än majoriteten av sina läsare eller tittare. För att vara rättvis har dock många forskare själva haft begränsade kurser i forskningsmetoder och statistik, som jag påpekar i Statistiska misstag även forskare gör.

Peer review kan ibland likna chum review och dessutom hamnar vissa studier på förstasidan utan att ha blivit peer review alls. Få redaktörer och recensenter av vetenskapliga publikationer är statistiker – det finns inte så många statistiker och de har sina dagliga jobb. Inom "mjukare" fält är standarder utan tvekan ännu mindre rigorösa.

Nollhypothesis Significance Testing (NHST) har kritiserats hårt av statistiker under åren. Många av er kommer ihåg detta från en inledande statistikkurs. Även om det på ytan kan verka okomplicerat, är NHST allmänt missförstådd och missbrukad.

Den amerikanska statistikern har ägnat en fullständig öppen tillgång fråga till detta och tillhörande ämnen. Enkelt uttryckt är en viktig fråga att fynden med p värden större än 05 är mindre sannolikt att accepteras för publicering, eller till och med skickas in för publicering, än de med statistiskt signifikanta resultat. Detta är känt som publikationsbias eller problem med fillådan.

Men ”negativa fynd” är lika viktiga som statistiskt signifikanta resultat och många potentiellt viktiga forskningsresultat ser tydligen aldrig dagens ljus. Eftersom ackumulering av kunskap är kärnan i vetenskapen är detta ett allvarligt problem som först nyligen har fått den uppmärksamhet som många statistiker länge har ansett att det är berättigat. Statistisk signifikans är inte detsamma som beslutssignifikans heller.

En annan anledning är att små urvalsstudier är vanliga inom många områden. Medan ett gigantiskt urval inte automatiskt innebär att fynden kan lita på, uppskattningar av effektstorlekar är mycket mer varierande från studie till studie när urvalen är små. Omvänt kan triviala effektstorlekar med liten klinisk eller affärsmässig betydelse vara statistiskt signifikanta när urvalsstorlekarna är stora och, i vissa fall, får omfattande publicitet.

Icke-experimentell (observations) forskning är utbredd inom många discipliner och i en tidevarv med big data verkar det uppleva en boom. Även om randomiserade experiment inte alltid är genomförbara eller etiska, betyder det inte att icke-experimentell forskning är tillräcklig.

Jag sammanfattar några av dessa frågor i Benägenhetspoäng: Vad de är och vad de gör och Metaanalys och marknadsundersökningar. Enkelt uttryckt är uppskattningar av effektstorlek i allmänhet mer varierande – mindre tillförlitliga – i icke-experimentell forskning. Tillbaka till publikationsbias igen...

Tusentals studier genomförs varje år runt om i världen, vilket innebär att det skulle finnas mycket dålig vetenskap även om standarderna var jämnt höga. Vetenskap är svårt. Här är några saker att se upp för.

Tvärsnitt kontra längsgående data. Orsaker bör föregå deras effekter och i observationsstudier är det vanligtvis inte möjligt att fastställa denna ordning när data avser en enskild del i tiden. Men när data samlas in vid mer än en tidpunkt kan vi ofta bekräfta huruvida en hypotetisk orsak faktiskt föregick dess hypotetiska effekt. Longitudinella data tillåter i allmänhet ett bredare urval av analyser som kan hjälpa oss att bättre förstå hur variabler hänger ihop.

Ekologiska studier är ofta problematiska eftersom enhetsanalysen som studeras är gruppen och därför inte kan dra slutsatser om enskilda studiedeltagare. Forskare har ofta inga uppgifter på individnivå om exponering och sjukdom.

Icke-sannolikhetsurval. Inferentiell statistik förutsätter sannolikhetsurval. När data är från bekvämlighetsurval eller andra icke-sannolikhetsurval är det svårt att veta vilken population vi kan generalisera resultaten också.

KONSTIG deltagare. Inom vissa områden, som epidemiologi och farmakologi, kanske deltagarna inte ens är människor. Att generalisera från råttor till människor kräver till exempel många antaganden.

Linjär modell utan tröskelvärde (LNT). Detta är en mycket förenklad typ av dos-responsmodell som har kritiserats hårt. I affärer antas ofta linjära (räta linjer) relationer mellan "dos" (t.ex. aspekter av kundupplevelse) och "respons" (t.ex. övergripande tillfredsställelse med ett företag). Detta är ofta rimligt, men inte alltid, och kan vara lite meningsfullt inom områden som toxikologi, där det är känt att mycket små doser vanligtvis inte har någon effekt och, utöver en viss nivå, ökar toxiciteten inte längre med dosen.

En olämplig statistisk modell. Detta kan vara svårt att upptäcka, men det är rimligt att säga att tvivelaktig användning av statistik inte är ovanlig inom någon disciplin. En lämplig statistisk modell kan också användas på olämpliga sätt.

Otillräcklig kovariatkontroll. Detta är särskilt vanligt inom observationsforskning, där potentiellt viktiga bakgrundsvariabler inte alltid justeras för. I vissa studier grupperas kontinuerliga variabler som ålder i breda kategorier, vilket leder till att information går förlorad. Därför kan det vara tveksamt att hävda att variabeln har "kontrollerats för".

Utelämnade variabler. Viktiga variabler kanske inte funnits tillgängliga eller, av någon anledning, kan ha utelämnats från analysen. Många studier kritiseras på dessa grunder.

Underlåtenhet att överväga andra förklaringar. Flera orsaker kan leda till samma effekt, och misslyckandet med att beakta rivaliserande förklaringar undergräver en studies trovärdighet. Precis som med utelämnade variabler kan detta vara oavsiktligt eller avsiktligt.

Inga korrigeringar för flera jämförelser. Statistiska tester på samma data är inte oberoende av varandra. Således, om parvisa jämförelser görs mellan fyra typer av patienter på standard alfanivån 05, kommer sex tester att vara nödvändiga och den totala konfidensnivån för uppsättningen av jämförelser är cirka 75 %, inte 95 %.

Användning av surrogat som beroende variabel. Ofta är det inte möjligt att mäta resultatet direkt och forskare måste förlita sig på surrogat. Ett exempel inom medicinsk forskning skulle vara användningen av testresultat för att indikera förekomsten av en viss sjukdom. Även om användningen av surrogat inte nödvändigtvis är ett fel, kan det i vissa studier vara problematiskt.

Inga justeringar för mätfel. Det mest forskning, variabler mäts med fel. I vissa fall, såsom personlighetsbedömningar eller lämplighetsmätning, kan felet vara betydande. I allmänhet dämpar mätfel korrelationer, alltså förhållandet mellan x och y kan vara starkare än det verkar baserat på korrelationer eller andra mått på association. En typ av mätfel som plågar undersökningar är svarsstil, till exempel när en respondent tenderar att använda den höga delen av skalan oavsett vad som bedöms.

Min tills du hittar verkar vara mottot för vissa forskare, och detta är en manifestation av en särskilt farlig form av felbehandling som kallas HARKING. Saker händer utvecklar lite mer om detta komplexa ämne.

Regression till medelvärdet är ett statistiskt fenomen som kan få naturlig variation i upprepade data att se ut som verklig förändring. Det händer när ovanligt stora eller små mätningar tenderar att följas av mätningar som ligger närmare medelvärdet. Detta fenomen kan få det att verka som att ett utbildningsprogram eller terapi, till exempel, var effektivt när det i själva verket inte var det.

"Miljoner drabbade." Rubriker som denna kan dölja små effektstorlekar som statistiskt sett är noll. Vi måste överväga basstorlekar på vilka den här sortens skrämmande siffror har beräknats.

Användning av ny och oprövad metodik. Nytt är inte alltid bättre och beprövade metoder är normalt mer pålitliga än nya som ännu inte har granskats av oberoende forskare och statistiker.

Konflikter med annan forskning. En kontroversiell upptäckt kan vara en paradigmbuster men kan också indikera dålig metodik eller felaktig användning av statistik.

Finansieringskonflikter kan undergräva en studies trovärdighet, men anklagelser om finansieringskonflikter kan i sig ha finansierats på tvivelaktiga sätt.

Smakämnen ekologiska misstag, Simpsons paradoxoch Berksons partiskhet är andra saker att se upp med.

Ursprunget till det populära citatet "lögner, förbannade lögner och statistik"Är osäker, även om det har tillskrivits Mark Twain, Disraeli och flera andra. Men oavsett dess ursprung gjorde den det inte hänvisa till det moderna statistikområdet, som just började växa fram vid den tiden. Troligtvis gällde det officiella siffror, vilket var vad statistik ursprungligen betydde. Här är några sätt att ljuga med statistik.

Att etablera "sanning" genom upprepning är en mycket vanlig taktik och en Joseph Goebbels, en känd auktoritet på bedrägeri, rekommenderas uttryckligen. Få människor granskar påståenden, och färre kommer ännu ihåg tidigare förutsägelser från samma person eller organisation som visade sig vara mycket felaktiga.

Strågubbargument och "motbevisningar". är vanliga, liksom ad hominem attacker, och båda är särskilt användbara för dem som själva har något att dölja.

Generalisera från undantaget och att få sällsynta händelser att verka typiska är också populär taktik. Att blanda ihop det möjliga med det rimliga och det rimliga med fakta är en variant på detta tema.

Det finns också körsbärsplockning av data, modeller och tidigare forskning. En form av körsbärsplockning är att bara välja den del av en tidsserie som stödjer ens fall. Att "justera" data saknar direkt tillverkning men är en relaterad teknik. Smarta, om tveksamma, tolkningar av data eller statistiska modeller är ytterligare två vapen för det oetiska.

Datorsimuleringar kallas ibland missvisande experiment och simulerad datasubtilitet förmedlas som empirisk data. Att laga en datormodell för att "bevisa" ens teori är nu enklare än någonsin.

Samhällen är hierarkiska av naturen och människor är benägna att tänka dikotomt, därför åberopas ofta auktoriteter och debatter om vetenskapliga eller politiska frågor får ofta en smak mellan bra killar och onda. Att felaktigt framställa vad myndigheter verkligen tror är inte heller ovanligt.

Vi kämpar också för att migrera mellan frekvenser, procentsatseroch proportioner, och detta är något vi måste vara mycket uppmärksamma på. Till exempel kan vi läsa att miljontals människor kommer att påverkas om beslutsfattare gör detta eller inte gör det. En noggrann läsning av de citerade bevisen kan dock avslöja en mycket svag effektstorlek vars konfidens eller trovärdiga intervall överlappar med noll. Att multiplicera en liten fraktion med hundratals miljoner eller miljarder människor kommer att ge en skrämmande siffra. Tänk också på att en "50 % ökning" kan betyda från 001 till 0015.

Jag har inte nämnt datavisualiseringar, vilket lätt kan lura oss. Många människor förleds att tro det slumpmässig betyder även när det i själva verket är mycket osannolikt att jämnt fördelade siffror är slumpmässiga. Det finns också vad jag kallar Whack-A-Mole, med hänvisning till det ena tvivelaktiga påståendet efter det andra i snabb följd utan att svara på kritik mot någon av dem.

Statistiskt tänkande, kritisk i vetenskapen, kommer inte naturligt för människor. Ingen föds till statistiker, och läroplanerna förkortar ofta statistik.

Sammanfattningsvis är rigorös vetenskap utmanande och alla studier kan ifrågasättas. Bedrägeri är en del av den mänskliga naturen och vetenskapsmän är människor, liksom journalister och beslutsfattare. Vi är också och måste vara försiktiga med att inte lita på en studie bara för att vi tycker att den är spännande, eller för att den tröstar oss eller överensstämmer med vår tro.

Kevin Gray är ordförande för Kanongrå, ett marknadsföringsvetenskapligt och analytiskt konsultföretag. Han har mer än 30 års erfarenhet av marknadsföringsforskning med Nielsen, Kantar, McCann och TIAA-CREF.

Källa: https://www.kdnuggets.com/2022/01/demystifying-bad-science.html

Generativ dataintelligens

Avmystifierande dålig vetenskap

Även om helgens solstorm förstörde civilisationen skulle Bitcoin överleva

Mark Cuban går med i samtalen mot Anti-Crypto Biden Administration, slår emot SEC

Senaste intelligens

Marknader river ner Longs Who Aped över $63,000 XNUMX; Här är vart Bitcoin (BTC)-priset kan komma att gå härnäst

Ark Invest, 21Shares tar bort insatsplaner från Spot ETF-godkännande.

Peter Brandt Shorts Ethereum Futures; Avslöjar En Twist

Ethereum ETF:er: Här är alla applikationer som väntar på SEC-godkännande – Dekryptera

Core Scientific ser en ökning av intäkterna under 1Q24 Post-Konkurs

Quantum News Briefs: 11 maj 2024: Nyheter från DOE, Infleqtion, Mesa Photonics, Atlantic Quantum, HighRI Optics och Amethyst Research • BBVA • NICT, RIKEN,...