Eilen klo Monte Carlon vaikutusten huippukokous Jaoin 9 ennustettani datalle vuonna 2023. Tässä ovat diat & Olen upottanut ne alle.
Nämä ovat minun 9 ennustettani. Vuoden kuluttua teen heille pisteet nähdäkseni, kuinka onnistuin.
- Pilvitietovarastot (CDW) käsittelevät 75 prosenttia työkuormista vuoteen 2024 mennessä. Viimeisten viiden vuoden aikana CDW:t ovat kasvaneet 20 prosentista 50 prosenttiin, ja loput ovat valmiit tietokannat. Samaan aikaan teollisuus on kasvanut 36 miljardista dollarista 80 miljardiin dollariin tuona aikana.
- Tietojen työmäärät segmentoidaan käyttötapauksen mukaan kolmeen ryhmään. Ensinnäkin muistissa olevat tietokannat, kuten DuckDB tulee hallitsemaan paikallista analyysiä jopa suurille tiedostoille. CDW:t säilyttävät klassiset BI- ja etsintäkäytöt. Cloud Data Lakehouses palvelee suuria dataa koskevia töitä ja töitä, jotka eivät vaadi nopeinta viivettä – ja tekevät sen puoleen tallennushinnasta.
- Mittaritasot yhdistävät tietopinon. Nykyään tiedoissa on kaksi erilaista haarukkaa. Ensimmäinen haarukka käyttää ETL:ää tietojen pumppaamiseen CDW-levylle ja sitten BI- tai tiedontutkimustyökaluun. Toinen haarukka, koneoppimispino, on identtinen lukuun ottamatta lähtöjä: mallin palveleminen ja mallin koulutus. Mittaritasosta tulee yksi paikka, jossa mittarit ja ominaisuudet määritellään, yhdistäen pinon ja mahdollisesti siirrettävän mallin käytön ja koulutuksen tietokantaan.
- Suuret kielten koneoppimismallit muuttavat datainsinöörien roolia. Nauhoitin videon, jossa kirjoitin koodia kaavioiden tuottamiseksi ja upotin sen esitykseen. Videolla näkyy, että Github Copilot luo taianomaisesti kaavion DuckDB-tähtien kasvulle. Copilot ottaa kommentin, kirjoittaa koodin ja jopa lisää mukautetun teematoiminnon. Kun suoritan koodin, se toimii. Tällaiset tekniikat työntävät tietotekniikan työn korkeammalle abstraktiotasolle.
- WebAssemblysta tai WASM:stä tulee olennainen osa loppukäyttäjälle suunnattuja datasovelluksia. WASM on tekniikka, joka nopeuttaa selainohjelmistoa. Sivut latautuvat nopeammin, tietojenkäsittely on nopeampaa ja käyttäjät ovat tyytyväisempiä. Jokainen suuri selain tukee WASM:ää, joten jokainen, joka tuottaa datasovelluksen loppukäyttäjälle, käyttää sitä.
- Muistikirjat saavat 20 % Excelin käyttäjistä. Maailmanlaajuisista Excelin 1b-käyttäjistä 20 % tulee proasiakkaiksi, jotka kirjoittavat Python/SQL:n analysoimaan dataa. He tekevät sen muistikirjoissa, kuten Jupyter, jotka ovat helposti jaettavissa, toistettavissa ja versiohallittavissa. Näistä muistikirjoista tulee datasovelluksia, joita loppukäyttäjät käyttävät yritysten sisällä, hauraiden Excel- ja Google Sheetsin korvaaminen.
- SaaS-sovellukset käyttävät CDW taustaohjelmaksi sekä lukemiseen että kirjoittamiseen. Nykyään myynti-, markkinointi- ja taloustiedot ovat olemassa erilaisissa järjestelmissä. ETL-järjestelmät käyttävät API:ita työntämään tiedot CDW:lle analysointia varten. Jatkossa ohjelmistotuotteet rakentavat sovelluksensa CDW:n päälle hyödyntääkseen keskitettyä tietoturvaa, nopeampia hankintaprosesseja ja viereisiä tietoja. Nämä järjestelmät myös kirjoittavat takaisin CDW:hen.
- Tietojen tarkkailusta tulee pakollinen ominaisuus. Ohjelmistoinsinöörit mittaavat ponnistelujensa onnistumista käyttöajan avulla. 99.9 % eli kolme yhdeksän käyttöaikaa tarkoittaa vain yhtä tapausta 1 tuntia kohden. Tämän päivän datatiimit näkevät 1000 tapausta 70 taulukkoa kohden. Datatiimit mukautuvat datan käytettävyys-/tarkkuusmittareihin ja ajavat kolmeen yhdeksään vastaavaan mittaan käyttämällä tietojen havainnointityökaluja suorituskykynsä mittaamiseen.
- Datan vuosikymmen jatkuu. Data startupit keräsivät yhteensä yli 60 miljardia dollaria vuonna 2021, yli 20 % kaikista kerätyistä pääomasijoituksista. Olemme vielä tämän perustavan liikkeen alkuvaiheessa.
Kiitos Monte Carlon tiimille mahdollisuudesta ja yleisölle loistavista kysymyksistä lopussa. Julkaisen videon esityksestä, kun se on livenä.