Zephyrnet-logo

9 voorspellingen voor gegevens in 2023

Datum:

Gisteren, bij de Monte Carlo Impact-top Ik deelde mijn 9 voorspellingen voor gegevens in 2023. Hier zijn de dia's & ik heb ze hieronder ingesloten.

Dit zijn mijn 9 voorspellingen. Over een jaar zal ik ze scoren om te zien hoe ik het heb gedaan.

  1. Cloud datawarehouses (CDW) zullen tegen 75 2024% van de workloads verwerken. In de afgelopen vijf jaar zijn CDW's gegroeid van 20% van de workloads naar 50%, terwijl on-prem databases de rest vormen. Ondertussen is de industrie in die tijd gegroeid van $ 36 miljard naar $ 80 miljard.
  2. Gegevensworkloads worden per use case in drie groepen gesegmenteerd. Ten eerste, in-memory databases zoals DuckDB zal groeien om de lokale analyse te domineren, zelfs voor enorme bestanden. CDW's behouden het klassieke gebruik van BI en verkenning. Cloud data lakehouses zullen taken uitvoeren die werken op enorme gegevens en taken die niet de snelste latentie vereisen - en doen dit voor de helft van de opslagprijs.
  3. Met metrische lagen wordt de gegevensstapel verenigd. Tegenwoordig zijn er twee verschillende vorken in gegevens. De eerste fork gebruikt ETL om gegevens naar een CDW te pompen en vervolgens naar een BI- of gegevensverkenningstool. De tweede fork, de machine learning-stack, is identiek, behalve voor de outputs: modelserving & modeltraining. De metrische laag wordt de enige plaats waar metrische gegevens en functies worden gedefinieerd, waardoor de stapel en mogelijk bewegende modelserving en training in de database worden verenigd.
  4. Grote machine learning-modellen voor talen zullen de rol van data-engineers veranderen. Ik heb een video opgenomen waarin ik code schrijf om grafieken te maken en deze in de presentatie ingesloten. De video laat zien hoe Github Copilot op magische wijze een grafiek maakt voor de groei van DuckDB-sterren. Copilot neemt een opmerking op, schrijft de code en voegt zelfs mijn aangepaste themafunctie toe. Als ik de code uitvoer, werkt het. Technologieën zoals deze zullen data-engineering naar een hoger abstractieniveau tillen.
  5. WebAssembly of WASM wordt een essentieel onderdeel van eindgebruikersgerichte data-apps. WASM is een technologie die browsersoftware versnelt. Pagina's worden sneller geladen, gegevensverwerking gaat sneller en gebruikers zijn gelukkiger. Elke grote browser ondersteunt WASM en daarom zal iedereen die een data-app voor een eindgebruiker produceert, deze gebruiken.
  6. Notebooks zullen 20% van de Excel-gebruikers winnen. Van de 1b wereldwijde Excel-gebruikers zal 20% prosumenten worden en Python/SQL schrijven om gegevens te analyseren. Ze doen het in notebooks zoals Jupyter, die gemakkelijk kunnen worden gedeeld, reproduceerbaar en versiebeheerd zijn. Die notebooks worden data-apps die worden gebruikt door eindgebruikers binnen bedrijven, broze Excel & Google Spreadsheets vervangen.
  7. SaaS-applicaties gebruiken de CDW als backend voor zowel lezen als schrijven. Tegenwoordig bestaan ​​verkoop-, marketing- en financiële gegevens in verschillende systemen. ETL-systemen gebruiken API's om die gegevens naar het CDW te pushen voor analyse. In de toekomst zullen softwareproducten hun apps bovenop de CDW bouwen om te profiteren van gecentraliseerde beveiliging, snellere inkoopprocessen en aangrenzende gegevens. Deze systemen schrijven ook terug naar de CDW.
  8. Waarneembaarheid van gegevens wordt een must. Software-engineers meten het succes van hun inspanningen aan de hand van uptime. 99.9% of drie-negen uptime betekent slechts 1 incident per 1000 uur. De datateams van vandaag zien 70 incidenten per 1000 tabellen. Datateams stemmen de uptime/nauwkeurigheidsstatistieken van data af en streven naar het drie-negen-equivalent, met behulp van tools voor het observeren van gegevens om hun prestaties te meten.
  9. Het decennium van gegevens gaat door. Data-startups hebben in 60 in totaal meer dan $ 2021 miljard opgehaald, meer dan 20% van alle opgehaalde venture-dollars. We staan ​​nog aan het begin van deze fundamentele beweging.

Bedankt aan het Monte Carlo-team voor de kans en het publiek voor de geweldige vragen aan het einde. Ik zal de video van de presentatie posten als deze live is.

spot_img

Laatste intelligentie

spot_img