Zephyrnet-logo

Een gids voor tijdreeksdatabases

Datum:

Tijdreeksdatabases (of TSDB's) zijn databases die zijn geoptimaliseerd voor het verwerken van tijdreeksgegevens. Tijdreeksgegevens bestaat uit gegevensrecords die worden geïndexeerd met behulp van tijdstempels. De tijdstempels bieden een referentie voor elk van de gegevensrecords en laten zien hoe ze zich in de tijd tot elkaar verhouden. Een voorbeeld van tijdreeksgegevens zijn de gegevens die afkomstig zijn van een lopende bandsensor, die een continue gegevensstroom levert, ook wanneer de gegevens zijn geregistreerd.

Met een tijdreeksdatabase kunnen grote hoeveelheden tijdgestempelde gegevens snel en efficiënt worden opgeslagen in een formaat dat complexe analyse ondersteunt.

KRIJG ONBEPERKTE TOEGANG TOT 160+ ONLINE CURSUSSEN

Kies uit een breed scala aan on-demand Data Management-cursussen en uitgebreide trainingsprogramma's met ons premium abonnement.

Tijdreeksdatabases worden vaak gebruikt om zowel financiële gegevens te verwerken als marktschommelingen in de loop van de dag te volgen. Dankzij de mogelijkheid om datapunten (identificeerbare elementen, normaal gesproken een numerieke ID) op grote schaal te matchen met tijdstempels, hebben sommige slimme beleggers trends en/of marktafwijkingen kunnen voorspellen, wat tot aanzienlijke winsten heeft geleid. (Tijdreeksanalyse kan ook helpen bij het begrijpen van de onderliggende redenen voor trends.)

Het belangrijkste voordeel van tijdreeksdatabases is dat ze kunnen worden gebruikt om snel patronen in de gegevens te analyseren en te identificeren.

Hoe Time Series-databases werken

Tijdreeksdatabases zijn schaalbaar en leggen een reeks vaste waarden (de tijd) en een reeks dynamische waarden (de veranderingen die plaatsvinden) vast. Het kan bijvoorbeeld als acceptabel worden beschouwd wanneer een productieapparaat gemiddeld eens in de vier uur een fout maakt. Als het aantal fouten toeneemt tot één keer per uur, zou dat een onderzoek waard zijn, en als de tijd wordt vermeld waarop elke fout plaatsvond, kan worden onderzocht wat er op dat moment is gebeurd.

Tijdreeksdatabases gebruiken reeksen gegevenspunten die twee identificatiestukken bevatten: een numerieke waarde voor ID-doeleinden en een tijdstempel.

Omdat alle tijdreeksgegevensrecords een tijdstempel hebben, kan de volgorde van de gegevens worden gebruikt om deze in een stroomverwerkingsengine te leveren, die de gegevens behandelt alsof het een gegevensstroom is. Het primaire doel van tijdreeksdatabases is om snel te zijn, en het gebruik van een snelle stroomverwerkingsengine is een uitstekende manier om toegang te krijgen tot de beste huidige snelheden.

Het gebruik van tijdreeksdatabases

Als gebruik van slimme apparaten en de internet van dingen blijft toenemen, worden enorme hoeveelheden realtime dataverkeer gegenereerd, waarbij letterlijk miljoenen gebeurtenissen en transacties per dag worden geregistreerd. Met behulp van tijdreeksgegevens kunnen mensen redelijk goede voorspellingen doen over de toekomst.

Tijdreeksanalyse kan erg handig zijn voor het analyseren van jaarlijkse, seizoensgebonden en maandelijkse trends in de verkoop.

Tijdreeksgegevens worden gebruikt in:

  • Patroonherkenning: Er zijn verschillende methoden voor het gebruik van patroonherkenning voor tijdreeksdatabases. Ze transformeren de gegevens meestal eerst in een meer algemeen formaat. Een machine learning-algoritme wordt vervolgens gebruikt om het patroon te vinden en te classificeren. Wanneer visuele patroonherkenning het doel is, worden de gegevens eerst omgezet in een afbeelding.
  • Statistieken: In deze situatie worden gegevenspunten geregistreerd en opgeslagen met regelmatige tussenpozen gedurende een vastgestelde periode, in plaats van met tussenpozen. Gebruik van tijdreeksanalyse statistische methoden om de gegevens te analyseren en er patronen in te vinden.
  • Econometrie: Tijdreeksgegevens kunnen worden gecombineerd met: econometrie, met behulp van statistische en wiskundige modellen om toekomstige economische trends te voorspellen.
  • Regeltechniek: Een technische discipline gericht op besturingssystemen. Wanneer regeltechniek wordt gebruikt met tijdreeksgegevens, kan het gedrag in gecontroleerde omgevingen voorspellen.
  • Signaalverwerking: Een technisch gebied dat probeert digitale en analoge signalen te analyseren in termen van tijd. Een tijdreeksanalyse is een vorm van signaalverwerking, met geregistreerde datapunten met regelmatige tussenpozen.
  • financiën: Sommige financiële analisten gebruiken tijdreeksgegevens (bewegingen van aandelenkoersen, verkopen van een bedrijf in de loop van de tijd) om te voorspellen toekomstige prestaties van het bedrijf.

Bezorgdheid over tijdreeksgegevens

Er zijn een paar zorgen in verband met tijdreeksgegevens waarvan gebruikers op de hoogte moeten zijn. Het negeren van deze zorgen vergroot de kans op slechte, onnauwkeurige voorspellingen. Dezelfde zorgen zijn van toepassing op statistieken in het algemeen. Zij zijn:

  • De hoeveelheidsoverweging: Met te weinig steekproeven kan de nauwkeurigheid van voorspellingen over complexe problemen aanzienlijk lijden. Om nauwkeurige voorspellingen te maken, is een redelijk aantal monsters nodig om de essentiële elementen voor een tijdreeksanalyse vast te leggen. (10 mensen vragen op wie ze zullen stemmen en veranderingen in hun mening volgen, is niet genoeg om de resultaten van een landelijke verkiezing te voorspellen.)
  • De aggregatieoverweging: Aggregatie betekent een totaal, bestaande uit verschillende delen, of een "geheel" gemaakt door verschillende elementen te combineren. Een hoog aggregatieniveau (een grote verscheidenheid aan steekproeven) resulteert doorgaans in nauwkeurigere voorspellingen. Het hebben van veel vergelijkbare voorbeelden geeft mogelijk niet de werkelijkheid weer. (Het gebruik van de tijdreeksgegevens van Volkswagen-bestuurders om alle autobestuurders te vertegenwoordigen zou onnauwkeurige voorspellingen opleveren.)
  • De update-overweging: Dit houdt zich bezig met situaties die mogelijk vereisen dat de prognoses voortdurend regelmatig worden bijgewerkt om nieuwe informatie vast te leggen. (Denk aan weersvoorspellingen.) Als de updatefrequentie te sporadisch is, kan nuttige informatie worden gemist.
  • De Horizon-overweging: In dit geval vertegenwoordigt de horizon de toekomst. Hoe verder vooruit voorspellingen worden gedaan, hoe onzekerder de voorspellingen worden. Om een ​​voorspelling nauwkeurig te laten zijn, moeten de gegevens relevant en betrouwbaar zijn voor een langere periode. (Voorspellen hoeveel mensen over 30 jaar consequent op de fiets zullen zitten, zou onmogelijk zijn vanwege het enorme aantal onbekende factoren.)

Een minigeschiedenis van tijdreeksdatabases

Tijdreeksgegevens zijn een statistisch hulpmiddel dat terugkerende patronen gebruikt om toekomstige gebeurtenissen te voorspellen. Voorspellen dat de zon morgenochtend opkomt is vrij eenvoudig, maar hoe laat komt hij op? De Egyptenaren gebruikten vóór 1500 voor Christus zonnewijzers en 'schaduwklokken' en konden die vraag beantwoorden omdat ze gegevens bijhielden. Mensen gebruiken al heel lang de basisprincipes van tijdreeksanalyse.

Afgezien van astronomische voorspellingen, vond de eerste geregistreerde, gepubliceerde poging om tijdreeksgegevens te gebruiken plaats in 1662, toen John Graunt, een 17e-eeuwse winkelier in Londen, een boek gepubliceerd getiteld "Natuurlijke en politieke observaties ... gemaakt op de rekeningen van sterfte." Graunt deed een onderzoek naar overlijdensakten en kon de kans voorspellen dat een persoon van een bepaalde leeftijd voor zijn volgende verjaardag zou overlijden.

Tijdreeksanalyse is aanzienlijk geëvolueerd sinds Graunt zijn studie publiceerde. Tijdreeksdatabases zijn ontstaan ​​uit de wens om financiële gegevens te verwerken en marktschommelingen gedurende de dag te volgen. De eerste succesvolle computertool voor het werken met tijdreeksgegevens was de round-robin database-tool, ontwikkeld in 1999. De eerste open-source database was OpenTSDB, gepresenteerd in 2011. De zeer populaire open-source database InfluxDB werd in 2013 voor het grote publiek beschikbaar gesteld.

Enkele populaire tijdreeksdatabases

InstroomDB: Dit is een zeer populaire open source database. Het kan zowel in-house als in de cloud worden gebruikt. Het biedt sjablonen voor een verscheidenheid aan handige sjablonen. Als een open source-database, InstroomDB is een sleutelfactor geweest in het toenemende gebruik van tijdreeksdatabases.

QuestDB: Ook open source, dit is een SQL-database. Het gebruikt een kolomstructuur voor het opslaan van gegevens en voegt nieuwe gegevens toe aan de onderkant van elke kolom, waarbij de tijdvolgorde van de binnenkomende gegevens wordt vastgelegd. QuestDB kan ook relationele modellering met tijdreeksgegevens ondersteunen (u kunt joins schrijven, terwijl u SQL-query's gebruikt om de gegevens te lezen).

TijdschaalDB: Dit is ook een open-source SQL-database. Het is in wezen een extensie die werkt met PostgreSQL. Tijdschaal DB kan worden gedownload en intern worden gebruikt, maar kan ook in verschillende clouds worden gebruikt door het gebruik van een multi-cloudbeheerplatform, genaamd Aiven.

"Kdb+”: Als uniek beschouwd. KDB+ kan worden beschreven als een kolomvormige tijdreeksdatabase die in-memory computing en relationele modellering ondersteunt. Het wordt al enkele jaren gebruikt door de hightech handelsindustrie en is geschreven in een programmeertaal genaamd k (wat het uniek maakt). De k-taal staat bekend om array-verwerking.

druïde: Een tijdreeksdatabase, maar kan ook worden gebruikt voor extreem snelle aggregaties van tijdgeordende gegevens. Het kan worden omschreven als een op tijd gebaseerde analysedatabase. druïde wordt geleverd met op tijd gebaseerde partities en gecomprimeerde bitmapindexen voor het snoeien van gegevens die niet nodig zijn. Het gebruikt een querytaal die op JSON is gebaseerd. Druid biedt ook Druid SQL.

Afbeelding gebruikt onder licentie van Shutterstock.com

spot_img

Laatste intelligentie

spot_img