Zephyrnet-logo

Amazon Kinesis Data Streams: viering van een decennium aan realtime data-innovatie | Amazon-webservices

Datum:

Data zijn een belangrijk strategisch bezit voor elke organisatie, en elk bedrijf is in essentie een databedrijf. In veel organisaties zijn gegevens echter doorgaans verspreid over een aantal verschillende systemen, zoals Software as a Service (SaaS)-applicaties, operationele databases en datawarehouses. Dergelijke datasilo’s maken het lastig om een ​​uniform beeld te krijgen van de data in een organisatie en om in realtime te kunnen handelen om de meeste waarde eruit te halen.

Tien jaar geleden zijn we begonnen Amazon Kinesis-gegevensstromen, de eerste cloud-native serverloze streaming dataservice, die als ruggengraat voor bedrijven moet dienen om gegevens over systeemgrenzen heen te verplaatsen en zo gegevenssilo's te doorbreken. Met datastreaming kunt u datameren van stroom voorzien Amazon eenvoudige opslagservice (Amazon S3), verrijk klantervaringen via personalisatie, verbeter de operationele efficiëntie met voorspellend onderhoud van machines in uw fabrieken en bereik betere inzichten met nauwkeurigere machine learning (ML)-modellen. Amazon Kinesis Data Streams is een fundamentele datastrategiepijler voor tienduizenden klanten. Naarmate stromen van onbewerkte gegevens samenkomen, ontsluiten ze mogelijkheden om gegevens voortdurend in realtime te transformeren, te verrijken en op te vragen via naadloze integratie met stroomverwerkingsengines zoals Amazon Managed Service voor Apache Flink.

Als voorbeeld, de National Hockey League (NHL) heeft de fanervaring opnieuw vormgegeven door live NHL EDGE-spelgegevens en -statistieken te streamen om hockeyfans waardevolle inzichten te bieden en fans op het puntje van hun stoel te houden. NHL EDGE-technologie in de puck en spelerstruien (jerseys) genereert elke seconde duizenden datapunten voor de NHL, die door AWS kunnen worden geanalyseerd om waarschijnlijke uitkomsten voor belangrijke evenementen zoals face-offs te voorspellen. Om duizenden signalen te verwerken en te analyseren, heeft de NHL een real-time streaming databasis gebouwd met Kinesis Data Streams en Amazon Managed Service voor Apache Flink om gegevens te streamen, voor te bereiden en in ML-modellen in te voeren, waardoor face-off voorspellingen binnen enkele seconden kunnen worden gedaan en het uitbreiden van nieuwe manieren om kijkers te betrekken.

Voortbouwend op dergelijke streamingdatafundamenten denken veel klanten momenteel na over hoe ze transformatieve nieuwe producten en diensten kunnen leveren met generatieve AI. Met streaming kunnen bedrijven de beschikbare gegevens in datastores veilig en in realtime verbinden met grote taalmodellen (LLM's). Hoewel LLM's in staat zijn om met miljarden parameters te werken, hebben LLM's, om een ​​boeiende ervaring te bieden die is afgestemd op de klanten van een bedrijf, personalisatiegegevens nodig voor de gebruikers van het bedrijf en eigen kennisopslagplaatsen binnen de datastores van het bedrijf. Een datastrategie die streaming omvat, is nodig om personalisatie en bedrijfseigen gegevens te leveren die in realtime beschikbaar zijn voor bevraging.

Klanten met een real-time streaming datastrategie lopen voorop bij het leveren van innovatieve producten met generatieve AI. Eén klant heeft Kinesis Data Streams gebruikt voor hun datastrategie en zij streamen miljarden gebeurtenissen uit hun digitale producten om realtime inzichten te verkrijgen. Met een combinatie van datastreaming en analyses met lage latentie kunnen ze de gebruikerservaring begrijpen en personaliseren via een naadloos geïntegreerd, onafhankelijk systeem voor experimenten en geautomatiseerde feedback. Eerder dit jaar lanceerden ze, voortbouwend op hun toch al sterke databasis, een innovatief generatief AI-product voor digitale media. Dezelfde databasis gebouwd op Kinesis Data Streams wordt gebruikt om continu te analyseren hoe gebruikers omgaan met de gegenereerde inhoud en helpt het productteam de applicatie te verfijnen.

"Real-time streaming datatechnologieën zijn essentieel voor digitale transformatie. Deze diensten helpen klanten data naar hun applicaties en modellen te brengen, waardoor ze slimmer worden. Realtime data geven bedrijven een voordeel bij datagestuurde beslissingen, voorspellingen en inzichten door de data te gebruiken op het moment dat deze worden gegenereerd, wat een ongeëvenaarde voorsprong biedt in een wereld waar timing de sleutel tot succes is. Breng de gegevens in één keer binnen, gebruik ze in uw hele organisatie en onderneem actie voordat de waarde van die gegevens afneemt. '

– Mindy Ferguson, VP van AWS Streaming en Messaging.

Terwijl we de tiende verjaardag van Kinesis Data Streams vieren, hebben klanten vier belangrijke redenen gedeeld waarom ze deze revolutionaire service blijven waarderen. Ze vinden het geweldig hoe ze eenvoudig gegevens kunnen streamen zonder dat er onderliggende servers hoeven te worden ingericht of beheerd, hoe ze op grote schaal kunnen opereren met consistente prestaties, een hoge veerkracht en duurzaamheid kunnen bereiken en kunnen profiteren van de brede integratie met talloze bronnen en sinks om respectievelijk gegevens op te nemen en te verwerken.

Gebruiksgemak

Aan de slag gaan met Kinesis Data Streams is eenvoudig: ontwikkelaars kunnen een datastream creëren met een paar klikken op de Kinesis Data Streams-console of met een enkele API-aanroep. Het wijzigen van de grootte of configuratie is ook een enkele API-aanroep, en elke datastroom wordt standaard geleverd met een dataretentieperiode van 24 uur. Ontwikkelaars hoeven zich geen zorgen te maken over clusters, versie-upgrades of planning van opslagcapaciteit. Ze zetten gewoon een datastroom aan en beginnen gegevens op te nemen.

De behoeften van onze klanten zijn de afgelopen 10 jaar geëvolueerd. Naarmate meer gebeurtenissen worden vastgelegd en gestreamd, willen klanten dat hun datastromen elastisch kunnen worden geschaald zonder enige operationele overhead. Als reactie hierop zijn we gestart On-Demand streams in 2021 om een ​​eenvoudige en automatische schaalervaring te bieden. Met On-Demand-streams laat u de service proactief de capaciteit van een stream opschalen, en worden er alleen kosten in rekening gebracht voor de daadwerkelijke gegevens die worden opgenomen, opgehaald en opgeslagen. Omdat onze klanten bleven vragen om meer mogelijkheden, hebben we de limiet voor de opnamedoorvoer van elke On-Demand-stream verhoogd van 200 MB/s naar 1GB / s in maart 2023, en daarna naar 2GB / s in oktober 2023, om werklasten met een hogere doorvoer op te vangen. Om te blijven innoveren om de gemakkelijkst te gebruiken streaming-dataservice te zijn, luisteren we actief naar de gebruiksscenario's van onze klanten.

Canva is een online ontwerp- en visueel communicatieplatform. Omdat het snel is gegroeid van 30 miljoen naar 135 miljoen maandelijkse gebruikers, heeft het een streamingdataplatform op grote schaal gebouwd dat moeiteloos te gebruiken is voor het stimuleren van productinnovaties en het personaliseren van de gebruikerservaring.

“Amazon Kinesis Data Streams en AWS Lambda worden gebruikt in het logplatform van Canva, waarbij meer dan 60 miljard loggebeurtenissen per dag worden opgenomen en verwerkt. De combinatie van Kinesis Data Streams en Lambda heeft veel werk weggenomen dat vaak nodig is bij het beheren van een enorme datapijplijn, zoals het inzetten en beheren van een vloot servers, terwijl het ook een zeer schaalbare en betrouwbare service biedt. Het heeft ons in staat gesteld ons te concentreren op het leveren van een product van wereldklasse door veelgevraagde functies te bouwen in plaats van tijd te besteden aan operationeel werk.”

– Phoebe Zhou, software-ingenieur bij Canva.

Werk op grote schaal met consistente prestaties

Een fundamentele vereiste van een streamingdatastrategie is het opnemen en verwerken van grote hoeveelheden gegevens met een lage latentie. Kinesis Data Streams verwerkt biljoenen records per dag voor tienduizenden klanten. Klanten beheren meer dan 3.5 miljoen unieke streams en verwerken meer dan 45 PB aan gegevens per dag. Onze grootste klanten verwerken meer dan 15 GB per seconde aan realtime gegevens met individuele streams. Dat komt overeen met het streamen van meerdere datapunten voor elke persoon op aarde, elke seconde! Zelfs op deze schaal halen al onze klanten nog steeds gegevens binnen milliseconden na beschikbaarheid op.

Klanten willen dezelfde gegevens ook verwerken met meerdere applicaties, waarbij elke applicatie een andere waarde ontleent, zonder zich zorgen te hoeven maken dat de ene applicatie de leesdoorvoer van een andere applicatie beïnvloedt. Verbeterde uitwaaieren biedt speciale leesdoorvoer en lage latentie voor elke dataconsument. Hierdoor kunnen bedrijfsplatformteams realtime gegevens aan meer teams en applicaties leveren.

VMware carbonzwart gebruikt Kinesis Data Streams om elke dag petabytes aan gegevens op te nemen om miljoenen eindpunten van klanten te beveiligen. Het team concentreert zich op zijn expertise, terwijl AWS de datastreaming beheert om in realtime aan het groeiende klantenverkeer en de groeiende behoeften te voldoen.

“Wanneer de gegevens van een individuele klant toenemen of afnemen, kunnen we de elasticiteit van Amazon Kinesis Data Streams gebruiken om de rekenkracht op of neer te schalen om gegevens betrouwbaar te verwerken en tegelijkertijd onze kosten effectief te beheren. Dit is de reden waarom Kinesis Data Streams goed bij je past. Het grootste voordeel is het beheerde karakter van onze oplossing op AWS. Dit heeft onze architectuur gevormd en ons geholpen de complexiteit naar elders te verplaatsen.”

– Stoyan Dimkov, stafingenieur en softwarearchitect bij VMware Carbon Black.

Meer informatie over de case study.

Zorg voor veerkracht en duurzaamheid voor datastreaming

Met de groeiende hoeveelheid data willen klanten meer flexibiliteit bij het verwerken en opnieuw verwerken van data. Als een applicatie die gegevens verbruikt bijvoorbeeld een tijdje offline gaat, willen teams ervoor zorgen dat ze de verwerking op een later tijdstip kunnen hervatten zonder gegevensverlies. Kinesis Data Streams biedt standaard een bewaarperiode van 24 uur, waardoor u een specifieke tijdstempel kunt selecteren vanaf waar u de verwerking van records wilt starten. Met de verlengde retentie functie kunt u de bewaarperiode voor gegevens configureren tot maximaal 7 dagen.

Sommige sectoren, zoals de financiële dienstverlening en de gezondheidszorg, hebben strengere compliance-eisen, dus klanten vroegen om nog langere bewaartermijnen voor gegevens om aan deze eisen te voldoen. Daarom zijn wij gevolgd lange termijn opslag die het bewaren van gegevens tot 1 jaar ondersteunt. Nu gebruiken duizenden Kinesis Data Streams-klanten deze functies om hun streamingapplicaties veerkrachtiger en duurzamer te maken.

Mercado Libre, een toonaangevend e-commerce- en betalingsplatform in Latijns-Amerika, vertrouwt op Kinesis Data Streams om zijn streamingdatastrategie rond betalingsverwerking, klantervaring en operaties te ondersteunen.

“Met Amazon Kinesis Data Streams als kern verwerken we ongeveer 70 miljard dagelijkse berichten, verdeeld over duizenden dataproducenten. Door gebruik te maken van Kinesis Data Streams en Amazon DynamoDB Streams hebben we een gebeurtenisgestuurde architectuur omarmd en kunnen we snel reageren op dataveranderingen.”

– Joaquin Fernandez, senior software-expert bij Mercado Libre.

Toegang tot uw gegevens, waar deze zich ook bevinden

Onze klanten gebruiken een grote verscheidenheid aan tools en applicaties, en de gegevens van een organisatie bevinden zich vaak op veel plaatsen. Daarom is het vermogen om gegevens binnen een organisatie eenvoudig te integreren cruciaal om tijdig inzichten te verkrijgen. Ontwikkelaars gebruiken de Kinesis Producer Library, Kinesis Client Library en AWS SDK om snel aangepaste dataproducent- en dataconsumer-applicaties te bouwen. Klanten hebben hun dataproducenten uitgebreid, variërend van microservices tot smart-tv's en zelfs auto's. We hebben meer dan 40 integraties met AWS-services en applicaties van derden, zoals Adobe Experience Platform en Databricks. Zoals beschreven in onze whitepaper Bij het bouwen van een moderne datastreamingarchitectuur op AWS dient Kinesis Data Streams als de ruggengraat voor serverloze en realtime gebruiksscenario’s zoals personalisatie, realtime inzichten, Internet of Things (IoT) en gebeurtenisgestuurde architectuur. Onze recente integratie met Amazon roodverschuiving stelt u in staat om binnen enkele seconden honderden megabytes aan gegevens uit Kinesis Data Streams in datawarehouses op te nemen. Voor meer informatie over hoe u deze integratie kunt gebruiken om fraude in bijna realtime te detecteren, raadpleegt u Bijna realtime fraudedetectie met behulp van Amazon Redshift Streaming Ingestion met Amazon Kinesis Data Streams en Amazon Redshift ML.

Een andere integratie die in 2023 werd gelanceerd, is met Amazone Monitron om voorspellend onderhoudsbeheer mogelijk te maken. U kunt nu meetgegevens en de bijbehorende gevolgtrekkingsresultaten naar Kinesis Data Streams streamen, voorspellend onderhoud coördineren en een IoT-datameer bouwen. Voor meer details, zie Genereer bruikbare inzichten voor voorspellend onderhoudsbeheer met Amazon Monitron en Amazon Kinesis.

Laten we vervolgens teruggaan naar de NHL-gebruikscasus waarin ze IoT, datastreaming en machine learning combineren.

De NHL Edge IQ, mogelijk gemaakt door AWS, helpt fans dichter bij de actie te komen met geavanceerde analyses en nieuwe ML-statistieken zoals Face-off Probability en Opportunity Analysis.

“We gebruiken Amazon Kinesis Data Streams om NHL EDGE-gegevens over puck- en spelerposities, face-off-locatie en de huidige spelsituatie te verwerken om dataproducenten te ontkoppelen van het consumeren van applicaties. Amazon Managed Service voor Apache Flink wordt gebruikt om Flink-applicaties uit te voeren en gebruikt gegevens van Kinesis Data Streams om het voorspellingsmodel in Amazon SageMaker aan te roepen om de realtime Face-off Probability-metriek te leveren. De waarschijnlijkheidsresultaten worden ook opgeslagen in Amazon S3 om het model voortdurend opnieuw te trainen in SageMaker. Het succes van dit project bracht ons ertoe de volgende maatstaf te ontwikkelen: Kansenanalyse, dat meer dan 25 inzichten biedt in de kwaliteit van de scoringskans die wordt geboden door elk schot op doel. Kinesis Data Streams en Amazon Managed Service voor Apache Flink-applicaties waren van cruciaal belang voor het maken van live, in-game voorspellingen, waardoor het systeem kansenanalyseberekeningen kon uitvoeren voor maximaal 16 live NHL-games tegelijk.”

– Eric Schneider, SVP, Software Engineering bij de National Hockey League.

Meer informatie over de case study.

De toekomst van data is realtime

De samensmelting van realtime datastreaming en generatieve AI belooft de hoeksteen te worden van onze digitaal verbonden wereld. Generatieve AI, mogelijk gemaakt door een constante toestroom van realtime informatie van IoT-apparaten, sensoren, sociale media en meer, wordt alomtegenwoordig. Van autonome voertuigen die dynamisch veranderende verkeersomstandigheden navigeren tot slimme steden die het energieverbruik optimaliseren op basis van de realtime vraag: de combinatie van AI en realtime gegevens zal de efficiëntie en innovatie in alle sectoren ondersteunen. Deze AI-gestuurde toepassingen zijn alomtegenwoordig, adaptief en diep geïntegreerd in ons leven en zullen het gemak vergroten en cruciale uitdagingen zoals klimaatverandering, gezondheidszorg en rampenbestrijding aanpakken door gebruik te maken van de rijkdom aan realtime inzichten waarover ze beschikken. Met Kinesis Data Streams kunnen organisaties een solide databasis opbouwen, waardoor u snel nieuwe technologieën kunt adopteren en sneller nieuwe kansen kunt ontsluiten – waarvan we verwachten dat deze enorm zullen zijn.

Kom meer te weten over wat onze klanten doen met datastreaming. Als je een snelle verkenning wilt van de concepten en gebruiksscenario's van Kinesis Data Streams, bekijk dan onze Amazon Kinesis Data Streams 101-afspeellijst. Als u aan de slag wilt gaan met het opbouwen van uw gegevensstromen, gaat u naar de Amazon Kinesis Data Streams Ontwikkelaarsgids.


Over de auteur

Roy (KDS) Wang is een Senior Product Manager bij Amazon Kinesis Data Streams. Hij heeft een passie voor het leren van en samenwerken met klanten om organisaties te helpen sneller en slimmer te werken. Buiten zijn werk streeft Roy ernaar een goede vader te zijn voor zijn nieuwe zoon en bouwt hij plastic modelbouwpakketten.

spot_img

Laatste intelligentie

spot_img