Zephyrnet Logo

Amazon Kinesis Data Streams: comemorando uma década de inovação em dados em tempo real | Amazon Web Services

Data:

Os dados são um ativo estratégico fundamental para todas as organizações, e toda empresa é, em sua essência, um negócio de dados. No entanto, em muitas organizações, os dados normalmente estão espalhados por vários sistemas diferentes, como aplicativos de software como serviço (SaaS), bancos de dados operacionais e data warehouses. Esses silos de dados dificultam a obtenção de visualizações unificadas dos dados em uma organização e a ação em tempo real para obter o máximo valor.

Há dez anos, lançamos Fluxos de dados do Amazon Kinesis, o primeiro serviço de streaming de dados sem servidor nativo da nuvem, para servir como espinha dorsal para as empresas, para mover dados através das fronteiras do sistema, quebrando silos de dados. Com o streaming de dados, você pode potencializar data lakes em execução Serviço de armazenamento simples da Amazon (Amazon S3), enriqueça as experiências dos clientes por meio da personalização, melhore a eficiência operacional com manutenção preditiva de máquinas em suas fábricas e obtenha melhores insights com modelos de aprendizado de máquina (ML) mais precisos. O Amazon Kinesis Data Streams é um pilar fundamental da estratégia de dados para dezenas de milhares de clientes. À medida que os fluxos de dados brutos se reúnem, eles liberam recursos para transformar, enriquecer e consultar dados continuamente em tempo real por meio da integração perfeita com mecanismos de processamento de fluxo, como Serviço gerenciado da Amazon para Apache Flink.

Como exemplo, o Liga Nacional de Hóquei (NHL) reinventou a experiência dos fãs ao transmitir dados e estatísticas de jogos NHL EDGE ao vivo para oferecer aos fãs de hóquei informações valiosas para mantê-los atentos. A tecnologia NHL EDGE no disco e nos suéteres (camisas) dos jogadores gera milhares de pontos de dados a cada segundo para a NHL, que podem ser analisados ​​pela AWS para prever resultados prováveis ​​para eventos importantes, como confrontos diretos. Para processar e analisar milhares de sinais, a NHL construiu uma base de dados de streaming em tempo real com Kinesis Data Streams e Amazon Managed Service for Apache Flink para transmitir, preparar e alimentar dados em modelos de ML, ajudando a informar previsões de confronto direto em segundos e expandindo novas maneiras de envolver os espectadores.

Com base nessas bases de streaming de dados, muitos clientes estão atualmente pensando em como fornecer novos produtos e serviços transformadores com IA generativa. O streaming permite que as empresas conectem os dados disponíveis nos armazenamentos de dados a grandes modelos de linguagem (LLMs) de forma segura e em tempo real. Embora os LLMs sejam capazes de trabalhar com bilhões de parâmetros, para oferecer uma experiência envolvente e adaptada aos clientes de uma empresa, os LLMs exigem dados de personalização para os usuários da empresa e armazenamentos de conhecimento proprietários nos armazenamentos de dados da empresa. Uma estratégia de dados que incorpore streaming é necessária para fornecer dados personalizados e proprietários que estejam disponíveis para consulta em tempo real.

Os clientes com estratégia de streaming de dados em tempo real estão na vanguarda no fornecimento de produtos inovadores com IA generativa. Um cliente adotou o Kinesis Data Streams para sua estratégia de dados e transmitiu bilhões de eventos de seus produtos digitais para obter insights em tempo real. Com uma combinação de streaming e análise de dados de baixa latência, eles são capazes de compreender e personalizar a experiência do usuário por meio de um sistema autossuficiente e perfeitamente integrado para experimentação e feedback automatizado. No início deste ano, com base na sua já sólida base de dados, lançaram um produto inovador de IA generativa de mídia digital. A mesma base de dados criada no Kinesis Data Streams é usada para analisar continuamente como os usuários interagem com o conteúdo gerado e ajuda a equipe de produto a ajustar o aplicativo.

"As tecnologias de streaming de dados em tempo real são essenciais para a transformação digital. Esses serviços ajudam os clientes a trazer dados para seus aplicativos e modelos, tornando-os mais inteligentes. Os dados em tempo real oferecem às empresas uma vantagem em decisões, previsões e insights baseados em dados, utilizando os dados no exato momento em que são gerados, proporcionando uma vantagem incomparável em um mundo onde o tempo é a chave para o sucesso. Traga os dados uma vez, use-os em toda a sua organização e aja antes que o valor desses dados diminua. "

– Mindy Ferguson, vice-presidente de streaming e mensagens da AWS.

Ao comemorarmos o décimo aniversário do Kinesis Data Streams, os clientes compartilharam quatro motivos principais pelos quais continuam a valorizar esse serviço revolucionário. Eles adoram como podem transmitir dados facilmente sem servidores subjacentes para provisionar ou gerenciar, operar em grande escala com desempenho consistente, alcançar alta resiliência e durabilidade e se beneficiar da ampla integração com inúmeras fontes e coletores para ingerir e processar dados, respectivamente.

FÁCIL DE USAR

Começar a usar o Kinesis Data Streams é simples: os desenvolvedores podem criar um fluxo de dados com apenas alguns cliques no console do Kinesis Data Streams ou com uma única chamada de API. Alterar o tamanho ou a configuração também é uma única chamada de API, e cada fluxo de dados vem com um período de retenção de dados padrão de 24 horas. Os desenvolvedores não precisam se preocupar com clusters, atualizações de versão ou planejamento de capacidade de armazenamento. Eles simplesmente ativam um fluxo de dados e começam a ingerir dados.

As necessidades de nossos clientes evoluíram nos últimos 10 anos. À medida que mais eventos são capturados e transmitidos, os clientes desejam que seus fluxos de dados sejam dimensionados de forma elástica, sem qualquer sobrecarga operacional. Em resposta, lançamos Sob demanda streams em 2021 para fornecer uma experiência de escalonamento simples e automática. Com os fluxos sob demanda, você permite que o serviço administre o aumento da capacidade de um fluxo de forma proativa e você só será cobrado pelos dados reais ingeridos, recuperados e armazenados. À medida que nossos clientes continuavam solicitando mais recursos, aumentamos o limite de taxa de transferência de ingestão de cada fluxo sob demanda de 200 MB/s para 1GB / s em março de 2023, e depois para 2GB / s em outubro de 2023, para acomodar cargas de trabalho de maior rendimento. Para continuar inovando e sendo o serviço de streaming de dados mais fácil de usar, ouvimos ativamente os casos de uso de nossos clientes.

canva é uma plataforma online de design e comunicação visual. À medida que cresceu rapidamente de 30 milhões para 135 milhões de usuários mensais, construiu uma plataforma de streaming de dados em escala que é fácil de operar para impulsionar inovações de produtos e personalizar a experiência do usuário.

“O Amazon Kinesis Data Streams e o AWS Lambda são usados ​​em toda a plataforma de registro do Canva, ingerindo e processando mais de 60 bilhões de eventos de registro por dia. A combinação do Kinesis Data Streams e do Lambda abstraiu muito trabalho que muitas vezes é necessário no gerenciamento de um enorme pipeline de dados, como a implantação e o gerenciamento de uma frota de servidores, ao mesmo tempo em que fornece um serviço altamente escalonável e confiável. Isso nos permitiu focar no fornecimento de um produto de classe mundial, criando recursos altamente solicitados, em vez de gastar tempo em trabalho operacional.”

– Phoebe Zhou, engenheira de software do Canva.

Opere em grande escala com desempenho consistente

Um requisito fundamental de uma estratégia de streaming de dados é a ingestão e o processamento de grandes volumes de dados com baixa latência. O Kinesis Data Streams processa trilhões de registros por dia em dezenas de milhares de clientes. Os clientes executam mais de 3.5 milhões de streams exclusivos e processam mais de 45 PB de dados por dia. Nossos maiores clientes ingerem mais de 15 GB por segundo de dados em tempo real com fluxos individuais. Isso equivale a transmitir vários pontos de dados para cada pessoa na Terra, a cada segundo! Mesmo nessa escala, todos os nossos clientes ainda recuperam dados em milissegundos de disponibilidade.

Os clientes também desejam processar os mesmos dados com vários aplicativos, cada um obtendo um valor diferente, sem se preocupar com o impacto de um aplicativo no rendimento de leitura de outro. Fan-out aprimorado oferece taxa de transferência de leitura dedicada e baixa latência para cada consumidor de dados. Isso permitiu que as equipes da plataforma empresarial fornecessem dados em tempo real para mais equipes e aplicações.

VMware Black Carbon usa o Kinesis Data Streams para ingerir petabytes de dados todos os dias para proteger milhões de endpoints de clientes. A equipe se concentra em sua experiência enquanto a AWS gerencia o streaming de dados para atender ao crescente tráfego e às necessidades dos clientes em tempo real.

“Quando os dados de um cliente individual aumentam ou diminuem, podemos usar a elasticidade do Amazon Kinesis Data Streams para aumentar ou diminuir a computação para processar dados de maneira confiável e, ao mesmo tempo, gerenciar nossos custos de maneira eficaz. É por isso que o Kinesis Data Streams é uma boa opção. A maior vantagem é a natureza gerenciada da nossa solução na AWS. Isso moldou nossa arquitetura e nos ajudou a mudar a complexidade para outros lugares.”

– Stoyan Dimkov, engenheiro de equipe e arquiteto de software da VMware Carbon Black.

Saiba mais sobre o estudo de caso.

Fornece resiliência e durabilidade para streaming de dados

Com a expansão dos dados, os clientes desejam mais flexibilidade no processamento e reprocessamento de dados. Por exemplo, se um aplicativo que está consumindo dados ficar offline por um período, as equipes querem garantir que retomarão o processamento posteriormente, sem perda de dados. O Kinesis Data Streams fornece um período de retenção padrão de 24 horas, permitindo selecionar um carimbo de data/hora específico a partir do qual iniciar o processamento de registros. Com o retenção estendida recurso, você pode configurar o período de retenção de dados para até 7 dias.

Alguns setores, como serviços financeiros e saúde, têm requisitos de conformidade mais rígidos, por isso os clientes solicitaram períodos de retenção de dados ainda mais longos para atender a esses requisitos. Portanto, seguimos com armazenamento a longo prazo que suporta retenção de dados por até 1 ano. Agora, milhares de clientes do Kinesis Data Streams usam esses recursos para tornar seus aplicativos de streaming mais resilientes e duráveis.

Mercado Libre, plataforma líder de comércio eletrônico e pagamentos na América Latina, conta com o Kinesis Data Streams para potencializar sua estratégia de streaming de dados em torno do processamento de pagamentos, experiência do cliente e operações.

“Com o Amazon Kinesis Data Streams no centro, processamos aproximadamente 70 bilhões de mensagens diárias distribuídas por milhares de produtores de dados. Ao aproveitar o Kinesis Data Streams e o Amazon DynamoDB Streams, adotamos uma arquitetura orientada a eventos e somos capazes de responder rapidamente às alterações de dados.”

– Joaquin Fernandez, especialista sênior em software do Mercado Libre.

Acesse seus dados, não importa onde eles estejam

Nossos clientes usam uma ampla variedade de ferramentas e aplicativos, e os dados de uma organização geralmente residem em vários lugares. Portanto, a capacidade de integrar facilmente dados em uma organização é crucial para obter insights oportunos. Os desenvolvedores usam a Kinesis Producer Library, a Kinesis Client Library e o AWS SDK para criar rapidamente aplicativos personalizados de produção e consumo de dados. Os clientes expandiram seus produtores de dados, desde microsserviços até smart TVs e até carros. Nós temos mais de 40 integrações com serviços AWS e aplicativos de terceiros, como Adobe Experience Platform e Databricks. Conforme detalhado em nosso whitepaper ao construir uma arquitetura moderna de streaming de dados na AWS, o Kinesis Data Streams serve como base para casos de uso sem servidor e em tempo real, como personalização, insights em tempo real, Internet das Coisas (IoT) e arquitetura orientada a eventos. Nossa recente integração com Amazon RedShift permite ingerir centenas de megabytes de dados do Kinesis Data Streams em data warehouses em segundos. Para saber mais sobre como usar essa integração para detectar fraudes quase em tempo real, consulte Detecção de fraudes quase em tempo real usando Amazon Redshift Streaming Ingestion com Amazon Kinesis Data Streams e Amazon Redshift ML.

Outra integração lançada em 2023 é com Amazon Monitron para potencializar o gerenciamento de manutenção preditiva. Agora você pode transmitir dados de medição e os resultados de inferência correspondentes para o Kinesis Data Streams, coordenar a manutenção preditiva e criar um data lake de IoT. Para mais detalhes, consulte Gere insights acionáveis ​​para gerenciamento de manutenção preditiva com Amazon Monitron e Amazon Kinesis.

A seguir, vamos voltar ao caso de uso da NHL, onde eles combinam IoT, streaming de dados e aprendizado de máquina.

O NHL Edge IQ desenvolvido pela AWS está ajudando a aproximar os fãs da ação com análises avançadas e novas estatísticas de ML, como probabilidade de confronto e análise de oportunidades.

“Usamos o Amazon Kinesis Data Streams para processar dados NHL EDGE sobre posições de discos e jogadores, localização de confrontos e a situação atual do jogo para dissociar os produtores de dados dos aplicativos de consumo. O Amazon Managed Service for Apache Flink é usado para executar aplicativos Flink e consome dados do Kinesis Data Streams para chamar o modelo de previsão no Amazon SageMaker para fornecer a métrica de probabilidade de confronto em tempo real. Os resultados de probabilidade também são armazenados no Amazon S3 para treinar continuamente o modelo no SageMaker. O sucesso deste projeto nos levou a construir a próxima métrica, Análise de oportunidade, que oferece mais de 25 insights sobre a qualidade da oportunidade de gol apresentada por cada chute a gol. O Kinesis Data Streams e o Amazon Managed Service para aplicativos Apache Flink foram essenciais para fazer previsões ao vivo no jogo, permitindo que o sistema realizasse cálculos de análise de oportunidades para até 16 jogos da NHL ao vivo simultaneamente.”

– Eric Schneider, vice-presidente sênior de engenharia de software da National Hockey League.

Saiba mais sobre o estudo de caso.

O futuro dos dados é em tempo real

A fusão de streaming de dados em tempo real e IA generativa promete ser a pedra angular do nosso mundo digitalmente conectado. A IA generativa, capacitada por um fluxo constante de informações em tempo real de dispositivos IoT, sensores, mídias sociais e muito mais, está se tornando onipresente. Desde veículos autónomos que navegam em condições de trânsito em constante mudança até cidades inteligentes que otimizam o consumo de energia com base na procura em tempo real, a combinação de IA e dados em tempo real apoiará a eficiência e a inovação em todas as indústrias. Omnipresentes, adaptáveis ​​e profundamente integradas nas nossas vidas, estas aplicações baseadas em IA aumentarão a conveniência e enfrentarão desafios críticos, como as alterações climáticas, os cuidados de saúde e a resposta a catástrofes, utilizando a riqueza de informações em tempo real à sua disposição. Com o Kinesis Data Streams, as organizações podem construir uma base de dados sólida, posicionando você para adotar rapidamente novas tecnologias e desbloquear novas oportunidades mais cedo, que prevemos que serão enormes.

Saiba Mais sobre o que nossos clientes estão fazendo com o streaming de dados. Se desejar uma rápida exploração dos conceitos e casos de uso do Kinesis Data Streams, confira nosso Lista de reprodução do Amazon Kinesis Data Streams 101. Para começar a criar seus fluxos de dados, visite o Guia do desenvolvedor do Amazon Kinesis Data Streams.


Sobre o autor

Roy (KDS) Wang é gerente de produto sênior do Amazon Kinesis Data Streams. Ele é apaixonado por aprender e colaborar com os clientes para ajudar as organizações a funcionarem de maneira mais rápida e inteligente. Fora do trabalho, Roy se esforça para ser um bom pai para seu novo filho e constrói kits de modelos de plástico.

local_img

Inteligência mais recente

local_img