Zephyrnet-logo

Wat is er nieuw in Amazon Redshift – 2022, een jaaroverzicht

Datum:

In 2021 en 2020, hebben we je verteld over de nieuwe functies in Amazon roodverschuiving die het gemakkelijker, sneller en kosteneffectiever maken om al uw gegevens te analyseren en rijke en krachtige inzichten te vinden. In 2022 zijn we verheugd te kunnen melden dat het Amazon Redshift-team hard aan het werk was. We hebben teruggewerkt op basis van de eisen van de klant en meerdere nieuwe functies aangekondigd om het eenvoudiger, sneller en kosteneffectiever te maken om al uw gegevens te analyseren. Dit bericht behandelt enkele van deze nieuwe functies.

Bij AWS, voor data en analyse, is onze strategie om u een moderne data-architectuur dat u helpt los te komen van datasilo's; beschikken over speciaal gebouwde gegevens, analyses, machine learning (ML) en kunstmatige-intelligentiediensten om de juiste tool voor de juiste taak te gebruiken; en hebben open, beheerde, veilige en volledig beheerde services om analyses voor iedereen beschikbaar te maken. Binnen de moderne data-architectuur van AWS blijft Amazon Redshift als het datawarehouse in de cloud een belangrijk onderdeel, waardoor u complexe SQL-analyses op schaal en met prestaties kunt uitvoeren op terabytes tot petabytes aan gestructureerde en ongestructureerde data, en de inzichten breed beschikbaar kunt maken via populaire business intelligence ( BI) en analysetools. We blijven terugwerken op basis van de eisen van klanten en hebben in 2022 meer dan 40 functies in Amazon Redshift gelanceerd om klanten te helpen met hun belangrijkste use-cases voor datawarehousing, waaronder:

  • Selfservice-analyse
  • Eenvoudige gegevensopname
  • Gegevens delen en samenwerken
  • Datawetenschap en machine learning
  • Veilige en betrouwbare analyses
  • Beste analyse van prijsprestaties

Laten we dieper duiken en de nieuwe Amazon Redshift-functies op deze gebieden bespreken.

Selfservice-analyse

Klanten blijven ons vertellen dat gegevens en analyses alomtegenwoordig worden en dat iedereen in hun organisatie analyses nodig heeft. wij hebben aangekondigd Amazon Redshift Serverloos (in preview) in 2021 om het gemakkelijk te maken om analyses binnen enkele seconden uit te voeren en te schalen zonder dat er een datawarehouse-infrastructuur hoeft te worden ingericht en beheerd. In juli 2022 hebben we de algemene beschikbaarheid van Redshift Serverlessen sindsdien hebben duizenden klanten, waaronder Peloton, Broadridge Financials en NextGen Healthcare, het gebruikt om hun gegevens snel en eenvoudig te analyseren. Amazon Redshift Serverless levert automatisch datawarehouse-capaciteit en schaalt deze op intelligente wijze om hoge prestaties te leveren voor al uw analyses, en u betaalt alleen voor de rekenkracht die wordt gebruikt voor de duur van de workloads per seconde. Sinds GA hebben we functies toegevoegd zoals taggen van bronnen, vereenvoudigde monitoring en beschikbaarheid in extra AWS-regio's om de facturering verder te vereenvoudigen en het bereik over meer regio's wereldwijd uit te breiden.

In 2021 lanceerden we Amazon Redshift Query Editor V2, een gratis webgebaseerde tool voor data-analisten, datawetenschappers en ontwikkelaars om data in Amazon Redshift-datawarehouses en datalakes te verkennen, analyseren en eraan samen te werken. In 2022 kreeg Query Editor V2 extra verbeteringen zoals ondersteuning voor notebooks voor verbeterde samenwerking bij het schrijven, organiseren en annoteren van zoekopdrachten; gebruikerstoegang via inloggegevens van de identiteitsprovider (IdP). voor eenmalige aanmelding; en de mogelijkheid om meerdere query's tegelijkertijd uit te voeren om de productiviteit van ontwikkelaars te verbeteren.

Autonomics is een ander gebied waar we actief aan werken om op ML gebaseerde optimalisaties te gebruiken en klanten een zelflerend en zelfoptimaliserend datawarehouse te bieden. In 2022 kondigden we de algemene beschikbaarheid aan van Geautomatiseerde gematerialiseerde weergaven (AutoMVs) om de prestaties van query's te verbeteren (de totale runtime te verminderen) zonder enige inspanning van de gebruiker door automatisch gerealiseerde views te creëren en te onderhouden. AutoMV's, gecombineerd met automatisch vernieuwen, incrementeel vernieuwen en automatisch herschrijven van query's voor gematerialiseerde views, maakten gematerialiseerde views onderhoudsvrij, waardoor u automatisch snellere prestaties krijgt. tevens de automatische tafeloptimalisatie (ATO) mogelijkheid voor schema-optimalisatie en automatisch beheer van de werkbelasting (auto WLM) mogelijkheid voor werklastoptimalisatie kreeg verdere verbeteringen voor betere queryprestaties.

Eenvoudige gegevensopname

Klanten vertellen ons dat hun gegevens zijn verdeeld over meerdere gegevensbronnen, zoals transactiedatabases, datawarehouses, datameren en big data-systemen. Ze willen de flexibiliteit om deze data te integreren met no-code/low-code, zero-ETL datapijplijnen of om deze data ter plekke te analyseren zonder deze te verplaatsen. Klanten vertellen ons dat hun huidige datapijplijnen complex, handmatig, rigide en traag zijn, wat resulteert in onvolledige, inconsistente en verouderde weergaven van data, waardoor inzichten worden beperkt. Klanten hebben ons om een ​​betere manier gevraagd en we zijn verheugd een aantal nieuwe mogelijkheden aan te kondigen om datapijplijnen te vereenvoudigen en te automatiseren.

Amazon Aurora zero-ETL-integratie met Amazon Redshift (preview) stelt u in staat om bijna-realtime analyses en ML uit te voeren op petabytes aan transactiegegevens. Het biedt een oplossing zonder code voor het maken van transactiegegevens van meerdere Amazon Aurora databases beschikbaar in Amazon Redshift-datawarehouses binnen enkele seconden nadat ze naar Aurora zijn geschreven, waardoor het niet meer nodig is om complexe datapijplijnen te bouwen en te onderhouden. Met deze functie hebben Aurora-klanten ook toegang tot Amazon Redshift-mogelijkheden, zoals complexe SQL-analyses, ingebouwde ML, het delen van gegevens en gefedereerde toegang tot meerdere datastores en datalakes. Deze functie is nu beschikbaar als preview voor Amazon Aurora MySQL-compatibele editie versie 3 (met MySQL 8.0-compatibiliteit), en dat kan vraag toegang tot het voorbeeld.

Amazon Redshift ondersteunt nu automatisch kopiëren van Amazon S3 (preview) om het laden van gegevens te vereenvoudigen Amazon eenvoudige opslagservice (Amazon S3) in Amazon Redshift. U kunt nu regels voor continue bestandsopname (kopieertaken) instellen om uw Amazon S3-paden bij te houden en automatisch nieuwe bestanden te laden zonder dat u extra tools of aangepaste oplossingen nodig hebt. Kopieertaken kunnen worden gecontroleerd via systeemtabellen en ze houden automatisch eerder geladen bestanden bij en sluiten ze uit van het opnameproces om gegevensduplicatie te voorkomen. Deze functie is nu beschikbaar als voorbeeld; u kunt deze functie uitproberen door een nieuw cluster te maken met behulp van de voorbeeldtrack.

Klanten blijven ons vertellen dat ze onmiddellijke, actuele, real-time analyses nodig hebben, en we zijn verheugd de algemene beschikbaarheid van ondersteuning voor streaming-opname in Amazon Redshift voor Amazon Kinesis-gegevensstromen en Amazon Managed Streaming voor Apache Kafka (Amazone MSK). Deze functie elimineert de noodzaak om streaminggegevens in Amazon S3 te stagen voordat deze in Amazon Redshift worden opgenomen, waardoor u een lage latentie kunt bereiken, gemeten in seconden, terwijl u honderden megabytes aan streaminggegevens per seconde in uw datawarehouses opneemt. U kunt SQL binnen Amazon Redshift gebruiken om verbinding te maken met en direct gegevens op te nemen van meerdere Kinesis-gegevensstromen of MSK-onderwerpen, automatisch vernieuwende streaming gematerialiseerde weergaven te maken met transformaties bovenop streams om rechtstreeks toegang te krijgen tot streaminggegevens, en real-time gegevens te combineren met historische gegevens voor betere inzichten. Adobe heeft bijvoorbeeld Amazon Redshift-streaminginname geïntegreerd als onderdeel van hun Adobe Experience Platform voor het in realtime opnemen en analyseren van het web en de clickstream- en sessiegegevens van applicaties voor verschillende applicaties zoals CRM en klantenondersteuningsapplicaties.

Klanten hebben ons verteld dat ze eenvoudige, out-of-the-box integratie willen tussen Amazon Redshift, BI en ETL (extraheren, transformeren en laden) tools, en zakelijke applicaties zoals Salesforce en Marketo. We zijn verheugd de algemene beschikbaarheid van aan te kondigen Informatica Data Loader voor Amazon Redshift, waarmee u Informatica Data Loader kunt gebruiken voor het gratis laden van gegevens met hoge snelheid en grote volumes in Amazon Redshift. U kunt eenvoudig de optie Informatica Data Loader selecteren op de Amazon Redshift-console. Eenmaal in Informatica Data Loader kunt u verbinding maken met bronnen zoals Salesforce of Marketo, Amazon Redshift als doel kiezen en beginnen met het laden van uw gegevens.

Gegevens delen en samenwerken

Klanten blijven ons vertellen dat ze al hun eigen gegevens en gegevens van derden willen analyseren en de rijke gegevensgestuurde inzichten beschikbaar willen maken voor hun klanten, partners en leveranciers. In 2021 hebben we nieuwe functies gelanceerd, zoals Het delen van gegevens en AWS Data Exchange-integratie, om het u gemakkelijker te maken al uw gegevens te analyseren en deze binnen en buiten uw organisatie te delen.

Een mooi voorbeeld van een klant die gebruik maakt van het delen van data is Orion. Orion biedt real-time data-as-a-service (DaaS)-oplossingen voor klanten in de financiële dienstverlening, zoals aanbieders van vermogensbeheer, vermogensbeheer en vermogensbeheer. Ze hebben meer dan 2,500 gegevensbronnen die voornamelijk SQL Server-databases zijn, zowel op locatie als in AWS. Gegevens worden gestreamd met behulp van Kafka-connectoren naar Amazon Redshift. Ze hebben een producentencluster dat al deze gegevens ontvangt en vervolgens Data Sharing gebruikt om gegevens in realtime te delen voor samenwerking. Dit is een multi-tenant architectuur die meerdere klanten bedient. Gezien de gevoeligheid van hun gegevens, is het delen van gegevens een manier om werklastisolatie tussen clusters te bieden en die gegevens ook veilig te delen met eindgebruikers.

In 2022 bleven we op dit gebied investeren om de prestaties, het beheer en de productiviteit van ontwikkelaars te verbeteren met nieuwe functies om het gemakkelijker, eenvoudiger en sneller te maken om gegevens te delen en eraan samen te werken.

Aangezien klanten grootschalige configuraties voor het delen van gegevens bouwen, hebben ze gevraagd om vereenvoudigd beheer en beveiliging voor gedeelde gegevens, en we voegen hieraan toe gecentraliseerde toegangscontrole met AWS Lake Formation voor Amazon Redshift datashares om het delen van live data tussen meerdere Amazon Redshift datawarehouses mogelijk te maken. Met deze functie ondersteunt Amazon Redshift nu vereenvoudigd beheer van Amazon Redshift-datashares door gebruik te maken van AWS Lake-formatie als een enkele ruit om gegevens of machtigingen op datashares centraal te beheren. U kunt machtigingen bekijken, wijzigen en controleren, inclusief beveiliging op rij- en kolomniveau voor de tabellen en weergaven in de Amazon Redshift-datashares, met behulp van Lake Formation API's en de AWS-beheerconsoleen het mogelijk maken dat de Amazon Redshift-datashares worden ontdekt en gebruikt door andere Amazon Redshift-datawarehouses.

Datawetenschap en machine learning

Klanten blijven ons vertellen dat ze willen dat hun gegevens- en analysesystemen hen helpen een breed scala aan vragen te beantwoorden, van wat er in hun bedrijf gebeurt (beschrijvende analyse) tot waarom gebeurt het (diagnostische analyse) en wat er in de toekomst zal gebeuren (voorspellende analyse). Amazon Redshift biedt functies zoals complexe SQL-analyses, data lake-analyses en Amazon RedshiftML voor klanten om hun gegevens te analyseren en krachtige inzichten te ontdekken. Roodverschuiving ML integreert Amazon Redshift met Amazon Sage Maker, een volledig beheerde ML-service waarmee u ML-modellen kunt maken, trainen en implementeren met behulp van vertrouwde SQL-opdrachten.

Klanten hebben ons ook gevraagd om een ​​betere integratie tussen Amazon Redshift en Apache Spark, dus we zijn verheugd om aan te kondigen Amazon Redshift-integratie voor Apache Spark om datawarehouses gemakkelijk toegankelijk te maken voor op Spark gebaseerde applicaties. Nu kunnen ontwikkelaars die AWS-analyses en ML-services gebruiken, zoals Amazon EMR, AWS lijm, en SageMaker kan moeiteloos Apache Spark-applicaties bouwen die lezen van en schrijven naar hun Amazon Redshift-datawarehouses. Amazon EMR en AWS Glue bevatten de Redshift-Spark-connector, zodat u eenvoudig verbinding kunt maken met uw datawarehouse vanuit uw op Spark gebaseerde applicaties. U kunt verschillende pushdown-mogelijkheden gebruiken voor bewerkingen zoals sorteren, aggregeren, beperken, samenvoegen en scalaire functies, zodat alleen de relevante gegevens worden verplaatst van uw Amazon Redshift-datawarehouse naar de verbruikende Spark-toepassing. U kunt uw toepassingen ook veiliger maken door gebruik te maken van AWS Identiteits- en toegangsbeheer (IAM) inloggegevens om verbinding te maken met Amazon Redshift.

Veilige en betrouwbare analyses

Klanten blijven ons vertellen dat hun datawarehouses bedrijfskritische systemen zijn die hoge beschikbaarheid, betrouwbaarheid en beveiliging nodig hebben. Op dit gebied hebben we in 2022 een aantal nieuwe features gelanceerd.

Amazon Redshift ondersteunt nu Multi-AZ-implementaties (in preview) voor op RA3-instanties gebaseerde clusters, waarmee u uw datawarehouse in meerdere AWS-beschikbaarheidszones tegelijk kunt uitvoeren en continu kunt werken in onvoorziene beschikbaarheidszone-brede storingsscenario's. Multi-AZ-ondersteuning is al beschikbaar voor Redshift Serverless. Met een Amazon Redshift Multi-AZ-implementatie kunt u herstellen in geval van storingen in de beschikbaarheidszone zonder tussenkomst van de gebruiker. Een Amazon Redshift Multi-AZ datawarehouse is toegankelijk als een enkel datawarehouse met één eindpunt en helpt u de prestaties te maximaliseren door de verwerking van werklast automatisch over meerdere beschikbaarheidszones te verdelen. Er zijn geen applicatiewijzigingen nodig om de bedrijfscontinuïteit te behouden tijdens onvoorziene uitval.

In 2022 hebben we functies gelanceerd zoals op rollen gebaseerd toegangscontrole, beveiliging op rijniveau en gegevensmaskering (in preview) om het voor u gemakkelijker te maken om toegang te beheren en te beslissen wie toegang heeft tot welke gegevens, inclusief het verhullen van persoonlijk identificeerbare informatie (PII ) zoals creditcardnummers.

Je kunt gebruiken op rollen gebaseerde toegangscontrole (RBAC) om de toegang van eindgebruikers tot gegevens op een breed of gedetailleerd niveau te regelen op basis van de functie en machtigingen van een eindgebruiker. Met RBAC kunt u een rol maken met behulp van SQL, een verzameling gedetailleerde machtigingen toekennen aan de rol en die rol vervolgens toewijzen aan eindgebruikers. Aan rollen kunnen machtigingen op objectniveau, kolomniveau en systeemniveau worden verleend. Bovendien introduceert RBAC kant-en-klare systeemrollen voor DBA's, operators, beveiligingsbeheerders of aangepaste rollen.

Beveiliging op rijniveau (RLS) vereenvoudigt het ontwerp en de implementatie van fijnmazige toegang tot de rijen in tabellen. Met RLS kunt u de toegang tot een subset van rijen binnen een tabel beperken op basis van de taakrol van de gebruiker of machtigingen met SQL.

Amazon Redshift-ondersteuning voor dynamische gegevensmaskering (DDM), dat nu als preview beschikbaar is, stelt u in staat om de bescherming van PII, zoals burgerservicenummers, creditcardnummers en telefoonnummers, in uw Amazon Redshift-datawarehouse te vereenvoudigen. Met dynamische gegevensmaskering beheert u de toegang tot uw gegevens via eenvoudig op SQL gebaseerd maskeringsbeleid dat bepaalt hoe Amazon Redshift gevoelige gegevens naar de gebruiker retourneert tijdens het opvragen. U kunt maskeerbeleid maken om consistente, formaatbehoudende en onomkeerbare gemaskeerde gegevenswaarden te definiëren. U kunt een maskeerbeleid toepassen op een specifieke kolom of lijst met kolommen in een tabel. U hebt ook de flexibiliteit om te kiezen hoe u de gemaskeerde gegevens wilt weergeven. U kunt bijvoorbeeld de gegevens volledig verbergen, gedeeltelijke reële waarden vervangen door jokertekens of uw eigen manier definiëren om de gegevens te maskeren met behulp van SQL-expressies, Python of AWS Lambda door de gebruiker gedefinieerde functies. Daarnaast kunt u een voorwaardelijk maskeerbeleid toepassen op basis van andere kolommen, waarmee de kolomgegevens in een tabel selectief worden beschermd op basis van de waarden in een of meer verschillende kolommen.

We hebben ook verbeteringen aan aangekondigd controle loggen, native integratie met Microsoft Azure Active Directory, en ondersteuning voor standaard IAM-rollen in extra regio's om het beveiligingsbeheer verder te vereenvoudigen.

Beste analyse van prijsprestaties

Klanten blijven ons vertellen dat ze snelle en kosteneffectieve datawarehouses nodig hebben die op elke schaal hoge prestaties leveren en tegelijkertijd de kosten laag houden. Vanaf dag 1 sindsdien Lancering van Amazon Redshift in 2012, hebben we gekozen voor een datagestuurde benadering en fleet-telemetrie gebruikt om een ​​datawarehouse-service in de cloud te bouwen die u op elke schaal de beste prijs-prestatieverhouding biedt. Door de jaren heen zijn we geëvolueerd De architectuur van Amazon Redshift en lanceerde functies zoals Redshift beheerde opslag (RMS) voor scheiding van opslag en rekenkracht, Amazon Roodverschuivingsspectrum voor data lake-query's, automatische tafeloptimalisatie voor optimalisatie van fysieke schema's, automatisch beheer van de werkbelasting om werklasten te prioriteren en de juiste rekenkracht en geheugen toe te wijzen, cluster formaat wijzigen om rekenkracht en opslag verticaal te schalen, en gelijktijdigheid schaling om rekenkracht dynamisch uit of in te schalen. Onze prestatiebenchmarks het leiderschap op het gebied van prijs-prestatieverhouding van Amazon Redshift blijven demonstreren.

In 2022 hebben we nieuwe functies toegevoegd, zoals de algemene beschikbaarheid van gelijktijdigheidsschaling voor schrijfbewerkingen zoals COPY, INSERT, UPDATE en DELETE om vrijwel onbeperkte gelijktijdige gebruikers en queries te ondersteunen. We hebben ook prestatieverbeteringen geïntroduceerd voor op tekenreeksen gebaseerde gegevensverwerking door middel van gevectoriseerde scans over lichtgewicht, CPU-efficiënte, woordenboekgecodeerde tekenreekskolommen, waardoor de database-engine rechtstreeks over gecomprimeerde gegevens kan werken.

We hebben ook ondersteuning toegevoegd voor SQL-operators zoals MERGE (enkele operator voor invoegingen of updates); CONNECY_BY (voor hiërarchische vragen); GROUPING SETS, ROLLUP en CUBE (voor multidimensionale rapportage); en de grootte van het SUPER-gegevenstype vergroot tot 16 MB om het voor u gemakkelijker te maken om te migreren van verouderde datawarehouses naar Amazon Redshift.

Conclusie

Onze klanten blijven ons vertellen dat gegevens en analyses een topprioriteit voor hen blijven en dat de noodzaak om op kosteneffectieve wijze meer zakelijke waarde uit hun gegevens te halen in deze tijden groter is dan ooit tevoren. Met Amazon Redshift als je datawarehouse in de cloud kun je complexe SQL-analyses uitvoeren met schaal en prestaties op terabytes tot petabytes aan gestructureerde en ongestructureerde data en de inzichten breed beschikbaar maken via populaire BI- en analysetools.

Hoewel we in 40 meer dan 2022 functies hebben gelanceerd en het tempo van innovatie blijft versnellen, blijft het dag 1 en we horen graag van u hoe deze functies u helpen meer waarde voor uw organisaties te ontsluiten. We nodigen u uit om deze nieuwe functies uit te proberen en contact met ons op te nemen via uw AWS-accountteam als u verdere opmerkingen heeft.


Over de auteur

Manan Doel is een Product Go-To-Market Leader voor AWS Analytics Services, waaronder Amazon Redshift bij AWS. Hij heeft meer dan 25 jaar ervaring en is goed thuis in databases, data warehousing, business intelligence en analytics. Manan heeft een MBA van Duke University en een BS in Electronics & Communications engineering.

spot_img

Laatste intelligentie

spot_img