Logo Zephyrnet

Łącz dane transakcyjne, strumieniowe i dane pochodzące od stron trzecich w serwisie Amazon Redshift dla usług finansowych | Usługi internetowe Amazona

Data:

Klienci usług finansowych korzystają z danych z różnych źródeł, które pochodzą z różną częstotliwością, co obejmuje zbiory danych czasu rzeczywistego, zbiorcze i archiwalne. Ponadto potrzebują architektur przesyłania strumieniowego, aby sprostać rosnącym wolumenom handlu, zmienności rynku i wymaganiom regulacyjnym. Poniżej przedstawiono niektóre z kluczowych przypadków użycia biznesowego, które podkreślają tę potrzebę:

  • Raportowanie handlowe – Od czasu światowego kryzysu finansowego w latach 2007–2008 organy regulacyjne zwiększyły swoje wymagania i kontrolę w zakresie sprawozdawczości regulacyjnej. Organy regulacyjne położyły większy nacisk zarówno na ochronę konsumenta poprzez zgłaszanie transakcji (zwykle T+1, co oznacza 1 dzień roboczy po dacie transakcji), jak i zwiększanie przejrzystości rynków poprzez wymogi dotyczące raportowania transakcji w czasie zbliżonym do rzeczywistego.
  • Zarządzanie ryzykiem – W miarę jak rynki kapitałowe stają się coraz bardziej złożone, a organy regulacyjne wprowadzają nowe ramy ryzyka, takie jak Podstawowy przegląd księgi handlowej (FRTB) i Bazylea III, instytucje finansowe chcą zwiększyć częstotliwość obliczeń ogólnego ryzyka rynkowego, ryzyka płynności, ryzyka kontrahenta i innych pomiarów ryzyka, a także chcą maksymalnie zbliżyć się do obliczeń w czasie rzeczywistym.
  • Jakość handlu i optymalizacja – Aby monitorować i optymalizować jakość transakcji, należy stale oceniać cechy rynku, takie jak wolumen, kierunek, głębokość rynku, współczynnik wypełnienia i inne punkty odniesienia związane z realizacją transakcji. Jakość handlu nie jest związana tylko z wynikami brokera, ale jest także wymogiem organów regulacyjnych, począwszy od MiFID II.

Wyzwanie polega na znalezieniu rozwiązania, które poradzi sobie z tak odmiennymi źródłami, różnymi częstotliwościami i wymaganiami dotyczącymi zużycia energii o małych opóźnieniach. Rozwiązanie powinno być skalowalne, opłacalne oraz proste w zastosowaniu i obsłudze. Amazonka Przesunięcie ku czerwieni funkcje takie jak przetwarzanie strumieniowe, Amazonka Aurora integracja z zerowym ETLi udostępnianie danych Wymiana danych AWS umożliwiają przetwarzanie w czasie zbliżonym do rzeczywistego na potrzeby raportowania transakcji, zarządzania ryzykiem i optymalizacji handlu.

W tym poście przedstawiamy architekturę rozwiązania opisującą, w jaki sposób można przetwarzać dane z trzech różnych typów źródeł — danych strumieniowych, transakcyjnych i danych referencyjnych stron trzecich — i agregować je w usłudze Amazon Redshift na potrzeby raportowania analizy biznesowej (BI).

Omówienie rozwiązania

Ta architektura rozwiązania została stworzona z myślą o podejściu z małą ilością kodu/bez kodu, zgodnie z następującymi zasadami przewodnimi:

  • Łatwość użycia – Wdrożenie i obsługa powinny być mniej skomplikowane dzięki intuicyjnym interfejsom użytkownika
  • Skalowalne – Powinieneś móc płynnie zwiększać i zmniejszać pojemność na żądanie
  • Integracja natywna – Komponenty powinny integrować się bez dodatkowych złączy i oprogramowania
  • Opłacalne – Powinien zapewniać zrównoważony stosunek ceny do wydajności
  • Niskie koszty utrzymania – Powinno wymagać mniejszych nakładów na zarządzanie i koszty operacyjne

Poniższy diagram ilustruje architekturę rozwiązania oraz sposób zastosowania tych zasad przewodnich do składników pozyskiwania, agregacji i raportowania.

Wdróż rozwiązanie

Możesz użyć następujących Tworzenie chmury AWS szablon do wdrożenia rozwiązania.

Uruchom stos Cloudformation

Stos ten tworzy następujące zasoby i niezbędne uprawnienia do integracji usług:

Przyjmowanie pokarmu

Aby pozyskać dane, używasz Przetwarzanie strumieniowe Amazon Redshift aby załadować dane strumieniowe ze strumienia danych Kinesis. W przypadku danych transakcyjnych używasz Integracja z zerowym ETL z przesunięciem ku czerwieni z Amazon Aurora MySQL. Korzystasz z danych referencyjnych stron trzecich Udziały danych AWS Data Exchange. Funkcje te umożliwiają szybkie budowanie skalowalnych potoków danych, ponieważ można zwiększyć pojemność fragmentów strumieni danych Kinesis, wykonywać obliczenia dla źródeł i obiektów docelowych o zerowej wartości ETL oraz obliczenia z przesunięciem ku czerwieni dla udziałów danych w przypadku ich wzrostu. Pozyskiwanie strumieniowe Redshift i integracja z zerowym ETL to rozwiązania wymagające niewielkiej ilości kodu/bez kodu, które można zbudować za pomocą prostych SQL bez inwestowania znacznej ilości czasu i pieniędzy w tworzenie złożonego, niestandardowego kodu.

W zakresie danych wykorzystanych do stworzenia tego rozwiązania nawiązaliśmy współpracę FactSet, wiodący dostawca danych finansowych, analiz i otwartych technologii. FactSet ma kilka zbiory danych dostępne na rynku AWS Data Exchange, z którego korzystaliśmy jako dane referencyjne. Korzystaliśmy także z zestawu faktów rozwiązania w zakresie danych rynkowych dla historycznych i strumieniowych notowań i transakcji rynkowych.

Przetwarzanie

Dane są przetwarzane w Amazon Redshift zgodnie z metodologią wyodrębniania, ładowania i przekształcania (ELT). Dzięki praktycznie nieograniczonej skali i izolacji obciążenia, ELT jest bardziej odpowiedni dla rozwiązań hurtowni danych w chmurze.

Korzystasz z pozyskiwania strumieniowego Redshift do przyjmowania w czasie rzeczywistym kwotowań przesyłanych strumieniowo (oferta/ask) ze strumienia danych Kinesis bezpośrednio do zmaterializowanego widoku przesyłanego strumieniowo, a następnie przetwarzasz dane w następnym kroku, używając PartiQL do analizowania danych wejściowych strumienia danych. Należy pamiętać, że strumieniowe widoki zmaterializowane różnią się od zwykłych widoków zmaterializowanych sposobem działania automatycznego odświeżania i używanymi poleceniami SQL do zarządzania danymi. Odnosić się do Uwagi dotyczące przetwarzania strumieniowego dla szczegółów.

Integracji Aurora o zerowym ETL używasz do pozyskiwania danych transakcyjnych (transakcji) ze źródeł OLTP. Odnosić się do Praca z integracjami o zerowym ETL dla aktualnie obsługiwanych źródeł. Możesz łączyć dane ze wszystkich tych źródeł za pomocą widoków i używać procedur przechowywanych do wdrażania reguł transformacji biznesowej, takich jak obliczanie średnich ważonych między sektorami i giełdami.

Historyczne ilości danych dotyczących transakcji i kwotowań są ogromne i często nie są często sprawdzane. Możesz użyć Widmo przesunięcia ku czerwieni Amazonki aby uzyskać dostęp do tych danych na miejscu bez ładowania ich do Amazon Redshift. Tworzysz zewnętrzne tabele wskazujące dane w Usługa Amazon Simple Storage (Amazon S3) i wysyłaj zapytania w podobny sposób, jak wysyłasz zapytania do dowolnej innej tabeli lokalnej w Amazon Redshift. Wiele hurtowni danych Redshift może jednocześnie odpytywać te same zbiory danych w Amazon S3 bez konieczności tworzenia kopii danych dla każdej hurtowni danych. Ta funkcja upraszcza dostęp do danych zewnętrznych bez konieczności pisania skomplikowanych procesów ETL i zwiększa łatwość użycia całego rozwiązania.

Przyjrzyjmy się kilku przykładowym zapytaniom używanym do analizy notowań i transakcji. W przykładowych zapytaniach korzystamy z następujących tabel:

  • dt_hist_quote – Dane historyczne dotyczące notowań zawierające cenę i wolumen sprzedaży, cenę i wolumen sprzedaży oraz giełdy i sektory. Powinieneś używać w swojej organizacji odpowiednich zbiorów danych, które zawierają te atrybuty danych.
  • dt_hist_trades – Historyczne dane dotyczące transakcji zawierające cenę, wolumen, sektor i szczegóły giełdy. Powinieneś używać w swojej organizacji odpowiednich zbiorów danych, które zawierają te atrybuty danych.
  • mapa_sektora_faktów – Mapowanie pomiędzy sektorami i giełdami. Można to uzyskać od Zestaw danych FactSet Podstawy Zbiór danych ADX.

Przykładowe zapytanie do analizy notowań historycznych

Aby znaleźć średnie ważone spready dla notowań, możesz użyć następującego zapytania:

select
date_dt :: date,
case
when exchange_name like 'Cboe%' then 'CBOE'
when (exchange_name) like 'NYSE%' then 'NYSE'
when (exchange_name) like 'New York Stock Exchange' then 'NYSE'
when (exchange_name) like 'Nasdaq%' then 'NASDAQ'
end as parent_exchange_name,
sector_name,
sum(spread * weight)/sum(weight) :: decimal (30,5) as weighted_average_spread
from
(
select date_dt,exchange_name,
factset_sector_desc sector_name,
((bid_price*bid_volume) + (ask_price*ask_volume))as weight,
((ask_price - bid_price)/ask_price) as spread
from
dt_hist_quotes a
join
fds_adx_fundamentals_db.ref_v2.factset_sector_map b
on(a.sector_code = b.factset_sector_code)
where ask_price <> 0 and bid_price <> 0
)
group by 1,2,3

Przykładowe zapytanie do analizy transakcji historycznych

Aby znaleźć, możesz użyć następującego zapytania $-volume dotyczące transakcji według szczegółowych giełd, sektorów i głównych giełd (NYSE i Nasdaq):

select
cast(date_dt as date) as date_dt,
case
when exchange_name like 'Cboe%' then 'CBOE'
when (exchange_name) like 'NYSE%' then 'NYSE'
when (exchange_name) like 'New York Stock Exchange' then 'NYSE'
when (exchange_name) like 'Nasdaq%' then 'NASDAQ'
end as parent_exchange_name,
factset_sector_desc sector_name,
sum((price * volume):: decimal(30,4)) total_transaction_amt
from
dt_hist_trades a
join
fds_adx_fundamentals_db.ref_v2.factset_sector_map b
on(a.sector_code = b.factset_sector_code)
group by 1,2,3

Raportowanie

Możesz użyć Amazon QuickSight i Grafana zarządzana przez Amazon odpowiednio do BI i raportowania w czasie rzeczywistym. Usługi te natywnie integrują się z Amazon Redshift bez konieczności stosowania dodatkowych złączy lub oprogramowania pomiędzy nimi.

Możesz uruchomić bezpośrednie zapytanie z QuickSight na potrzeby raportowania i pulpitów nawigacyjnych BI. Dzięki QuickSight możesz także lokalnie przechowywać dane w pamięci podręcznej SPICE z funkcją automatycznego odświeżania w celu zapewnienia małych opóźnień. Odnosić się do Autoryzacja połączeń z Amazon QuickSight do klastrów Amazon Redshift aby uzyskać szczegółowe informacje na temat integracji QuickSight z Amazon Redshift.

Możesz używać Amazon Managed Grafana do tworzenia pulpitów handlowych działających niemal w czasie rzeczywistym, które są odświeżane co kilka sekund. Pulpity nawigacyjne w czasie rzeczywistym służące do monitorowania opóźnień w przetwarzaniu transakcji są tworzone przy użyciu Grafany, a dane pochodzą z widoków systemowych w Amazon Redshift. Odnosić się do Korzystanie ze źródła danych Amazon Redshift aby dowiedzieć się, jak skonfigurować Amazon Redshift jako źródło danych dla Grafany.

Użytkownicy, którzy wchodzą w interakcję z regulacyjnymi systemami raportowania, to analitycy, menedżerowie ryzyka, operatorzy i inne osoby wspierające operacje biznesowe i technologiczne. Oprócz generowania raportów regulacyjnych zespoły te wymagają wglądu w stan systemów raportowania.

Analiza cytatów historycznych

W tej sekcji przyjrzymy się kilku przykładom analizy cytatów historycznych z Amazon QuickSight deska rozdzielcza.

Średni ważony spread według sektorów

Poniższy wykres przedstawia dzienną agregację według sektorów średnich ważonych spreadów kupna-sprzedaży wszystkich poszczególnych transakcji na giełdach NASDAQ i NYSE za okres 3 miesięcy. Aby obliczyć średni dzienny spread, każdy spread jest ważony sumą kwoty oferty i wolumenu sprzedaży w dolarach. Zapytanie generujące ten wykres przetwarza łącznie 103 miliardy punktów danych, łączy każdą transakcję z tabelą referencyjną sektora i działa w czasie krótszym niż 10 sekund.

Średni ważony spread według giełd

Poniższy wykres przedstawia dzienną agregację średnich ważonych spreadów kupna-sprzedaży dla wszystkich poszczególnych transakcji na giełdach NASDAQ i NYSE za okres 3 miesięcy. Metodologia obliczeń i metryki wydajności zapytań są podobne do tych z poprzedniego wykresu.

Analiza transakcji historycznych

W tej sekcji przyjrzymy się kilku przykładom analizy transakcji historycznych z okresu Amazon QuickSight deska rozdzielcza.

Wolumen handlu według sektorów

Poniższy wykres przedstawia dzienną agregację według sektora wszystkich poszczególnych transakcji na NASDAQ i NYSE za okres 3 miesięcy. Zapytanie generujące ten wykres przetwarza w sumie 3.6 miliarda transakcji, łączy każdą transakcję z tabelą referencyjną sektora i działa w czasie krótszym niż 5 sekund.

Wolumen handlu na głównych giełdach

Poniższy wykres przedstawia dzienną agregację wszystkich poszczególnych transakcji według grup giełdowych w ciągu 3 miesięcy. Zapytanie generujące ten wykres ma podobne metryki wydajności jak poprzedni wykres.

Pulpity nawigacyjne w czasie rzeczywistym

Monitorowanie i obserwowalność to ważny wymóg w przypadku każdej krytycznej aplikacji biznesowej, takiej jak raportowanie transakcji, zarządzanie ryzykiem i systemy zarządzania transakcjami. Oprócz wskaźników na poziomie systemu ważne jest również monitorowanie kluczowych wskaźników wydajności w czasie rzeczywistym, aby operatorzy mogli otrzymywać powiadomienia i jak najszybciej reagować na zdarzenia mające wpływ na działalność biznesową. Na potrzeby tej demonstracji stworzyliśmy w Grafanie pulpity nawigacyjne, które monitorują opóźnienia danych dotyczących kwotowań i transakcji odpowiednio ze strumienia danych Kinesis i Aurora.

Panel opóźnienia przetwarzania ofert pokazuje, ile czasu potrzeba, aby każdy rekord oferty został pobrany ze strumienia danych i udostępniony do wysyłania zapytań w Amazon Redshift.

Panel opóźnienia przetwarzania transakcji pokazuje, ile czasu potrzeba, aby transakcja w Aurorze stała się dostępna w Amazon Redshift do wysyłania zapytań.

Sprzątać

Aby wyczyścić zasoby, usuń stos wdrożony za pomocą AWS CloudFormation. Aby uzyskać instrukcje, zobacz Usuwanie stosu w konsoli AWS CloudFormation.

Wnioski

Rosnące wolumeny działalności handlowej, bardziej złożone zarządzanie ryzykiem i zaostrzone wymogi regulacyjne skłaniają firmy z rynków kapitałowych do przetwarzania danych w czasie rzeczywistym i prawie w czasie rzeczywistym, nawet na platformach typu mid-office i back-office, gdzie przetwarzanie odbywa się na koniec dnia i w ciągu nocy. był standardem. W tym poście pokazaliśmy, jak możesz wykorzystać możliwości Amazon Redshift, aby zapewnić łatwość obsługi, niskie koszty utrzymania i efektywność kosztową. Omówiliśmy także integrację międzyusługową w celu pozyskiwania strumieniowych danych rynkowych, przetwarzania aktualizacji z baz danych OLTP i korzystania z danych referencyjnych stron trzecich bez konieczności wykonywania złożonego i kosztownego przetwarzania ETL lub ELT przed udostępnieniem danych do analizy i raportowania.

Jeśli potrzebujesz wskazówek dotyczących wdrożenia tego rozwiązania, skontaktuj się z nami. Odnosić się do Analizy w czasie rzeczywistym dzięki przetwarzaniu strumieniowemu Amazon Redshift, Przewodnik wprowadzający dotyczący analiz operacyjnych w czasie niemal rzeczywistym przy użyciu integracji Amazon Aurora z zerowym ETL z Amazon Redshift, Praca z udziałami danych AWS Data Exchange jako producent po więcej informacji.


O autorach

Satesh Sonti jest starszym architektem rozwiązań analitycznych z siedzibą w Atlancie, specjalizującym się w budowaniu platform danych korporacyjnych, hurtowni danych i rozwiązań analitycznych. Ma ponad 18-letnie doświadczenie w budowaniu aktywów danych i prowadzeniu złożonych programów platform danych dla klientów bankowych i ubezpieczeniowych na całym świecie.

Alket Memushaj pracuje jako główny architekt w zespole rozwoju rynku usług finansowych w AWS. Alket jest odpowiedzialny za strategię techniczną dla rynków kapitałowych, współpracując z partnerami i klientami w celu wdrażania aplikacji w całym cyklu życia transakcji w chmurze AWS, w tym za łączność rynkową, systemy transakcyjne oraz platformy analityczne i badawcze przed i potransakcyjne.

Rubena Falka jest specjalistą ds. rynków kapitałowych zajmującym się sztuczną inteligencją oraz danymi i analityką. Ruben konsultuje z uczestnikami rynków kapitałowych nowoczesną architekturę danych i systematyczne procesy inwestycyjne. Dołączył do AWS z S&P Global Market Intelligence, gdzie był globalnym dyrektorem ds. rozwiązań do zarządzania inwestycjami.

Jeffa Wilsona to ogólnoświatowy specjalista ds. wejścia na rynek z 15-letnim doświadczeniem w pracy z platformami analitycznymi. Obecnie skupia się na dzieleniu się korzyściami płynącymi z korzystania z Amazon Redshift, natywnej hurtowni danych w chmurze firmy Amazon. Jeff mieszka na Florydzie i pracuje w AWS od 2019 roku.

spot_img

Najnowsza inteligencja

spot_img