ゼファーネットのロゴ

モビリティデータを使用して、Amazon SageMaker 地理空間機能を使用して洞察を導き出す |アマゾン ウェブ サービス

日付:

地理空間データは、地表上の特定の場所に関するデータです。地理的領域全体を表すことも、地理的領域に関連するイベントを表すこともできます。地理空間データの分析は、いくつかの業界で求められています。これには、空間的な観点からデータがどこに存在するのか、そしてなぜそこにデータが存在するのかを理解することが含まれます。

地理空間データには、ベクター データとラスター データの 2 種類があります。ラスター データはグリッドとして表されるセルのマトリックスであり、主に写真や衛星画像を表します。この投稿では、緯度と経度の地理座標、およびそれらを接続または取り囲む線やポリゴン (領域) として表されるベクトル データに焦点を当てます。ベクトル データには、モビリティに関する洞察を得る上で多数のユースケースがあります。ユーザーのモバイル データはそのコンポーネントの 1 つであり、主に GPS を使用するモバイル デバイスの地理的位置、または SDK または同様の統合を使用するアプリ発行元から得られます。この投稿では、このデータを次のように呼びます。 モビリティデータ.

これは 2 部構成のシリーズです。この最初の投稿では、モビリティ データ、そのソース、およびこのデータの典型的なスキーマを紹介します。次に、さまざまなユースケースについて説明し、AWS のサービスを使用してデータをクリーンアップする方法、機械学習 (ML) がこの取り組みにどのように役立つか、ビジュアルや洞察を生成する際にデータを倫理的に使用する方法を検討します。 2 番目の投稿では本質的により技術的な内容になり、サンプル コードとともにこれらの手順を詳しく説明します。この投稿にはサンプル データセットやサンプル コードはありません。むしろ、データ アグリゲーターからデータを購入した後のデータの使用方法について説明します。

あなたが使用することができます Amazon SageMaker の地理空間機能 モビリティ データをベース マップにオーバーレイし、階層化された視覚化を提供してコラボレーションを容易にします。 GPU を利用したインタラクティブなビジュアライザーと Python ノートブックは、単一ウィンドウで数百万のデータ ポイントを探索し、洞察と結果を共有するシームレスな方法を提供します。

ソースとスキーマ

モビリティ データのソースはほとんどありません。 GPS ping やアプリ発行者とは別に、Wi-Fi アクセス ポイント、モバイル デバイスでの広告配信を通じて取得された入札ストリーム データ、企業が設置した特定のハードウェア トランスミッター (実店舗など) など、他のソースがデータセットの強化に使用されます。 )。多くの場合、企業がこのデータを自社で収集することは難しいため、データ アグリゲーターから購入する場合があります。データ アグリゲーターは、さまざまなソースからモビリティ データを収集し、クリーンアップしてノイズを追加し、特定の地理的地域でデータを毎日利用できるようにします。データ自体の性質と入手が難しいため、このデータの精度と品質は大幅に異なる可能性があり、毎日のアクティブ ユーザー、毎日の合計 ping、デバイスごとの 1 日の平均 ping 数。次の表は、データ アグリゲーターによって送信される毎日のデータ フィードの一般的なスキーマがどのようなものかを示しています。

属性 説明
ID または MAID デバイスのモバイル広告 ID (MAID) (ハッシュ化)
ラット デバイスの緯度
LNG デバイスの経度
ジオハッシュ デバイスのジオハッシュ位置
デバイスタイプ デバイスのオペレーティング システム = IDFA または GAID
水平精度 GPS 水平座標の精度 (メートル単位)
タイムスタンプ イベントのタイムスタンプ
ip IPアドレス
ALT デバイスの高度 (メートル単位)
スピード デバイスの速度 (メートル/秒)
原産国を表す ISO 2 桁コード
状態 状態を表すコード
シティ 都市を表すコード
郵便番号 デバイスIDが表示される場所の郵便番号
キャリア デバイスのキャリア
デバイスの製造元 デバイスのメーカー

ユースケース

モビリティ データは、さまざまな業界で広く応用されています。最も一般的な使用例の一部を次に示します。

  • 密度メトリクス – 歩行者交通分析を人口密度と組み合わせて、アクティビティや名所 (POI) への訪問を観察できます。これらのメトリクスは、どれだけのデバイスまたはユーザーが積極的に停止してビジネスに関与しているかを示します。これは、サイトの選択や、イベント周辺の移動パターン (たとえば、試合の日のために移動する人々) の分析にさらに使用できます。このような洞察を得るために、受信した生データは抽出、変換、ロード (ETL) プロセスを経て、デバイスの位置 ping の継続的なストリームからアクティビティやエンゲージメントを特定します。 ML モデルを使用して ping をクラスタリングすることで、ユーザーまたはモバイル デバイスによる停止を特定することでアクティビティを分析できます。 アマゾンセージメーカー.
  • 旅と軌跡 – デバイスの毎日の位置情報フィードは、アクティビティ (停止) と旅行 (移動) の集合として表現できます。アクティビティのペアはそれらの間の移動を表すことができ、地理空間内で移動デバイスによって移動を追跡することにより、実際の軌跡をマッピングすることができます。ユーザーの移動の軌跡パターンは、交通パターン、燃料消費量、都市計画などの興味深い洞察につながる可能性があります。また、看板などの広告ポイントからのルートを分析したり、サプライチェーンの運用を最適化するために最も効率的な配送ルートを特定したり、自然災害時の避難ルート (ハリケーンからの避難など) を分析したりするためのデータも提供できます。
  • 集水域分析 - 管轄地域 特定のエリアに訪問者(顧客または潜在顧客)が集まる場所を指します。小売企業はこの情報を使用して、新しい店舗をオープンする最適な場所を決定したり、2 つの店舗の場所が互いに近すぎて集水域が重なり合って互いのビジネスを妨げていないかどうかを判断したりできます。また、実際の顧客がどこから来たのかを調べたり、職場や自宅に向かう途中でその地域を通過する潜在的な顧客を特定したり、競合他社の同様の訪問指標を分析したりすることもできます。マーケティング テクノロジー (MarTech) および広告テクノロジー (AdTech) 企業は、この分析を使用して、ブランドの店舗に近い視聴者を特定することでマーケティング キャンペーンを最適化したり、屋外広告のパフォーマンスに基づいて店舗をランク付けしたりすることもできます。

他にも、商業用不動産の位置情報インテリジェンスの生成、歩行者数による衛星画像データの増強、レストランの配達拠点の特定、近隣の避難可能性の判断、パンデミック時の人々の移動パターンの発見など、いくつかのユースケースがあります。

課題と倫理的使用

モビリティ データを倫理的に使用すると、組織が業務を改善したり、効果的なマーケティングを実行したり、競争上の優位性を獲得したりするのに役立つ多くの興味深い洞察が得られます。このデータを倫理的に利用するには、いくつかの手順に従う必要があります。

それはデータ自体の収集から始まります。ほとんどのモビリティ データには名前や住所などの個人を特定できる情報 (PII) が含まれていませんが、データ収集者とアグリゲーターはデータを収集、使用、保存、共有するためにユーザーの同意を得る必要があります。 GDPR や CCPA などのデータ プライバシー法は、ユーザーが企業によるデータの使用方法を決定する権限を与えられているため、遵守する必要があります。この最初のステップは、モビリティ データの倫理的かつ責任ある使用に向けた実質的な動きですが、できることはさらにあります。

各デバイスにはハッシュ化されたモバイル広告 ID (MAID) が割り当てられ、これは個々の ping を固定するために使用されます。これは、次を使用してさらに難読化できます。 アマゾンメイシー, Amazon S3 オブジェクト ラムダ, Amazon Comprehend、または AWS グルースタジオ PII 変換を検出します。詳細については、以下を参照してください。 AWS のサービスを使用して PHI および PII データを検出する一般的な手法.

PII とは別に、ユーザーの自宅の場所や、軍事基地や礼拝所などのその他の機密性の高い場所をマスクすることを考慮する必要があります。

倫理的使用の最後のステップは、集約されたメトリクスのみを Amazon SageMaker から導出してエクスポートすることです。これは、個々の旅行パターンではなく、平均訪問者数や総訪問者数などの指標を取得することを意味します。毎日、毎週、毎月、または年間の傾向を取得します。または、国勢調査データなどの公的に入手可能なデータに基づいてモビリティ パターンのインデックスを作成します。

ソリューションの概要

前述したように、モビリティ データの分析に使用できる AWS のサービスは、Amazon S3、Amazon Macie、AWS Glue、S3 Object Lambda、Amazon Comprehend、Amazon SageMaker 地理空間機能です。 Amazon SageMaker 地理空間機能により、データサイエンティストや ML エンジニアは地理空間データを使用してモデルを構築、トレーニング、デプロイすることが簡単になります。大規模な地理空間データセットを効率的に変換または強化し、事前トレーニングされた ML モデルを使用してモデル構築を加速し、3D アクセラレーション グラフィックスと組み込みの視覚化ツールを使用して対話型マップ上でモデル予測と地理空間データを探索できます。

次のリファレンス アーキテクチャは、地理空間データで ML を使用するワークフローを示しています。

アーキテクチャ図

このワークフローでは、生データがさまざまなデータ ソースから集約され、 Amazon シンプル ストレージ サービス (S3) バケット。 Amazon Macie は、PII を識別し、編集するためにこの S3 バケットで使用されます。次に、AWS Glue を使用して生データをクリーンアップして必要な形式に変換し、変更およびクリーンアップされたデータが別の S3 バケットに保存されます。 AWS Glue では不可能なデータ変換には、次を使用します。 AWSラムダ 生データを変更してクリーンアップします。データがクリーンアップされると、Amazon SageMaker を使用して、準備された地理空間データ上で ML モデルを構築、トレーニング、デプロイできます。を使用することもできます。 地理空間処理ジョブ データを前処理するための Amazon SageMaker 地理空間機能の機能。たとえば、Python 関数と SQL ステートメントを使用して生のモビリティ データからアクティビティを識別します。データサイエンティストは、Amazon SageMaker ノートブックを介して接続することでこのプロセスを実行できます。も使用できます アマゾンクイックサイト データからビジネスの成果やその他の重要な指標を視覚化します。

Amazon SageMaker 地理空間機能と地理空間処理ジョブ

データが取得され、毎日のフィードで Amazon S3 に供給され、機密データが除去された後、 Amazon SageMakerスタジオ 地理空間画像を含むノートブック。次のスクリーンショットは、CSV ファイルとして Amazon S3 にアップロードされ、pandas データ フレームにロードされた毎日のデバイス ping のサンプルを示しています。地理空間画像を含む Amazon SageMaker Studio ノートブックには、GDAL、GeoPandas、Fiona、Shapely などの地理空間ライブラリがプリロードされており、このデータの処理と分析が簡単になります。

このサンプル データセットには、400,000 年 5,000 月 14,000 日にアリゾナ州フェニックスの人気ショッピング モール複合施設、アローヘッド モールを訪れたユーザーから記録された、15 の固有の場所、2023 台のデバイスからの毎日の約 XNUMX 件のデバイス ping が含まれています。前のスクリーンショットは、データスキーマ。の MAID 列はデバイス ID を表し、各 MAID はデバイスの緯度と経度を中継する ping を毎分生成します。これはサンプル ファイルに次のように記録されます。 Lat & Lng 列。

以下は、Foursquare Studio を利用した Amazon SageMaker 地理空間機能の地図視覚化ツールのスクリーンショットで、午前 7 時から午後 00 時までにモールを訪れたデバイスからの ping のレイアウトを示しています。

次のスクリーンショットは、モールとその周辺エリアからの ping を示しています。

以下は、モール内のさまざまな店舗内からの ping を示しています。

スクリーンショットの各ドットは、特定の時点での特定のデバイスからの ping を表しています。 ping のクラスターは、店舗やレストランなど、デバイスが集まったり停止した人気のスポットを表します。

初期 ETL の一部として、この生データは AWS Glue を使用してテーブルにロードできます。 AWS Glue クローラーを作成して、データのスキーマを識別し、Amazon S3 内の生データの場所をデータソースとして指定することでテーブルを作成できます。

前述したように、生データ (毎日のデバイス ping) は、最初の ETL の後であっても、デバイスの位置を示す GPS ping の継続的なストリームを表します。このデータから実用的な洞察を抽出するには、停止と移動 (軌跡) を特定する必要があります。これは、 地理空間処理ジョブ SageMaker の地理空間機能の機能。 Amazon SageMaker処理 SageMaker 上の簡素化された管理エクスペリエンスを使用して、専用の地理空間コンテナーでデータ処理ワークロードを実行します。 SageMaker Processing ジョブの基盤となるインフラストラクチャは、SageMaker によって完全に管理されます。この機能を使用すると、SageMaker 処理ジョブで地理空間 ML コンテナを実行することにより、Amazon S3 に保存された地理空間データでカスタム コードを実行できるようになります。オープンソース ライブラリを使用してカスタム コードを記述することで、オープンまたはプライベートの地理空間データに対してカスタム操作を実行し、SageMaker 処理ジョブを使用して操作を大規模に実行できます。コンテナベースのアプローチは、一般的に使用されるオープンソース ライブラリによる開発環境の標準化に関するニーズを解決します。

このような大規模なワークロードを実行するには、市街地を処理する数十のインスタンスから地球規模の処理を行う数千のインスタンスまで拡張できる柔軟なコンピューティング クラスターが必要です。 DIY コンピューティング クラスターを手動で管理すると、時間がかかり、コストがかかります。この機能は、モビリティ データセットに複数の都市から複数の州、さらには国が含まれる場合に特に役立ち、2 段階の ML アプローチを実行するために使用できます。

最初のステップは、ノイズのあるアプリケーションの密度ベースの空間クラスタリング (DBSCAN) アルゴリズムを使用して、ping からの停止をクラスタリングすることです。次のステップでは、サポート ベクター マシン (SVM) メソッドを使用して、特定された停留所の精度をさらに向上させ、POI との連携のある停留所と、POI のない停留所 (自宅や職場など) を区別します。また、SageMaker 処理ジョブを使用して、連続するストップを特定し、ソースと宛先のストップ間のパスをマッピングすることで、毎日のデバイス ping からトリップと軌跡を生成することもできます。

地理空間処理ジョブを使用して生データ (毎日のデバイス ping) を大規模に処理した後、stops と呼ばれる新しいデータセットには次のスキーマが含まれている必要があります。

属性 説明
ID または MAID デバイスのモバイル広告 ID (ハッシュ化)
ラット 停止クラスターの重心の緯度
LNG 停止クラスターの重心の経度
ジオハッシュ POIのGeohash位置
デバイスタイプ デバイスのオペレーティング システム (IDFA または GAID)
タイムスタンプ 停車開始時刻
滞留時間 停止の滞留時間 (秒単位)
ip IPアドレス
ALT デバイスの高度 (メートル単位)
原産国を表す ISO 2 桁コード
状態 状態を表すコード
シティ 都市を表すコード
郵便番号 デバイス ID が表示される場所の郵便番号
キャリア デバイスのキャリア
デバイスの製造元 デバイスのメーカー

ストップは、デバイスごとの ping をクラスター化することによって統合されます。密度ベースのクラスタリングは、停止しきい値が 300 秒、停止間の最小距離が 50 メートルなどのパラメーターと組み合わされます。これらのパラメータは、ユースケースに応じて調整できます。

次のスクリーンショットは、15,000 ping から識別された約 400,000 のストップを示しています。前述のスキーマのサブセットも存在します。ここで、列 Dwell Time は停止時間を表し、 Lat & Lng 列は、デバイスごと、場所ごとの停留所クラスターの重心の緯度と経度を表します。

ETL 以降、データは Parquet ファイル形式で保存されます。これは、大量のデータの処理を容易にする列指向のストレージ形式です。

次のスクリーンショットは、モール内とその周辺エリア内のデバイスごとの ping から統合されたストップを示しています。

停留所を特定した後、このデータセットを公開されている POI データまたはユースケースに固有のカスタム POI データと結合して、ブランドとのエンゲージメントなどのアクティビティを特定できます。

次のスクリーンショットは、アローヘッド モール内の主要な POI (店舗およびブランド) で識別される停留所を示しています。

自宅の郵便番号は、データセット内の旅行の一部である場合にプライバシーを維持するために、各訪問者の自宅の場所をマスクするために使用されています。この場合の緯度と経度は、それぞれ郵便番号の重心の座標になります。

次のスクリーンショットは、そのようなアクティビティを視覚的に表現したものです。左の画像は停留所と店舗をマッピングしており、右の画像はモール自体のレイアウトのアイデアを示しています。

この結果として得られるデータセットは、次のセクションで説明するさまざまな方法で視覚化できます。

密度メトリクス

アクティビティと訪問の密度を計算して視覚化できます。

– 次のスクリーンショットは、モール内の訪問店舗の上位 15 件を示しています。

– 次のスクリーンショットは、時間ごとの Apple Store への訪問数を示しています。

旅と軌跡

前述したように、一連のアクティビティのペアが旅行を表します。次のアプローチを使用して、アクティビティ データから旅行を導き出すことができます。ここでは、ウィンドウ関数を SQL とともに使用して、 trips スクリーンショットに示すように、テーブル。

後に trips テーブルが生成されると、POI への旅行を決定できます。

例1– 次のスクリーンショットは、客足を Apple Store に誘導する上位 10 店舗を示しています。

– 次のスクリーンショットは、アローヘッド モールへのすべての移動を示しています。

– 次のビデオは、モール内の移動パターンを示しています。

– 次のビデオは、モールの外での移動パターンを示しています。

集水域分析

POI へのすべての訪問を分析し、集水域を決定できます。

例1– 次のスクリーンショットは、Macy's ストアへのすべての訪問を示しています。

– 次のスクリーンショットは、訪問が発生した地域の上位 10 件の自宅地域の郵便番号 (境界が強調表示されている) を示しています。

データ品質チェック

毎日受信するデータ フィードの品質をチェックし、QuickSight ダッシュボードとデータ分析を使用して異常を検出できます。次のスクリーンショットは、ダッシュボードの例を示しています。

まとめ

一貫性のある正確なデータセットを取得するのが難しいため、顧客の洞察を得て競争上の優位性を獲得するためのモビリティ データとその分析は、依然としてニッチな分野です。ただし、このデータは、組織が既存の分析にコンテキストを追加し、顧客の移動パターンに関する新しい洞察を生み出すのに役立ちます。 Amazon SageMaker 地理空間機能と地理空間処理ジョブは、これらのユースケースを実装し、直感的でアクセスしやすい方法で洞察を引き出すのに役立ちます。

この投稿では、AWS のサービスを使用してモビリティ データをクリーンアップし、Amazon SageMaker 地理空間機能を使用して、ML モデルを使用して停車地、アクティビティ、旅行などの派生データセットを生成する方法を説明しました。次に、派生データセットを使用して動作パターンを視覚化し、洞察を生成しました。

Amazon SageMaker 地理空間機能の使用を開始するには、次の 2 つの方法があります。

Amazon SageMaker の地理空間機能 & Amazon SageMaker 地理空間の使用開始。 また、当社を訪問してください GitHubレポには、Amazon SageMaker 地理空間機能に関するいくつかのサンプルノートブックがあります。


著者について

ジミー・マシューズ AI/ML テクノロジーの専門知識を持つ AWS ソリューションアーキテクトです。 Jimy はボストンに本拠を置き、クラウドを導入してビジネスを変革する企業顧客と協力し、効率的で持続可能なソリューションの構築を支援します。彼は家族、車、そして総合格闘技に情熱を注いでいます。

ギリシュ・ケシャフ は AWS のソリューションアーキテクトであり、ワークロードを最新化して安全かつ効率的に実行するためのクラウド移行の取り組みにおいてお客様を支援しています。彼はテクノロジー チームのリーダーと協力して、アプリケーションのセキュリティ、機械学習、コストの最適化、持続可能性についてチームを指導しています。彼はサンフランシスコを拠点としており、旅行、ハイキング、スポーツ観戦、クラフトビール醸造所の探索が大好きです。

ラメシュ桟橋 は、AW​​S エンタープライズ顧客のデータ資産の収益化を支援することに重点を置いたソリューション アーキテクチャのシニア リーダーです。彼は経営陣やエンジニアに対し、特に機械学習、データ、分析に重点を置いた、拡張性、信頼性、コスト効率の高いクラウド ソリューションを設計および構築するようアドバイスしています。自由時間には、家族と一緒にサイクリングやハイキングなど、素晴らしいアウトドアを楽しんでいます。

スポット画像

最新のインテリジェンス

スポット画像