ゼファーネットのロゴ

HSR.health は、Amazon SageMaker 地理空間機能を使用して、動物から人間への病気の波及リスクをどのように制限しているか |アマゾン ウェブ サービス

日付:

これは、HSR.health の Ajay K Gupta、Jean Felipe Teotonio、Paul A Churchyard が共同執筆したゲスト投稿です。

HSR。健康 は地理空間健康リスク分析会社であり、そのビジョンは、人間の創意工夫とデータ分析の集中的かつ正確な適用によって、世界的な健康課題を解決できるというものです。この投稿では、人獣共通感染症予防のためのアプローチの 1 つを紹介します。 Amazon SageMaker の地理空間機能 より多くの命をより早く救うために、より正確な病気の蔓延情報を保健科学者に提供するツールを作成すること。

人獣共通感染症は動物と人間の両方に影響を与えます。として知られる、動物から人間への病気の移行。 波及、私たちの地球上で継続的に発生する現象です。疾病管理予防センターなどの保健機関によると (CDC)および世界保健機関()、中国の武漢の生鮮市場での波及事象が2019年のコロナウイルス感染症(COVID-19)を引き起こした可能性が最も高い。研究によると、オオコウモリで見つかったウイルスが重大な変異を起こし、人間への感染が可能になったことが示唆されています。 COVID-19 の最初の患者、または「患者ゼロ」はおそらく、その後の地域的な流行を引き起こし、最終的には国際的に広がりました。高速鉄道。健康の人獣共通感染症波及リスク指数は、こうした感染症の流行が国境を越えて世界規模に広がる前に、早期に特定できるようにすることを目的としています。

地域的な流行の拡大に対して公衆衛生が持つ主な武器は疾病監視です。これは、疾病の報告、調査、公衆衛生システムのさまざまなレベル間でのデータ通信の連動システム全体です。このシステムは、人的要因だけでなく、疾患データを収集し、パターンを分析し、地方から地域、そして中央の保健当局への一貫した継続的なデータ転送の流れを作成するための技術とリソースにも依存しています。

新型コロナウイルス感染症が局地的な発生から、すべての大陸に存在する世界的な病気にまで至ったスピードは、より効率的で正確な病気監視システムを構築するために革新的なテクノロジーを活用する切実な必要性を示す厳粛な例となるはずです。

人獣共通感染症の波及リスクは、人間が野生動物と接触する頻度に影響を与える複数の社会的、環境的、地理的要因と密接に相関しています。高鉄.healthの 人獣共通感染症波及リスク指数は、人間と野生生物の相互作用のリスク、ひいては人獣共通感染症波及リスクに影響を与えることが歴史的に知られている 20 以上の地理的、社会的、環境的要因を使用します。これらの要因の多くは、衛星画像とリモート センシングを組み合わせてマッピングできます。

この記事では、HSR の仕組みについて説明します。健康 SageMaker の地理空間機能を使用して、リスク指標を開発するための衛星画像とリモート センシングから関連する特徴を取得します。 SageMaker の地理空間機能により、データ サイエンティストや機械学習 (ML) エンジニアは、地理空間データを使用してモデルを構築、トレーニング、デプロイすることが容易になります。 SageMaker 地理空間機能を使用すると、大規模な地理空間データセットを効率的に変換または強化し、事前トレーニングされた ML モデルを使用してモデル構築を加速し、3D 高速グラフィックスと組み込みの視覚化ツールを使用してインタラクティブなマップ上でモデル予測と地理空間データを探索できます。

リスク軽減のための ML と地理空間データの使用

ML は、特定の種類の異常を識別するように明示的にプログラムされていなくてもデータから学習できるため、空間データまたは時間データの異常検出に非常に効果的です。物体の物理的な位置や形状に関連する空間データには、従来のアルゴリズムでは分析が難しい複雑なパターンや関係が含まれることがよくあります。

ML と地理空間データを組み込むと、異常や異常なパターンを体系的に検出する機能が強化され、これは早期警告システムに不可欠です。これらのシステムは、環境監視、災害管理、セキュリティなどの分野で重要です。過去の地理空間データを使用した予測モデリングにより、組織は潜在的な将来のイベントを特定し、それに備えることができます。これらのイベントは、自然災害や交通障害から、この投稿で説明するように病気の発生まで多岐にわたります。

人獣共通感染症波及リスクの検出

人獣共通感染症の波及リスクを予測するには、HSR。健康 マルチモーダルなアプローチを採用しています。この方法では、環境情報、生物地理情報、疫学情報などのデータ タイプを組み合わせて使用​​することにより、疾患の動態の包括的な評価が可能になります。このような多面的な視点は、予防的な対策を開発し、流行への迅速な対応を可能にするために重要です。

このアプローチには次のコンポーネントが含まれます。

  • 病気と発生のデータ – 高速鉄道。健康 によって提供される広範な病気と発生のデータを使用します。 ギデオン もう 1 つは世界保健機関 (WHO) であり、世界的な疫学情報の信頼できる 2 つの情報源です。このデータは、分析フレームワークの基本的な柱として機能します。ギデオンの場合は API を介してデータにアクセスでき、WHO、HSR の場合はデータにアクセスできます。。健康 は、過去の病気の発生レポートから発生データをマイニングするための大規模言語モデル (LLM) を構築しました。
  • 地球観測データ – 環境要因、土地利用分析、生息地の変化の検出は、人獣共通感染症のリスクを評価するために不可欠な要素です。これらの洞察は、衛星ベースの地球観測データから得ることができます。高鉄。健康 は、SageMaker 地理空間機能を使用して大規模な地理空間データセットにアクセスして操作することにより、地球観測データの使用を合理化できます。 SageMaker geospatial は、USGS Landsat-8、Sentinel-1、Sentinel-2 などのデータセットを含む豊富なデータ カタログを提供します。 Planet Labs からの高解像度画像など、他のデータセットを取り込むこともできます。
  • リスクの社会的決定要因 – 生物学的要因や環境要因を超えて、HSR のチームは。健康 また、さまざまな社会経済的および人口統計的指標を含む社会的決定要因も考慮されており、人獣共通感染症の波及力学を形成する上で極めて重要な役割を果たしています。

これらのコンポーネントから、HSR。健康 はさまざまな要因を評価し、次の特徴が人獣共通感染症波及リスクの特定に影響を与えると特定されました。

  • 動物の生息地とハビタブルゾーン – 潜在的な人獣共通感染症の宿主の生息地とその居住可能区域を理解することは、伝播リスクを評価するための基礎となります。
  • 人口密集地 – 人口密集地域への近接性は、人間と動物の相互作用の可能性に影響を与えるため、重要な考慮事項です。
  • 生息地の喪失 – 特に森林伐採による自然生息地の劣化は、人獣共通感染症の波及事象を加速させる可能性があります。
  • 人間と荒野のインターフェース – 人間の居住地と野生動物の生息地が交差する地域は、人獣共通感染症の潜在的なホットスポットとなります。
  • 社会的特徴 – 社会経済的および文化的要因は、人獣共通感染症のリスクとHSRに大きな影響を与える可能性があります。健康 これらも調べます。
  • 人間の健康特性 – 地域の人間集団の健康状態は、感受性と感染力学に影響を与えるため、重要な変数です。

ソリューションの概要

HSR。健康のワークフローには、ML 技術を使用したデータの前処理、特徴抽出、有益な視覚化の作成が含まれます。これにより、生の形式から実用的な洞察までのデータの進化を明確に理解することができます。

以下は、Gideon からの入力データ、地球観測データ、リスク データの社会的決定要因から始まるワークフローを視覚的に表現したものです。

ソリューションの概要

SageMaker 地理空間機能を使用して衛星画像を取得および処理する

衛星データはリスク指数を構築するために実行される分析の基礎を形成し、環境変化に関する重要な情報を提供します。衛星画像から洞察を得るには、HSR。健康 使用されます 地球観測の仕事 (EOJ)。 EOJ を使用すると、地表から収集したラスター データの取得と変換が可能になります。 EOJ は、指定されたデータ ソース (衛星群など) から特定の地域および期間にわたる衛星画像を取得します。次に、取得した画像に 1 つ以上のモデルを適用します。

さらに、 Amazon SageMakerスタジオ は、一般的に使用される地理空間ライブラリがプリインストールされた地理空間ノートブックを提供します。このノートブックを使用すると、Python ノートブック環境内で地理空間データを直接視覚化し、処理できるようになります。 EOJ は地理空間ノートブック環境で作成できます。

EOJ を構成するには、次のパラメータが使用されます。

  • 入力構成 – 入力構成では、データ取得中に使用されるデータ ソースとフィルタリング基準を指定します。
    • RasterDataCollectionArn – データを収集する衛星を指定します。
    • 対象地域 – 地理的対象地域 (AOI) は、画像収集のポリゴン境界を定義します。
    • 時間範囲フィルター – 関心のある時間範囲: {StartTime: <string>, EndTime: <string>}.
    • プロパティフィルター – 許容可能な雲量の割合や希望する太陽の方位角などの追加のプロパティ フィルター。
  • ジョブ構成 – この構成は、取得した衛星画像データに適用されるジョブのタイプを定義します。バンド計算、リサンプリング、ジオモザイク、雲除去などの操作をサポートします。

次のコード例は、HSR によって実行される手順を代表する、クラウド削除のための EOJ の実行を示しています。。健康:

eoj_input_config = {
    "RasterDataCollectionQuery": {
        "RasterDataCollectionArn": "arn:aws:sagemaker-geospatial:us-west-2:378778860802:raster-data-collection/public/nmqj48dcu3g7ayw8",
        "AreaOfInterest": {
            "AreaOfInterestGeometry": {
                "PolygonGeometry": {
                    "Coordinates": [
                        [
                            [-76.23240119828894,-6.268815697653608],
                            [-76.23240119828894,-6.339419992332921],
                            [-76.13834453776985,-6.339419992332921],
                            [-76.13834453776985,-6.268815697653608],
                            [-76.23240119828894,-6.268815697653608]                       
        ]
                    ]
                }
            }
        },
        "TimeRangeFilter": {
            "StartTime": "2022-03-01T00:00:00Z",
            "EndTime": "2022-06-30T23:59:59Z",
        },
        "PropertyFilters": {
            "Properties": [{"Property": {"EoCloudCover": {"LowerBound": 0.0, "UpperBound": 2.0}}}],
            "LogicalOperator": "AND",
        },
    }
}
eoj_job_config = {
    "CloudRemovalConfig": {
        "AlgorithmName": "INTERPOLATION",
        "InterpolationValue": "-9999",
        "TargetBands": ["red", "green", "blue", "nir", "swir16"],
    }
}

eoj = geospatial_client.start_earth_observation_job(
    Name="eoj-analysis-loreto",
    InputConfig=eoj_input_config,
    JobConfig=eoj_job_config,
    ExecutionRoleArn=execution_role,
)

HSR。健康 いくつかの操作を使用してデータを前処理し、関連する特徴を抽出しました。これには、土地被覆分類、温度変化のマッピング、植生インデックスなどの操作が含まれます。

植生の健全性を示すのに関連する植生指数の 1 つは、正規化差分植生指数 (NDVI) です。 NDVI は、植生が反射する近赤外光と植生が吸収する赤色光を使用して植生の健康状態を定量化します。 NDVI を長期にわたって監視すると、森林伐採などの人間活動の影響など、植生の変化を明らかにすることができます。

次のコード スニペットは、雲の除去を通じて渡されたデータに基づいて NDVI などの植生指数を計算する方法を示しています。

eoj_input_config = {
    "PreviousEarthObservationJobArn": eoj["Arn"]
}
eoj_job_config = {
  "BandMathConfig": {
    "CustomIndices": {
        "Operations": [
            {
                "Equation": "(nir - red) / (nir + red)",
                "Name": "ndvi",
                "OutputType": "FLOAT32"
            }
        ]
    }
  }
}
eoj = geospatial_client.start_earth_observation_job(
    Name="eoj-vi-ndvi",
    InputConfig=eoj_input_config,
    JobConfig=eoj_job_config,
    ExecutionRoleArn=execution_role,
)

EOJの可視化

SageMaker の地理空間機能を使用してジョブ出力を視覚化できます。 SageMaker の地理空間機能は、モデル予測をベースマップにオーバーレイし、階層化された視覚化を提供してコラボレーションを容易にするのに役立ちます。 GPU を利用したインタラクティブなビジュアライザーと Python ノートブックを使用すると、何百万ものデータ ポイントを 1 つのビューで探索でき、洞察と結果の共同探索が容易になります。

この記事で説明する手順は、HSR が提供する多くのラスターベースの機能のうちの 1 つを示しています。。健康 を抽出してリスク指数を作成しました。

ラスターベースの特徴と健康および社会データの組み合わせ

関連するフィーチャをラスター形式で抽出した後、HSR。健康 ゾーン統計を使用して、社会データと健康データが割り当てられている行政境界ポリゴン内のラスター データを集計しました。分析には、ラスター地理空間データとベクター地理空間データの組み合わせが組み込まれます。この種の集約により、ジオデータフレーム内のラスター データの管理が可能になり、健康データや社会データとの統合が容易になり、最終的なリスク指標が生成されます。

次のコード スニペットは、ラスター データを管理ベクトル境界に集約する方法を示しています。

import geopandas as gp
import numpy as np
import pandas as pd
import rasterio
from rasterstats import zonal_stats
import pandas as pd

def get_proportions(inRaster, inVector, classDict, idCols, year):
    # Reading In Vector File
    if '.parquet' in inVector:
        vector = gp.read_parquet(inVector)
    else:
        vector = gp.read_file(inVector)
    raster = rasterio.open(inRaster)
    vector = vector.to_crs(raster.crs)
    # Retrieving the Bounding Box for the Raster Image
    xmin, ymin, xmax, ymax = raster.bounds
    # Selecting the Vector Features that Intersect with the Raster Bounding Box
    vector = vector.cx[xmin:xmax, ymin:ymax]
    vector = vector.reset_index()
    # Calculate the sum of pixels of each class in the vector geometries
    stats = zonal_stats(vector.geometry, raster.read(1), affine=raster.transform, nodata=raster.nodata, categorical=True)
    # Creating a dataframe with the class sum of pixels and the id fields of the vector geometries
    df1 = pd.DataFrame(data=stats)
    df1 = df1.fillna(0)
    df1['totalpixels'] = df1.sum(axis=1)  
    df1['year'] = year 
    if 'year' in vector.columns.tolist():
        vector = vector.drop(['year'], 1)
    # Merging the class sum of pixels dataframe with the vector geodataframe
    df = vector.merge(df1, left_index=True, right_index=True)
    # Renaming Columns
    cdict = pd.read_csv(classDict)
    cdict = cdict.set_index("Value")['Class_name'].to_dict()
    df = df.rename(columns=cdict)
    keptCols = [x for x in df.columns.tolist() if x in idCols + list(cdict.values()) + ['totalpixels', 'year']]
    df = df[keptCols]
    return(df)

def aggregateData(rasterList, inVector, classDict, idCols, years):
    dfList = []
    # Creating aggregated raster to vector geodataframes for all rasters in rasterList
    for tiff in rasterList:
        inRaster = tiff
        year = [x for x in years if x in tiff][0]
        dfList.append(get_proportions(inRaster, inVector, classDict, idCols, year))
    # Concating into a single geodataframe
    allDf = pd.concat(dfList, ignore_index=True)
    classDictDf = pd.read_csv(classDict)
    # Renaming the numerical values of the categories to the string version of the category name
    classCols = classDictDf['Class_name'].unique().tolist()
    # Summing the pixel counts by administrative division as a single administrative division might cover more than one raster image
    for col in classCols:
        allDf[col] = allDf[col].fillna(0)
        allDf[col] = allDf.groupby(idCols + ['year'])[col].transform(lambda x: x.sum())
    # Removing Duplicates from the dataframe
    allDf = allDf.groupby(idCols + ['year']).first().reset_index()
    # Reattaching the geometry to the aggregated raster data
    if '.parquet' in inVector:
        vector = gp.read_parquet(inVector)
    else:
        vector = gp.read_file(inVector)
    allDf = vector.merge(allDf, on=idCols)
    return(allDf)

抽出された特徴を効果的に評価するために、ML モデルを使用して各特徴を表す要因を予測します。使用されるモデルの 1 つはサポート ベクター マシン (SVM) です。 SVM モデルは、リスク評価に情報を与えるデータ内のパターンと関連性を明らかにするのに役立ちます。

この指数は、さまざまな地域での潜在的な波及事象の理解を助けるために、これらの要因の加重平均として計算されたリスク レベルの定量的評価を表します。

import pandas as pd
import numpy as np
import geopandas as gp

def finalIndicatorCalculation(inputLayer, weightDictionary, outLayer):
    # Creating a dictionary with the weights for each factor in the indicator
    weightsDict = pd.read_csv(weightDictionary).set_index('metric')['weight'].to_dict()
    # Reading in the data from the layer
    layer = gp.read_file(inputLayer)
    # Initializing the Sum of the Weights
    layer['sumweight'] = 0
    # Calculating the sum of the weighted factors
    for col in weightsDict.keys():
        layer[col] = layer[col].fillna(0)
        layer['sumweight'] = layer['sumweight'] + (layer[col] * zweights[col])
    # Calculating Raw Zoonotic Spillover Risk Index
    layer['raw_idx'] = np.log(layer['e_pop']) * layer['sumweight']
    # Normalizing the Index between 0 and 100
    layer['zs_idx'] = ((layer['raw_idx'] - layer['raw_idx'].min()) / (layer['raw_idx'].max() - layer['raw_idx'].min()) * 100).round(2)
    return(layer)

次の左側の図は、2018 年から 2023 年までの森林面積の変化を計算して、ペルー北部のテスト地域のシーンからの画像分類を地区行政レベルに集約したものを示しています。森林破壊は、人獣共通感染症の波及リスクを決定する重要な要因の XNUMX つです。右側の図は、対象地域内の人獣共通感染波及リスクの重大度レベルを、最高 (赤) リスクから最低 (濃緑色) リスクまでの範囲で示しています。このエリアは、都市、森林、砂地、水域、草地、農業など、シーンで捉えられた土地被覆の多様性に基づいて、画像分類のトレーニング エリアの XNUMX つとして選択されました。さらに、これは、森林破壊と人間と動物の間の相互作用による潜在的な人獣共通感染症の波及事象に関して関心のある多くの分野の XNUMX つです。

ペルー北部における人獣共通感染症波及リスクの深刻度レベル

病気の発生に関する過去のデータ、地球観測データ、社会的決定要因、および ML 技術を含むこのマルチモーダルなアプローチを採用することで、人獣共通感染症の波及リスクをより深く理解し、予測することができ、最終的には病気の監視と予防戦略を最も発生リスクの高い地域に向けることができます。次のスクリーンショットは、人獣共通感染波及リスク分析の出力のダッシュボードを示しています。このリスク分析は、次の病気が風土病や新たなパンデミックになる前に封じ込めることができるように、新たな潜在的な人獣共通感染症の発生に対するリソースと監視がどこで行われるかを明らかにします。

人獣共通感染症波及リスク分析ダッシュボード

パンデミック予防への新しいアプローチ

1998年、マレーシアのニパ川沿いで、1998年の秋から1999年の春にかけて、265人が当時未知のウイルスに感染し、急性脳炎と重度の呼吸困難を引き起こした。そのうち105人が死亡し、致死率は39.6%となった。対照的に、新型コロナウイルス感染症の未治療の致死率は19%です。それ以来、現在ニパウイルスと呼ばれているウイルスが森林の生息地から移動し、主にインドとバングラデシュで6.3件以上の致死的な大流行を引き起こしました。

ニパのようなウイルスは毎年出現し、特に病気の監視と検出のための強力かつ永続的で堅牢なシステムの確立がより困難な国で、私たちの日常生活に課題をもたらしています。これらの検出システムは、このようなウイルスに関連するリスクを軽減するために非常に重要です。

人獣共通感染症波及リスク指数などの ML および地理空間データを使用するソリューションは、地方の公衆衛生当局が最もリスクの高い領域にリソースを優先的に割り当てるのに役立ちます。そうすることで、対象を絞った局地的な監視措置を確立し、地域的な流行を検出し、国境を越えて拡大する前に阻止することができます。このアプローチにより、病気の発生による影響を大幅に制限し、命を救うことができます。

まとめ

この投稿では、HSR がどのように機能するかを説明しました。。健康 地理空間データ、健康、社会的決定要因、ML を統合することにより、人獣共通感染症波及リスク指数の開発に成功しました。 SageMaker を使用することで、チームは将来のパンデミックの可能性における最も重大な脅威を正確に特定できるスケーラブルなワークフローを作成しました。これらのリスクを効果的に管理すれば、世界的な疾病負担の軽減につながる可能性があります。パンデミックのリスクを軽減することによる実質的な経済的および社会的利点は、誇張することはできず、その利点は地域的および世界的に広がります。

HSR。健康 は、人獣共通感染症波及リスク指数の初期実装に SageMaker の地理空間機能を使用しましたが、現在、指数をさらに開発し、その適用を世界中の追加地域に拡大するために、パートナーシップと開催国および資金源からの支援を求めています。 HSRについて詳しくはこちら。健康 および人獣共通感染症波及リスク指数については、こちらをご覧ください。 www.hsr.health.

SageMaker の地理空間機能を探索することで、地球観測データを医療イニシアチブに統合する可能性を発見してください。詳細については、以下を参照してください。 Amazon SageMaker の地理空間機能、または関与する 追加の例 実践的な経験を得るために。


著者について

アジェイ・K・グプタアジェイ・K・グプタ HSR.health の共同創設者兼 CEO です。HSR.health は、病気の蔓延と重症度を予測する地理空間技術と AI 技術を通じて健康リスク分析を破壊し、革新する企業です。そして、これらの洞察を業界、政府、医療分野に提供して、将来のリスクを予測、軽減し、活用できるようにします。仕事の外では、U2、スティング、ジョージ・マイケル、イマジン・ドラゴンズのお気に入りのポップ・ミュージックの曲を大声で歌いながら、マイクの後ろで鼓膜を破り裂くようなアジェイの姿を見つけることができます。

ジャン・フェリペ・テオトニオジャン・フェリペ・テオトニオ ジャン・フェリペは熱心な医師であり、医療の質と感染症疫学の情熱的な専門家であり、HSR.health 公衆衛生チームを率いています。彼は、GeoAI アプローチを活用して現代の最大の健康課題に対するソリューションを開発することで、世界的な病気の負担を軽減し、公衆衛生を改善するという共通の目標に向かって取り組んでいます。仕事以外の趣味には、SF 本を読むこと、ハイキング、イングランドのプレミア リーグ、ベースギターの演奏などがあります。

ポール・チャーチヤードポール・チャーチヤードHSR.health の CTO 兼チーフ地理空間エンジニアは、幅広い技術スキルと専門知識を活用して、同社の中核インフラストラクチャと特許取得済みの独自の GeoMD プラットフォームを構築しています。さらに、彼とデータ サイエンス チームは、HSR.health が生成するすべての健康リスク指標に地理空間分析と AI/ML 技術を組み込んでいます。仕事以外では、ポールは独学で DJ を学び、雪が大好きです。

ヤノシュ・ヴォシッツヤノシュ・ヴォシッツ AWS のシニア ソリューション アーキテクトであり、地理空間 AI/ML を専門としています。 15 年以上の経験を持つ彼は、地理空間データを活用した革新的なソリューションのために AI と ML を活用する世界中の顧客をサポートしています。 彼の専門知識は機械学習、データ エンジニアリング、スケーラブルな分散システムに及び、ソフトウェア エンジニアリングの強力な背景と自動運転などの複雑な領域における業界の専門知識によって強化されています。

エメット・ネルソンエメット・ネルソン AWS のアカウントエグゼクティブであり、ヘルスケア & ライフサイエンス、地球/環境科学、教育の各分野にわたる非営利研究の顧客をサポートしています。彼の主な焦点は、分析、AI/ML、ハイ パフォーマンス コンピューティング (HPC)、ゲノミクス、医療画像にわたるユースケースを実現することです。 Emmett は 2020 年に AWS に入社し、テキサス州オースティンに拠点を置いています。

スポット画像

最新のインテリジェンス

スポット画像