제퍼넷 로고

Amazon SageMaker Canvas를 사용하는 코드 없는 기계 학습으로 공중 보건 통찰력을 더 빠르게 캡처 | 아마존 웹 서비스

시간

공중 보건 기관은 다양한 유형의 질병, 건강 경향 및 위험 요소에 대한 풍부한 데이터를 보유하고 있습니다. 그들의 직원은 오랫동안 통계 모델과 회귀 분석을 사용하여 치료법으로 질병에 대한 위험 요소가 가장 높은 인구를 대상으로 하거나 관련 발병의 진행을 예측하는 것과 같은 중요한 결정을 내렸습니다.

공중 보건 위협이 나타나면 데이터 속도가 증가하고 들어오는 데이터 세트가 더 커질 수 있으며 데이터 관리가 더 어려워집니다. 이로 인해 데이터를 전체적으로 분석하고 데이터에서 인사이트를 포착하는 것이 더 어려워집니다. 그리고 시간이 중요한 경우 데이터를 분석하고 통찰력을 얻는 속도와 민첩성은 신속하고 강력한 건강 대응을 형성하는 데 핵심적인 장애물입니다.

공중 보건 기관이 스트레스를 받는 동안 직면하는 일반적인 질문은 다음과 같습니다.

  • 특정 위치에 충분한 치료제가 있습니까?
  • 건강 결과를 주도하는 위험 요소는 무엇입니까?
  • 어떤 집단이 재감염 위험이 더 높습니까?

이러한 질문에 답하려면 종종 변화하고 역동적인 다양한 요인 간의 복잡한 관계를 이해해야 하기 때문에 우리가 사용할 수 있는 강력한 도구 중 하나는 이러한 복잡한 정량적 문제를 분석, 예측 및 해결하기 위해 배포할 수 있는 기계 학습(ML)입니다. 다음과 같은 어려운 건강 관련 문제를 해결하기 위해 ML이 적용되는 것을 점점 더 많이 보았습니다. 뇌종양 분류 이미지 분석과 정신 건강의 필요성 예측 조기 개입 프로그램을 배포합니다.

그러나 공중 보건 기관에 이러한 질문에 ML을 적용하는 데 필요한 기술이 부족하면 어떻게 될까요? 공중 보건 문제에 ML을 적용하는 데 방해가 되고 공중 보건 조직은 문제를 해결하기 위해 강력한 정량적 도구를 적용할 수 있는 능력을 상실합니다.

그렇다면 이러한 병목 현상을 제거하려면 어떻게 해야 할까요? 답은 ML을 민주화하고 심층적인 도메인 전문 지식을 갖춘 더 많은 의료 전문가가 이를 사용하고 해결하려는 질문에 적용할 수 있도록 하는 것입니다.

Amazon SageMaker 캔버스 역학자, 정보학자, 생물 통계학자와 같은 공중 보건 전문가가 데이터 과학 배경이나 ML 전문 지식 없이 질문에 ML을 적용할 수 있는 코드 없는 ML 도구입니다. 그들은 데이터에 시간을 할애하고, 도메인 전문 지식을 적용하고, 가설을 신속하게 테스트하고, 인사이트를 정량화할 수 있습니다. Canvas는 ML을 민주화하여 보건 전문가가 대규모 데이터 세트를 평가하고 ML을 사용하여 고급 통찰력을 제공함으로써 공중 보건을 보다 공평하게 만드는 데 도움이 됩니다.

이 게시물에서는 공중 보건 전문가가 Canvas를 사용하여 향후 30일 동안 특정 치료제에 대한 현재 수요를 예측할 수 있는 방법을 보여줍니다. Canvas는 ML 경험이 없거나 한 줄의 코드를 작성할 필요 없이 직접 정확한 ML 예측을 생성할 수 있는 시각적 인터페이스를 제공합니다.

솔루션 개요

미국 전역의 주에서 수집한 데이터에 대해 작업 중이라고 가정해 보겠습니다. 우리는 특정 지방 자치 단체 또는 위치에 향후 몇 주 동안 충분한 치료제가 없다는 가설을 세울 수 있습니다. 이를 빠르고 정확하게 테스트하려면 어떻게 해야 할까요?

이 게시물에서는 병원 활용도, 특정 치료제의 가용성 등을 포함하여 COVID-19와 관련된 주 집계 시계열 데이터가 포함된 미국 보건복지부의 공개적으로 사용 가능한 데이터 세트를 사용합니다. 데이터 세트(COVID-19 보고된 환자 영향 및 병원 용량(주 시계열)(RAW))는 healthdata.gov에서 다운로드할 수 있으며 135개의 열과 60,000개 이상의 행이 있습니다. 데이터 세트는 주기적으로 업데이트됩니다.

다음 섹션에서는 탐색적 데이터 분석 및 준비를 수행하고, ML 예측 모델을 구축하고, Canvas를 사용하여 예측을 생성하는 방법을 보여줍니다.

탐색적 데이터 분석 및 준비 수행

Canvas에서 시계열 예측을 수행할 때 서비스 할당량에 따라 기능 또는 열 수를 줄여야 합니다. 처음에는 가장 관련성이 높은 열의 수를 12개로 줄입니다. 예를 들어 총 수요를 예측하려고 하기 때문에 연령별 열을 삭제했습니다. 데이터가 보관한 다른 열과 유사한 열도 삭제했습니다. 향후 반복에서 다른 열을 유지하고 Canvas에서 기능 설명 기능을 사용하여 이러한 기능의 중요성과 유지하려는 기능을 정량화하는 실험을 하는 것이 합리적입니다. 우리는 또한 state 열에 location.

데이터 세트를 살펴보면 2020년에는 사용 가능한 치료법이 제한적이기 때문에 모든 행을 제거하기로 결정했습니다. 이를 통해 노이즈를 줄이고 ML 모델이 학습할 데이터의 품질을 향상할 수 있습니다.

열 수를 줄이는 방법은 여러 가지가 있습니다. 스프레드시트에서 또는 사용자 인터페이스를 사용하여 Canvas 내에서 직접 데이터세트를 편집할 수 있습니다.

컴퓨터의 로컬 파일을 포함하여 다양한 소스에서 Canvas로 데이터를 가져올 수 있습니다. 아마존 단순 스토리지 서비스 (Amazon S3) 버킷, 아마존 아테나, 눈송이 (참조 Snowflake 통합을 사용하여 얼굴 분류를 위한 훈련 및 검증 데이터 세트를 준비하고 Amazon SageMaker Canvas를 사용하여 훈련), 그리고 40개 이상의 추가 데이터 소스.

데이터를 가져온 후에는 데이터를 탐색하고 시각화하여 산점도 또는 막대 차트와 같은 추가 통찰력을 얻을 수 있습니다. 또한 서로 다른 기능 간의 상관 관계를 살펴보고 최상의 기능이라고 생각하는 것을 선택했는지 확인합니다. 다음 스크린샷은 예제 시각화를 보여줍니다.

ML 예측 모델 구축

이제 몇 번의 클릭만으로 모델을 만들 준비가 되었습니다. 손에 들고 있는 치료제를 식별하는 열을 대상으로 선택합니다. Canvas는 방금 선택한 대상 열을 기반으로 시계열 예측으로 문제를 자동으로 식별하고 필요한 매개변수를 구성할 수 있습니다.

우리는 item_id, 데이터 세트가 위치(미국 주)별로 제공되기 때문에 위치로서의 고유 식별자입니다. 시계열 예측을 만들고 있기 때문에 타임스탬프를 선택해야 합니다. date 우리 데이터 세트에서. 마지막으로 예측하려는 미래의 일 수를 지정합니다(이 예에서는 30일을 선택함). Canvas는 정확도를 높이기 위해 휴일 일정을 포함하는 기능도 제공합니다. 이 경우 미국 기반 데이터 세트이므로 미국 공휴일을 사용합니다.

Canvas를 사용하면 모델을 구축하기 전에 다음을 선택하여 데이터에서 통찰력을 얻을 수 있습니다. 모델 미리보기. 이렇게 하면 결과가 만족스럽지 않을 경우 모델을 구축하지 않아도 되므로 시간과 비용이 절약됩니다. 모델을 미리 보면 일부 열의 영향이 낮다는 것을 알 수 있습니다. 즉, 모델에 대한 열의 예상 값이 낮습니다. Canvas에서 열을 선택 해제하여 열을 제거하고(다음 스크린샷의 빨간색 화살표) 예상 품질 지표(녹색 화살표)가 개선되었음을 확인합니다.

모델 구축으로 이동하면 두 가지 옵션이 있습니다. 빠른 빌드표준 빌드. 빠른 빌드는 정확도보다 속도를 우선시하여 20분 이내에 훈련된 모델을 생성합니다. 이것은 실험에 적합하며 미리보기 모델보다 더 철저한 모델입니다. 표준 빌드는 4시간 이내에 학습된 모델을 생성하고 대기 시간보다 정확도를 우선시하며 여러 모델 구성을 반복하여 최상의 모델을 자동으로 선택합니다.

먼저 빠른 빌드를 실험하여 모델 미리 보기의 유효성을 검사합니다. 그런 다음 모델에 만족하기 때문에 표준 빌드를 선택하여 Canvas가 데이터 세트에 가장 적합한 모델을 빌드하도록 돕습니다. 빠른 빌드 모델이 만족스럽지 못한 결과를 생성한 경우 돌아가서 입력 데이터를 조정하여 더 높은 수준의 정확도를 캡처합니다. 예를 들어 원래 데이터 세트에서 열이나 행을 추가하거나 제거하여 이 작업을 수행할 수 있습니다. 빠른 빌드 모델은 부족한 데이터 과학 리소스에 의존하거나 전체 모델이 완료될 때까지 기다릴 필요 없이 신속한 실험을 지원합니다.

예측 생성

이제 모델이 구축되었으므로 다음을 통해 치료제의 가용성을 예측할 수 있습니다. location. 다음 30일(이 경우 워싱턴 DC) 동안 예상 보유 재고가 어떻게 보이는지 살펴보겠습니다.

Canvas는 치료 수요에 대한 확률론적 예측을 출력하므로 중앙값과 상한 및 하한을 모두 이해할 수 있습니다. 다음 스크린샷에서 기록 데이터(원본 데이터 세트의 데이터)의 끝 부분을 볼 수 있습니다. 그러면 50개의 새 라인이 표시됩니다. 중앙값(10분위수)은 보라색으로, 하한선(90분위수)은 연한 파란색으로, 상한선(XNUMX분위수)은 진한 파란색으로 표시됩니다.

상한 및 하한을 조사하면 예측의 확률 분포에 대한 통찰력을 제공하고 이 치료에 대한 로컬 인벤토리의 원하는 수준에 대해 정보에 입각한 결정을 내릴 수 있습니다. 이 통찰력을 다른 데이터(예: 질병 진행 예측 또는 치료 효능 및 흡수)에 추가하여 향후 주문 및 재고 수준에 대해 정보에 입각한 결정을 내릴 수 있습니다.

결론

코드 없는 ML 도구는 공중 보건 전문가가 공중 보건 위협에 ML을 빠르고 효과적으로 적용할 수 있도록 지원합니다. 이러한 ML의 민주화는 공중 보건 조직이 공중 보건을 보호하는 임무에서 더욱 민첩하고 효율적이 되도록 합니다. 공중 보건 문제의 중요한 추세 또는 변곡점을 식별할 수 있는 임시 분석은 이제 제한된 ML 전문가 리소스를 놓고 경쟁하고 응답 시간 및 의사 결정을 늦추지 않고도 전문가가 직접 수행할 수 있습니다.

이 게시물에서는 ML에 대한 지식이 없는 사람이 Canvas를 사용하여 특정 치료제의 재고를 예측하는 방법을 보여주었습니다. 이 분석은 클라우드 기술과 코드 없는 ML의 힘을 통해 현장의 모든 분석가가 수행할 수 있습니다. 그렇게 함으로써 역량을 광범위하게 분배하고 공중 보건 기관이 보다 신속하게 대응하고 중앙 집중식 및 현장 사무소 리소스를 보다 효율적으로 사용하여 더 나은 공중 보건 결과를 제공할 수 있습니다.

어떤 질문을 할 수 있으며 로우 코드/노 코드 도구가 질문에 대답하는 데 어떻게 도움이 될 수 있습니까? Canvas에 대해 더 알고 싶다면 다음을 참조하십시오. Amazon SageMaker 캔버스 자신의 정량적 건강 질문에 ML을 적용하기 시작합니다.


저자 소개

헨릭 발레 미국 공공 부문을 지원하는 AWS의 선임 솔루션 아키텍트입니다. 그는 기계 학습에서 대규모 보안 및 거버넌스에 이르기까지 다양한 주제에 대해 고객과 긴밀히 협력합니다. 여가 시간에는 도로 자전거 타기, 오토바이 타기를 좋아합니다. 아니면 또 다른 주택 개조 프로젝트에 참여하고 있을지도 모릅니다.

댄 신라이히 Amazon SageMaker Canvas 및 Amazon Forecast의 Go to Market 제품 관리를 이끌고 있습니다. 그는 로우코드/노코드 기계 학습을 민주화하고 비즈니스 성과를 개선하기 위해 적용하는 데 주력하고 있습니다. AWS 이전에 Dan은 기관 투자자가 위험을 관리하고 포트폴리오를 구성하는 데 사용하는 엔터프라이즈 SaaS 플랫폼 및 시계열 위험 모델을 구축했습니다. 직장 밖에서는 하키, 스쿠버 다이빙, 여행, 공상 과학 소설 읽기를 할 수 있습니다.

spot_img

최신 인텔리전스

spot_img