소셜 네트워크

AI

Amazon HealthLake 정규화 된 데이터와 함께 Amazon SageMaker를 사용하여 예측 질병 모델 구축

화신

게재

on

이 게시물에서는 머신 러닝 (ML) 모델을 구축하는 단계를 안내합니다. 아마존 세이지 메이커 저장된 데이터 아마존 헬스 레이크 두 가지 예제 예측 질병 모델을 사용하여 샘플 데이터에 대해 학습했습니다. MIMIC-III 데이터 세트. 이 데이터 세트는 전산 생리학을 위해 MIT 연구소에서 개발했으며 약 60,000 건의 ICU 입원과 관련된 익명화 된 의료 데이터로 구성됩니다. 데이터 세트에는 임상 기록과 함께 인구 통계, 활력 징후 및 약물과 같은 환자에 대한 여러 속성이 포함됩니다. 먼저 인구 통계, 활력 징후 및 약물과 같은 구조화 된 데이터를 사용하여 모델을 개발했습니다. 그런 다음 임상 기록에서 추출 및 정규화 된 추가 데이터로 이러한 모델을 보강하여 성능을 테스트하고 비교했습니다. 이 두 실험에서지도 학습 (분류) 또는 비지도 학습 (클러스터링) 문제로 모델링 할 때 모델 성능이 향상되었음을 발견했습니다. 이 게시물에서 우리의 결과와 실험 설정을 제시합니다.

왜 여러 양식인가?

양식적임 컴퓨터와 인간 사이의 하나의 독립적 인 감각 입 / 출력의 분류로 정의 할 수 있습니다. 예를 들어, 우리는 감각을 사용하여 사물을보고 소리를들을 수 있습니다. 이것들은 두 개의 별개의 양식으로 간주 될 수 있습니다. 여러 양식을 나타내는 데이터 세트는 다중 모드 데이터 세트로 분류됩니다. 예를 들어 이미지는 검색 및 구성에 도움이되는 태그로 구성 될 수 있으며 텍스트 데이터에는 이미지에있는 내용을 설명하는 이미지가 포함될 수 있습니다. 의사가 임상 결정을 내릴 때 일반적으로 다양한 의료 데이터 양식에서 수집 된 정보를 기반으로합니다. 의사는 환자의 관찰, 과거 이력, 스캔 및 방문 중 환자의 신체적 특징을 살펴보고 확실한 진단을 내립니다. ML 모델은 실제 성능을 달성하려고 할 때이 점을 고려해야합니다. 게시물 AWS에서 의료 이미지 검색 플랫폼 구축 의료 이미지와 해당 방사선 보고서의 특징을 결합하여 의료 이미지 검색 플랫폼을 만드는 방법을 보여줍니다. 이러한 모델을 만드는 데있어 문제는 이러한 다중 모달 데이터 세트를 사전 처리하고 여기에서 적절한 기능을 추출하는 것입니다.

Amazon HealthLake를 사용하면 다중 모달 데이터에 대한 모델 학습이 더 쉬워집니다.

Amazon HealthLake는 의료 서비스 제공 업체, 건강 보험 회사 및 제약 회사가 AWS 클라우드에서 페타 바이트 규모로 건강 데이터를 저장, 변환, 쿼리 및 분석 할 수 있도록 지원하는 HIPAA 적격 서비스입니다. 변환의 일부로 Amazon HealthLake는 특수 ML 모델을 사용하여 비정형 데이터에 태그를 지정하고 인덱싱합니다. 이러한 태그와 인덱스는 분석을 위해 데이터의 관계를 이해하고 쿼리 및 검색하는 데 사용할 수 있습니다.

Amazon HealthLake에서 데이터를 내 보내면 다음과 같은 리소스가 추가됩니다. DocumentReference 출력에. 이 리소스는 임상 개체 (예 : 약물, 의학적 상태, 해부학 및 보호 된 건강 정보 (PHI)), 약물에 대한 RxNorm 코드 및 환자에 대한 구조화되지 않은 메모에서 자동으로 파생되는 의료 상태에 대한 ICD10 코드로 구성됩니다. 이는 임상 기록의 구조화되지 않은 부분에 포함 된 환자에 대한 추가 속성이며 다운 스트림 분석에서는 대체로 무시되었을 것입니다. EHR의 구조화 된 데이터를 이러한 속성과 결합하면 환자와 환자의 상태에 대한보다 전체적인 그림을 제공합니다. 이러한 속성의 가치를 결정하는 데 도움이되도록 임상 결과 예측에 대한 몇 가지 실험을 만들었습니다.

아키텍처 개요

다음 다이어그램은 실험 아키텍처를 보여줍니다.

다음 다이어그램은 실험 아키텍처를 보여줍니다.

정규화 된 데이터를 아마존 단순 스토리지 서비스 (Amazon S3) 내보내기 API를 사용하는 버킷. 그런 다음 우리는 AWS 접착제 데이터 카탈로그를 크롤링하고 구축합니다. 이 카탈로그는 아마존 아테나 Colossus에서 내 보낸 데이터에서 직접 쿼리를 실행합니다. Athena는 또한 간편한 쿼리를 위해 JSON 형식 파일을 행과 열로 정규화합니다. 그만큼 DocumentReference 리소스 JSON 파일은 환자 기록의 구조화되지 않은 부분에서 파생 된 인덱싱 된 데이터를 추출하기 위해 별도로 처리됩니다. 파일은 extension 환자 속성으로 구성된 계층 적 JSON 출력이있는 태그입니다. 이 파일을 처리하는 방법에는 여러 가지가 있습니다 (예 : Python 기반 JSON 파서 또는 문자열 기반 정규식 및 패턴 일치 사용). 구현 예는 섹션을 참조하십시오. Athena와 HealthLake 연결 게시물에 Amazon HealthLake를 사용한 인구 건강 애플리케이션 – 1 부 : Amazon QuickSight를 사용한 분석 및 모니터링.

예시 설정

MIMIC-III 데이터 세트에 액세스하려면 다음을 수행해야합니다. 접근 요청. 이 게시물의 일부로 데이터를 배포하지 않고 대신 MIMIC-III에 액세스 할 수있을 때 이러한 실험을 복제 할 수 있도록 설정 단계를 제공합니다. 또한 결론과 결과를 발표합니다.

첫 번째 실험에서는 울혈 성 심부전 (CHF) 환자를 예측하기위한 이진 질환 분류 모델을 구축합니다. 우리는 구조화 된 환자 기록과 구조화되지 않은 환자 기록 모두에 대해 정확도, ROC 및 혼동 매트릭스를 사용하여 성능을 측정합니다. 두 번째 실험에서는 환자 코호트를 고정 된 수의 그룹으로 묶고 구조화되지 않은 환자 기록을 추가하기 전후의 군집 분리를 시각화합니다. 두 실험 모두에서 기준 모델을 구축하고이를 다중 모드 모델과 비교합니다. 여기서 기존의 구조화 된 데이터를 학습 세트의 추가 기능 (ICD-10 코드 및 Rx-Norm 코드)과 결합합니다.

이러한 실험은 실제 데이터 세트에서 최신 모델을 생성하기위한 것이 아닙니다. 그 목적은 구조화 된 환자 기록과 구조화되지 않은 환자 기록에 대한 모델 훈련을 위해 Amazon Healthlake에서 내 보낸 기능을 활용하여 전체 모델 성능을 개선하는 방법을 보여주는 것입니다.

기능 및 데이터 정규화

우리는 모델을 훈련하기 위해 환자 만남과 관련된 다양한 기능을 사용했습니다. 여기에는 환자 인구 통계 (성별, 결혼 여부), 임상 상태, 절차, 약물 및 관찰이 포함되었습니다. 각 환자는 여러 관찰, 임상 상태, 절차 및 약물로 구성된 여러 만남을 가질 수 있기 때문에 데이터를 정규화하고 이러한 각 기능을 목록으로 변환했습니다. 이를 통해 각 환자에 대해 이러한 모든 기능 (목록)이 포함 된 교육 세트를 얻을 수있었습니다.

마찬가지로 Amazon Healthlake가 다음으로 변환 한 구조화되지 않은 기능의 경우 DocumentReference 리소스에서 ICD-10 코드와 Rx-Norm 코드 (아키텍처에 설명 된 방법 사용)를 추출하여 특징 벡터로 변환했습니다.

기능 엔지니어링 및 모델

데이터 세트의 범주 형 속성의 경우 레이블 인코더를 사용하여 속성을 숫자 표현으로 변환했습니다. 다른 모든 목록 속성의 경우 FI-IDF (frequency-inverse document frequency) 벡터라는 용어를 사용했습니다. 그런 다음이 고차원 데이터 세트를 섞고 모델 학습 및 평가를 위해 각각 80 % 훈련 및 20 % 테스트 세트로 분할했습니다. 모델을 훈련하기 위해 그라디언트 부스팅 라이브러리 XGBoost를 사용했습니다. 우리의 목표는 구조화 된 환자 기록으로 기준 모델을 훈련 한 다음 구조화되지 않은 기능으로 결과를 개선하는 것이었기 때문에 대부분 기본 하이퍼 파라미터를 고려하고 하이퍼 파라미터 튜닝을 수행하지 않았습니다. 더 나은 하이퍼 파라미터를 채택하거나 다른 기능 엔지니어링 및 모델링 접근 방식으로 변경하면 이러한 결과를 개선 할 수 있습니다.

예 1 : 울혈 성 심부전 환자 예측

첫 번째 실험에서는 CHF 진단이 양성인 500 명의 환자를 대상으로했습니다. 음성 분류의 경우 CHF 진단을받지 않은 500 명의 환자를 무작위로 선택했습니다. CHF와 직접적으로 관련된 양성 환자군에서 임상 상태를 제거했습니다. 예를 들어, 양성 등급의 모든 환자는 CHF를 나타내는 ICD-9 코드 428을 가질 것으로 예상되었습니다. 모델이 임상 조건에 과적 합하지 않도록하기 위해 양성 클래스에서 필터링했습니다.

기준 모델

기준 모델의 정확도는 85.8 %였습니다. 다음 그래프는 ROC 곡선을 보여줍니다.

기준 모델의 정확도는 85.8 %였습니다. 다음 그래프는 ROC 곡선을 보여줍니다.

다음 그래프는 혼동 행렬을 보여줍니다.

다음 그래프는 혼동 행렬을 보여줍니다.

Amazon HealthLake 증강 모델

Amazon HealthLake 증강 모델의 정확도는 89.1 %였습니다. 다음 그래프는 ROC 곡선을 보여줍니다.

The following graph shows the ROC curve.

다음 그래프는 혼동 행렬을 보여줍니다.

다음 그래프는 혼동 행렬을 보여줍니다.

Amazon HealthLake에서 추출한 기능을 추가하면 모델 정확도가 85 %에서 89 %로 향상되고 AUC도 0.86에서 0.89로 향상되었습니다. 두 모델에 대한 혼동 행렬을 살펴보면 위양성이 20에서 13으로 감소하고 위음성이 27에서 20으로 감소했습니다.

건강 관리를 최적화하는 것은 환자가 동료 및 올바른 코호트와 연결되도록하는 것입니다. 환자 데이터가 추가되거나 변경됨에 따라 전반적인 치료 품질 개선을 위해 위음성 및 긍정 식별자를 지속적으로 식별하고 줄이는 것이 중요합니다.

성능 향상을 더 잘 설명하기 위해 첫 번째 모델의 위음성 코호트에서 두 번째 모델에서 참 양성으로 이동 한 환자를 선택했습니다. 다음 이미지와 같이 첫 번째 및 두 번째 모델에 대해이 환자의 상위 건강 상태에 대한 단어 구름을 플로팅했습니다.

Amazon HealthLake의 기능 추가 전후에 환자의 건강 상태에는 분명한 차이가 있습니다. 모델 2의 단어 구름은 모델 1의 단어 구름보다 CHF를 나타내는 더 많은 의학적 상태로 더 풍부합니다. Amazon HealthLake에서 추출한이 환자의 구조화되지 않은 메모에 포함 된 데이터는이 환자가 위음성 범주에서 참 양성으로 이동하는 데 도움이되었습니다. .

이 수치는 MIMIC-III 환자의 하위 집합에서 사용한 합성 실험 데이터를 기반으로합니다. 환자 수가 많은 실제 시나리오에서는이 숫자가 다를 수 있습니다.

예 2 : 패혈증으로 진단 된 환자 그룹화

두 번째 실험에서는 패혈증 진단 양성인 500 명의 환자를 대상으로했습니다. 우리는 k- 평균 클러스터링을 사용하여 구조화 된 임상 기록을 기반으로 이러한 환자를 그룹화했습니다. 이것이 반복 가능한 패턴임을 보여주기 위해 실험 1에 설명 된 것과 동일한 기능 엔지니어링 기술을 선택했습니다. 비지도 학습 알고리즘을 구현했기 때문에 데이터를 훈련 및 테스트 데이터 세트로 나누지 않았습니다.

먼저 Elbow 방법을 사용하여 그룹화의 최적 클러스터 수를 분석하고 다음 그래프에 표시된 곡선에 도달했습니다.

이를 통해 XNUMX 개의 클러스터가 환자 그룹화에서 최적의 수임을 확인할 수있었습니다.

기준 모델

PCA (Principal Component Analysis)를 사용하여 입력 데이터의 차원을 XNUMX로 줄이고 다음 산점도를 플로팅했습니다.

다음은 각 군집의 환자 수입니다.

클러스터 1
환자 수 : 44

클러스터 2
환자 수 : 30

클러스터 3
환자 수 : 109

클러스터 4
환자 수 : 66

클러스터 5
환자 수 : 106

클러스터 6
환자 수 : 145

우리는 XNUMX 개 군집 중 최소 XNUMX 개가 환자가 뚜렷하게 겹치는 것을 발견했습니다. 즉, 구조화 된 임상 적 특징으로는 환자를 XNUMX 개 그룹으로 명확하게 나누기에 충분하지 않았습니다.

향상된 모델

향상된 모델의 경우 Amazon HealthLake에서 추출한대로 ICD-10 코드와 각 환자에 대한 해당 설명을 추가했습니다. 그러나 이번에는 환자 그룹의 명확한 분리를 볼 수있었습니다.

또한 XNUMX 개 클러스터에 걸친 분포의 변화를 확인했습니다.

클러스터 1
환자 수 : 54

클러스터 2
환자 수 : 154

클러스터 3
환자 수 : 64

클러스터 4
환자 수 : 44

클러스터 5
환자 수 : 109

클러스터 6
환자 수 : 75

보시다시피 환자에 대한 비정형 데이터의 특징을 추가하면 클러스터링 모델을 개선하여 환자를 XNUMX 개의 클러스터로 명확하게 분할 할 수 있습니다. 우리는 일부 환자가 클러스터를 가로 질러 이동하는 것을 보았는데, 이는 모델이 구조화되지 않은 임상 기록을 기반으로 해당 환자를 더 잘 인식하게되었음을 나타냅니다.

결론

이 게시물에서는 SageMaker를 사용하여 Amazon HealthLake의 데이터에 ML 모델을 쉽게 구축하는 방법을 시연했습니다. 또한 질병 예측 모델의 정확성을 높이기 위해 구조화되지 않은 임상 기록의 데이터를 보강하는 이점도 입증했습니다. 이 작업이 Amazon HealthLake에 저장 및 정규화 된 데이터로 SageMaker를 사용하여 ML 모델을 구축하고 임상 결과 예측을 위해 모델 성능을 개선하는 방법에 대한 예제를 제공하기를 바랍니다. Amazon HealthLake에 대해 자세히 알아 보려면 웹 사이트기술 문서 문의주시기 바랍니다.


저자에 관하여

우즈 왈 라탄 Amazon Web Services의 글로벌 의료 및 생명 과학 팀의 수석 기계 학습 전문가입니다. 그는 의료 영상, 구조화되지 않은 임상 텍스트, 유전체학, 정밀 의학, 임상 시험 및 치료 품질 향상과 같은 실제 산업 문제에 기계 학습 및 딥 러닝을 적용하는 작업을 수행합니다. 그는 가속화 된 훈련 및 추론을 위해 AWS 클라우드에서 기계 학습 / 딥 러닝 알고리즘을 확장하는 데 전문성을 가지고 있습니다. 여가 시간에는 음악을 듣고 (연주하며) 가족과 함께 계획에 없던 여행을 즐깁니다.

니 히르 차더 왈라 글로벌 의료 및 생명 과학 팀의 AI / ML 솔루션 설계자입니다. 그의 배경은 소프트웨어, 미디어, 자동차 및 의료와 같은 다양한 영역의 고객 문제에 대한 빅 데이터 및 AI 기반 솔루션을 구축하는 것입니다. 여가 시간에는 테니스를 치거나 코스모스에 대해 읽고 읽는 것을 즐깁니다.

Parminder Bhatia AWS Health AI의 과학 리더로 현재 임상 도메인을위한 딥 러닝 알고리즘을 대규모로 구축하고 있습니다. 그의 전문 지식은 낮은 리소스 설정, 특히 생물 의학, 생명 과학 및 의료 기술에서 기계 학습 및 대규모 텍스트 분석 기술에 있습니다. 그는 축구, 수상 스포츠, 가족 여행을 즐깁니다.

출처 : https://aws.amazon.com/blogs/machine-learning/building-predictive-disease-models-using-amazon-sagemaker-with-amazon-healthlake-normalized-data/

AI

Biden은 정부 내에서 AI를 홍보하는 트럼프의 정책을 두 배로 줄여야합니다.

화신

게재

on

1970 년 도트 매트릭스 글꼴의 이진 코드, 1010110과 XNUMX이 조난 된 미국 국기의 데이터 XNUMX 열로 희미 해졌습니다.


현 행정부는 정부의 AI 사용 촉진 정책을 유지해야 할뿐만 아니라이를 우선 순위로 삼아야합니다.더 읽기 출처 : https://venturebeat.com/2021/02/25/biden-should-double-down-on-trumps-policy-of-promoting-ai-within-government/

계속 읽기

AI

AWS Glue로 Amazon Personalize 설정

화신

게재

on

데이터는 마케팅, 영업 또는 제품과 같은 다양한 비즈니스 단위의 요구를 충족시키기 위해 다양한 방식으로 사용될 수 있습니다. 이 게시물에서는 데이터를 사용하여 최종 사용자 참여를 개선하기위한 개인화 된 권장 사항을 만드는 데 중점을 둡니다. 대부분의 전자 상거래 응용 프로그램은 개인화 된 권장 사항을 제공하는 데 사용할 수있는 엄청난 양의 고객 데이터를 사용합니다. 그러나 데이터가 정리되지 않았거나 귀중한 통찰력을 제공하기에 올바른 형식이 아닐 수 있습니다.

이 게시물의 목표는 AWS 접착제 JSON 데이터를 추출, 변환 및 정리 된 CSV 형식으로로드합니다. 그런 다음에서 제공하는 추천 엔진을 실행하는 방법을 보여줍니다. 아마존 개인화 고객에게 맞춤형 경험을 제공하기 위해 사용자 상호 작용 데이터에 Amazon Personalize의 결과 출력은 API에서 생성 할 수있는 권장 사항입니다.

일반적인 사용 사례는 사용자 항목 상호 작용 데이터를 수집하고 고객이 좋아할 수있는 유사한 제품 또는 제품을 제안하는 전자 상거래 플랫폼입니다. 이 게시물이 끝나면 정리되지 않은 JSON 데이터를 가져와 각 사용자가 상호 작용 한 제품을 기반으로 개인화 된 추천을 생성하여 최종 사용자에게 더 나은 경험을 제공 할 수 있습니다. 이 게시물의 목적은 다음을 참조하십시오. 사용자 항목 상호 작용 데이터 세트 이 솔루션을 구축합니다.

이 솔루션의 리소스로 인해 AWS 계정에 비용이 발생할 수 있습니다. 가격 정보는 다음을 참조하십시오. AWS Glue 요금Amazon Personalize 요금.

다음 다이어그램은 솔루션 아키텍처를 보여줍니다.

사전 조건

이 게시물에는 다음이 필요합니다.

버킷 생성에 대한 지침은 1 단계 : 첫 번째 S3 버킷 생성. 확인하십시오 Amazon Personalize 액세스 정책 연결.

이것은 매우 관대 한 정책입니다. 실제로 최소한의 권한을 사용하고 필요한 경우에만 액세스 권한을 부여하는 것이 가장 좋습니다. 역할 생성에 대한 지침은 2 단계 : AWS Glue에 대한 IAM 역할 생성.

AWS Glue를 사용하여 데이터 크롤링

AWS Glue를 사용하여 JSON 파일을 크롤링하여 데이터 스키마를 결정하고 AWS Glue 데이터 카탈로그에 메타 데이터 테이블을 생성합니다. 데이터 카탈로그에는 AWS Glue에서 ETL 작업의 소스 및 대상으로 사용되는 데이터에 대한 참조가 포함되어 있습니다. AWS Glue는 데이터를 쉽게 추출, 정리, 보강, 정규화 및로드 할 수있는 서버리스 데이터 준비 서비스입니다. 분석 또는 기계 학습 (ML)을 위해 데이터를 준비하는 데 도움이됩니다. 이 섹션에서는 CSV 파일이 필요한 Amazon Personalize를 위해 JSON 데이터를 준비하는 방법을 살펴 봅니다.

데이터에는 Amazon Personalize를 통해 반드시 실행해야하거나 실행해야하는 다른 열이있을 수 있습니다. 이 게시물에서 우리는 user-item-interaction.json 열만 포함하도록 AWS Glue를 사용하여 해당 데이터를 파일링하고 정리합니다. user_id, item_idtimestamp, CSV 형식으로 변환합니다. 크롤러를 사용하여 데이터 저장소에 액세스하고, 메타 데이터를 추출하고, 데이터 카탈로그에서 테이블 정의를 만들 수 있습니다. 자동으로 새 데이터를 검색하고 스키마 정의를 추출합니다. 이를 통해 데이터와 모델을 학습하는 동안 포함 할 내용을 더 잘 이해할 수 있습니다.

그리고, user-item-interaction JSON 데이터는 레코드 배열입니다. 크롤러는 데이터를 하나의 객체, 즉 배열로 취급합니다. 우리는 맞춤 분류 자 JSON 배열의 각 레코드를 기반으로하는 스키마를 만듭니다. 데이터가 레코드 배열이 아닌 경우이 단계를 건너 뛸 수 있습니다.

  1. AWS Glue 콘솔의 겉옷, 선택하다 분류 자.
  2. 선호하는 분류 자 추가.
  3. 분류 자 이름시작하다 json_classifier.
  4. 분류 자 유형, 고르다 JSON.
  5. JSON 경로, 입력 $[*].
  6. 선호하는 만들기.

생성을 선택합니다.

  1. 크롤러 페이지, 선택하다 크롤러 추가.
  2. 크롤러 이름, 입력 json_crawler.
  3. 맞춤 분류 자에서 생성 한 분류자를 추가합니다.

사용자 지정 분류 자의 경우 생성 한 분류자를 추가합니다.

  1. 선호하는 다음.
  2. 크롤러 소스 유형, 선택하다 데이터 저장소.
  3. 나머지는 모두 기본값으로두고 선택 다음.
  4. 데이터 저장소를 선택하십시오, JSON 데이터 파일의 Amazon S3 경로를 입력합니다.
  5. 선호하는 다음.

다음을 선택하십시오.

  1. 섹션 건너 뛰기 다른 데이터 저장소 추가.
  2. 에서 IAM 역할을 선택하십시오. 섹션에서 선택 기존 IAM 역할 선택.
  3. IAM 역할에서 이전에 생성 한 역할 (AWSGlueServiceRole-xxx).
  4. 선호하는 다음.

다음을 선택하십시오.

  1. 빈도는 그대로 둡니다. 주문형 실행.
  2. 산출 페이지에서 선택 데이터베이스 추가.
  3. 데이터베이스 이름, 입력 json_data.
  4. 선호하는 .
  5. 선호하는 지금 실행. 

다음으로 이동하여 크롤러를 실행할 수도 있습니다. 겉옷 페이지, 크롤러 선택 및 크롤러 실행.

AWS Glue를 사용하여 CSV에서 JSON으로 파일 변환

크롤러 실행이 완료되면 테이블 AWS Glue 콘솔의 페이지. 크롤러가 생성 한 테이블로 이동합니다. 여기에서 데이터 스키마를 볼 수 있습니다. Amazon Personalize 데이터에 사용할 필드를 기록해 둡니다. 이 게시물을 위해 우리는 user_id, item_id및 Amazon Personalize에 대한 타임 스탬프 열.

이 게시물에서는 Amazon Personalize에 대한 user_id, item_id 및 타임 스탬프 열을 유지하려고합니다.

이 시점에서 데이터베이스를 설정했습니다. Amazon Personalize에는 CSV 파일이 필요하므로 JSON 형식의 데이터를 Amazon Personalize에 필요한 데이터 만 포함하는 세 개의 정리 된 CSV 파일로 변환해야합니다. 다음 표는 Amazon Personalize에 포함 할 수있는 세 가지 CSV 파일의 예를 보여줍니다. 주목하는 것이 중요합니다. 상호 작용 데이터가 필요하지만 사용자 데이터 메타 데이터는 선택 사항입니다.

데이터 세트 유형 필수 입력 사항 예약 된 키워드
사용자

USER_ID (끈)

메타 데이터 필드 1 개

항목

ITEM_ID (끈)

메타 데이터 필드 1 개

CREATION_TIMESTAMP(긴)
상호 작용

USER_ID (끈)

ITEM_ID (끈)

TIMESTAMP (긴)

 

EVENT_TYPE (끈)

IMPRESSION (끈)

EVENT_VALUE (float, null)

모델을 학습시키기 위해 최소 1,000 개의 고유 한 결합 된 기록 및 이벤트 상호 작용이 있는지 확인하는 것도 중요합니다. 할당량에 대한 자세한 내용은 Amazon Personalize의 할당량.

데이터를 CSV로 저장하려면 데이터에 대해 AWS Glue 작업을 실행해야합니다. 작업은 AWS Glue에서 ETL 작업을 수행하는 비즈니스 로직입니다. 이 작업은 형식을 JSON에서 CSV로 변경합니다. 데이터 형식에 대한 자세한 내용은 입력 데이터 형식화.

  1. AWS Glue 대시 보드, 선택하다 AWS Glue Studio.

AWS Glue Studio AWS Glue ETL 작업을 생성, 실행 및 모니터링하기위한 사용하기 쉬운 그래픽 인터페이스입니다.

  1. 선호하는 작업 생성 및 관리.
  2. 고르다 그래프에 소스와 타겟이 추가되었습니다.
  3. 출처, 선택하다 S3.
  4. 목표, 선택하다 S3.
  5. 선호하는 만들기.

생성을 선택합니다.

  1. 데이터 소스 S3 버킷을 선택합니다.
  2. 데이터 소스 속성 – S3 탭에서 앞서 만든 데이터베이스와 테이블을 추가합니다.

데이터 원본 속성 – S3 탭에서 앞서 만든 데이터베이스와 테이블을 추가합니다.

  1. 변환 탭에서 드롭 할 상자를 선택하십시오. user_loginlocation.

이 게시물에서는 개인화 알고리즘을 실행하기 위해 추가 메타 데이터를 사용하지 않습니다.

이 게시물에서는 개인화 알고리즘을 실행하기 위해 추가 메타 데이터를 사용하지 않습니다.

  1. 데이터 대상 S3 버킷을 선택합니다.
  2. 데이터 대상 속성 – S3 탭, 형성, 선택하다 CSV.
  3. S3 대상 위치, 대상의 S3 경로를 입력하십시오. 

이 게시물에서는 JSON 파일에 사용한 것과 동일한 버킷을 사용합니다.

이 게시물에서는 JSON 파일에 사용한 것과 동일한 버킷을 사용합니다.

  1. 직업 세부 정보 페이지 이름, 작업 이름을 입력하십시오 (이 게시물의 경우 json_to_csv).
  2. IAM 역할에서 이전에 생성 한 역할을 선택합니다.

또한 다음을 포함해야합니다. AmazonS3FullAccess 이전 정책.

  1. 나머지 필드는 기본 설정으로 둡니다.

나머지 필드는 기본 설정으로 둡니다.

  1. 선호하는 찜하기.
  2. 선호하는 달리기.

작업이 실행되는 데 몇 분 정도 걸릴 수 있습니다.

이제 Amazon S3 버킷에 다음 섹션에서 사용하는 CSV 파일이 표시됩니다.

Amazon Personalize 설정

이제 Amazon Personalize에서 사용할 수있는 파일 형식으로 데이터 형식이 지정되었습니다. Amazon Personalize는 ML과 Amazon.com에서 20 년 이상의 추천 경험을 사용하는 완전 관리 형 서비스로, 실시간 개인화 된 제품 및 콘텐츠 추천과 타겟 마케팅 프로모션을 강화하여 최종 사용자 참여를 개선 할 수 있습니다. 이 섹션에서는 데이터를 사용하여 개인화 된 경험을 생성하는 Amazon Personalize 솔루션을 생성하는 방법을 살펴 봅니다.

  1. Amazon Personalize 콘솔의 새 데이터 세트 그룹, 선택하다 시작하기.
  2. 데이터 세트 그룹의 이름을 입력합니다.

데이터 세트 그룹에는 데이터 세트, 솔루션 및 이벤트 수집 API가 포함됩니다.

  1. 데이터 세트 이름을 입력하고 데이터를 기반으로 한 스키마 세부 정보를 입력합니다.

이 데이터 세트의 경우 다음 스키마를 사용합니다. 데이터 세트의 값에 따라 스키마를 변경할 수 있습니다.

{ "type": "record", "name": "Interactions", "namespace": "com.amazonaws.personalize.schema", "fields": [ { "name": "USER_ID", "type": "string" }, { "name": "ITEM_ID", "type": "string" }, { "name": "TIMESTAMP", "type": "long" } ], "version": "1.0"
}

  1. 선호하는 다음.
  2. Amazon S3에서 데이터를 가져 오려면 데이터 세트 가져 오기 작업 이름을 입력합니다.

IAM 서비스 역할에 Amazon S3 및 Amazon Personalize에 대한 액세스 권한이 있고 버킷에 올바른 권한이 있는지 확인하십시오. 버킷 정책.

  1. 데이터 경로를 입력합니다 (이전 섹션의 Amazon S3 버킷).
  2. 대시보드 데이터 세트 그룹 페이지에서 데이터 세트 업로드가져 오기 user-item-interactions 데이터 (사용자 데이터 및 항목 데이터는 선택 사항이지만 솔루션을 향상시킬 수 있음).

데이터 세트 그룹에 대한 대시 보드 페이지의 데이터 세트 업로드에서

우리는 예를 포함합니다 item.csv 에 파일을 GitHub 레포. 다음 스크린 샷은 항목 데이터의 예를 보여줍니다.

다음 스크린 샷은 항목 데이터의 예를 보여줍니다.

  1. 아래에 솔루션 생성에 대한 솔루션 교육, 선택하다 스타트.

솔루션은 선택한 알고리즘 또는 레시피와 함께 제공 한 데이터의 학습 된 모델입니다.

  1. 솔루션 이름, 입력 aws-user-personalization.
  2. 선호하는 다음.
  3. 검토 및 선택 .
  4. 대시 보드에서 캠페인 시작에 대한 캠페인 생성, 선택하다 스타트.

캠페인을 통해 애플리케이션은 솔루션 버전에서 권장 사항을 얻을 수 있습니다.

  1. 캠페인 이름, 이름을 입력하십시오.
  2. 생성 한 솔루션을 선택하십시오.
  3. 선호하는 캠페인 만들기.

이제 데이터 레이크의 데이터를 성공적으로 사용하고 다양한 권장 사항을 얻는 데 사용할 수있는 권장 사항 모델을 만들었습니다. 이 데이터 세트를 사용하면 데이터 세트의 다른 제품과 사용자의 상호 작용을 기반으로 가정 용품 제품에 대한 개인화 된 권장 사항을 얻을 수 있습니다.

Amazon Personalize를 사용하여 추천 받기

솔루션을 테스트하려면 작성한 캠페인으로 이동하십시오. 에서 캠페인 결과 테스트 섹션 아래 사용자 ID, 추천을받을 ID를 입력하세요. 상대 점수와 함께 ID 목록이 표시됩니다. 항목 ID는 권장되는 특정 제품과 관련이 있습니다.

다음 스크린 샷은 사용자 ID 검색을 보여줍니다. 1. 추천 항목 ID입니다. 59, 나무 액자와 관련이 있습니다. 항목 옆에 나열된 점수는 각 항목과 사용자의 예상 관련성을 제공합니다.

다음 스크린 샷은 사용자 ID 1에 대한 검색을 보여줍니다.

Amazon Personalize 점수에 대한 자세한 내용은 Amazon Personalize에서 추천 점수 소개.

권장 사항을 생성하려면 GetRecommendations or GetPersonalizedRanking API를 사용하는 AWS 명령 줄 인터페이스 (AWS CLI) 또는 언어 별 SDK. Amazon Personalize를 사용하면 사용자가 더 많은 실시간 사용 사례를 위해 항목을 클릭하면 권장 사항이 변경 될 수 있습니다. 자세한 내용은 실시간 권장 사항 얻기.

결론

AWS는 다양한 AI / ML분석 통찰력을 얻고 더 나은 비즈니스 결정을 안내하는 데 사용할 수있는 서비스입니다. 이 게시물에서는 추가 데이터 열이 포함 된 JSON 데이터 세트를 사용하고 AWS Glue를 사용하여 해당 데이터를 정리 및 변환했습니다. 또한 Amazon Personalize를 사용하여 고객에게 권장 사항을 제공하는 사용자 지정 모델을 구축했습니다.

Amazon Personalize에 대해 자세히 알아 보려면 개발자 가이드. 이 솔루션을 시도하고 의견에 질문이 있으면 알려주십시오.


저자에 관하여

조이 쉬 피스 와파조이시 피타 왈라 샌프란시스코에 기반을 둔 Amazon Web Services의 Startup Solutions Architect입니다. 그녀는 주로 스타트 업 고객과 협력하여 AWS에서 안전하고 확장 가능한 솔루션을 구축 할 수 있도록 지원합니다.

 

 

 

Sam TranSam Tran 시애틀에 기반을 둔 Amazon Web Services의 Startup Solutions Architect입니다. 그는 고객이 AWS에서 잘 설계된 솔루션을 생성하도록 돕는 데 중점을 둡니다.

출처 : https://aws.amazon.com/blogs/machine-learning/setting-up-amazon-personalize-with-aws-glue/

계속 읽기

AI

NortonLifeLock의 AI 기반 스마트 폰 앱은 사진에서 민감한 정보를 흐리게 처리합니다.

화신

게재

on


Xposure는 민감한 이미지를 식별하여 보안 저장소에 복사하고 원본을 삭제하거나 자리 표시 자로 대체합니다.더 읽기 출처 : https://venturebeat.com/2021/02/25/nortonlifelocks-ai-powered-smartphone-app-blurs-out-sensitive-information-in-photos/

계속 읽기

AI

창고 투자자는이 Robotics SPAC에 대해 무엇을 알아야합니까?

화신

게재

on

로봇 공학 회사 인 버크셔 그레이 (Berkshire Gray)는 특수 목적 인수 회사 (SPAC). 거래에 동의했습니다. Revolution Acceleration Acquisition Corp (NASDAQ : RAAC)에 현금을 주입하고 확장을 가속화합니다. 회사는 다음과 같은 솔루션을 제공함으로써 상당한 성장 기회를 앞두고 있습니다. 창고 자동화 및 물류 처리 센터.

큰 후원자

버크셔 그레이 (Berkshire Grey), 전직 홈 로봇 회사의 최고 기술 책임자가 2013 년에 설립했습니다. 아이 로봇 (NASDAQ : IRBT), 통합 개발 인공 지능 (AI) 및 전자 상거래, 소매 보충 및 물류를위한 로봇 솔루션. 회사의 소프트웨어 및 하드웨어는 다음의 비즈니스 운영을 자동화합니다. 산업 부동산 창고 및 물류 서비스 센터와 같은 것입니다. 이 제품은 소매 업체와 물류 회사가 전자 상거래의 폭발적인 성장을 지원하는 데 도움이됩니다.

Berkshire Grey의 기존 주주는 잘 알려진 기술 투자자 인 Khosla Ventures, New Enterprise Associates, Canaan Partners 및 SoftBank Group을 포함하며, 이들은 모두 RAAC와 결합하여 지분의 100 %를 롤링하고 있습니다. 한편, 회사는 SPAC 거래를 통해 몇 명의 추가 유명 투자자를 영입하고 있습니다. 여기에는 전적으로 헌신적 인 PIPE (공개 자본에 대한 민간 투자)가 포함됩니다. 차 마트 팔리 하 피티 야, 소셜 캐피탈 Hedosophia의 설립자 겸 CEO, 펀드 및 계정 관리 BlackRock (NYSE : BLK).

이 새로운 투자자들을 데려 오는 것 외에도 SPAC 거래는 Berkshire Gray에게 413 억 165 만 달러의 현금을 제공 할 것입니다. 여기에는 PIPE의 507 억 2.7 만 달러가 포함되어 현금 포지션이 XNUMX 억 XNUMX 만 달러로 올라갑니다. 이 거래는 로봇 회사의 자본 가치가 XNUMX 억 달러이며 부채가 없습니다. 그 결과 운영을 지원하고 신규 및 기존 성장 이니셔티브를 활용할 수있는 상당한 재정적 유연성이 있습니다.

엄청난 기회 세트

Berkshire Gray는 소매 업체 및 물류 운영자에게 로봇, 감지 시스템, 그 리핑 시스템 및 머신 비전 시스템을 제공하여 창고 및 주문 처리 센터를 자동화합니다. AI 지원 소프트웨어 및 하드웨어 솔루션을 활용하는 기업은 대부분 XNUMX ~ XNUMX 년 내에 투자 수익을 얻을 수있을 정도로 운영 효율성을 개선합니다. 그 때문에 빠른 속도로 성장하고 있습니다.

그러나 여전히 실행할 여지가 많습니다. 이 회사는 현재 창고의 약 5 %만이 자동화 된 것으로 추정합니다. 한편, 산업 부동산 산업은 매일 더 많은 것을 구축하고 있습니다. 선도에 의한 추정에 따르면 산업 REIT 프롤로그 (NYSE : PLD), 전자 상거래 회사는 매출 1.2 억 달러당 1 만 평방 피트의 유통 공간을 필요로합니다. 향후 몇 년 동안 온라인 판매가 빠른 속도로 성장할 것으로 예상됨에 따라 미국에서만 1 년까지 창고 공간을 2025 억 피트까지 추가 할 수 있습니다. 이는 몇 년 안에 Prologis의 전체 글로벌 발자국을 복제하는 것과 같습니다.

Berkshire Gray는 이미 강력한 주문 잔고를 보유하고 있으며 다국적 소매, 전자 상거래 및 패키지 물류 회사와 지속적으로 협상 중이며 2022 년까지 눈에 띄는 예상 수익을 제공합니다. 한편, 증가하는 서비스 수요를 충족하기 위해 지원 운영을 확대하고 있습니다. 새로운 솔루션을 구축하여 기존 및 미래 고객에게 부가 가치를 추가합니다.

창고를 미래로 가져옴

Berkshire Grey의 로봇 솔루션은 창고 및 주문 처리 센터를 자동화하여 소매 업체와 전자 상거래 회사가보다 효율적으로 운영하고 비용을 절감 할 수 있도록합니다. 이러한 이점은 더 낮은 비용, 더 빠른 배송, 더 나은 선택을 통해 소비자에게 전달되며 온라인 쇼핑으로의 전환을 더욱 가속화합니다. 이는 향후 더 많은 창고에 대한 필요성을 유발할 것이며 부동산 투자자 이 분야에 집중했습니다.

출처 : MillionAcres – 창고 투자자는이 Robotics SPAC에 대해 무엇을 알아야합니까?

출처 : https://spacfeed.com/what-should-warehouse-investors-know-about-this-robotics-spac?utm_source=rss&utm_medium=rss&utm_campaign=what-should-warehouse-investors-know-about-this-robotics- spac

계속 읽기
블록체인5 일 전

VeChain 검토 : 블록 체인 공급망 관리

PR 뉴스 와이어5 일 전

S3 AeroDefense, Honeywell Aerospace와 10 년 유통 계약 및 수리 라이센스 체결

Amb Crypto5 일 전

Ethereum, Uniswap, Dogecoin 가격 분석 : 21 월 XNUMX 일

블록체인4 일 전

UAE의 까르푸 쇼핑객이 블록 체인 기술을 사용하여 Farm-to-Shelf 정보를 얻습니다.

QEC 코드의 하드웨어 구현을 제안했습니다. 회로는 빨간색으로 강조 표시된 자이 레이터로 연결된 두 개의 Josephson 접합으로 구성됩니다. CREDIT M. Rymarz et al., Phys Rev X (2021), https://doi.org/10.1103/PhysRevX.11.011032(CC BY 4.0)
나노 기술4 일 전

내결함성 큐 비트를위한 청사진 : Forschungszentrum Jülich 및 RWTH Aachen University의 과학자들은 일반적인 오류로부터 자연스럽게 보호되는 양자 컴퓨터 용 회로를 설계했습니다.

자동차4 일 전

SpaceX Starship은 이번 주 후반에 세 번째가 매력인지 알아낼 준비가되었습니다.

QEC 코드의 하드웨어 구현을 제안했습니다. 회로는 빨간색으로 강조 표시된 자이 레이터로 연결된 두 개의 Josephson 접합으로 구성됩니다. CREDIT M. Rymarz et al., Phys Rev X (2021), https://doi.org/10.1103/PhysRevX.11.011032(CC BY 4.0)
나노 기술3 일 전

내결함성 큐 비트를위한 청사진 : Forschungszentrum Jülich 및 RWTH Aachen University의 과학자들은 일반적인 오류로부터 자연스럽게 보호되는 양자 컴퓨터 용 회로를 설계했습니다.

QEC 코드의 하드웨어 구현을 제안했습니다. 회로는 빨간색으로 강조 표시된 자이 레이터로 연결된 두 개의 Josephson 접합으로 구성됩니다. CREDIT M. Rymarz et al., Phys Rev X (2021), https://doi.org/10.1103/PhysRevX.11.011032(CC BY 4.0)
나노 기술4 일 전

내결함성 큐 비트를위한 청사진 : Forschungszentrum Jülich 및 RWTH Aachen University의 과학자들은 일반적인 오류로부터 자연스럽게 보호되는 양자 컴퓨터 용 회로를 설계했습니다.

PR 뉴스 와이어4 일 전

국제 HPV 인식의 날 서밋

QEC 코드의 하드웨어 구현을 제안했습니다. 회로는 빨간색으로 강조 표시된 자이 레이터로 연결된 두 개의 Josephson 접합으로 구성됩니다. CREDIT M. Rymarz et al., Phys Rev X (2021), https://doi.org/10.1103/PhysRevX.11.011032(CC BY 4.0)
나노 기술4 일 전

내결함성 큐 비트를위한 청사진 : Forschungszentrum Jülich 및 RWTH Aachen University의 과학자들은 일반적인 오류로부터 자연스럽게 보호되는 양자 컴퓨터 용 회로를 설계했습니다.

PR 뉴스 와이어4 일 전

1.81 년까지 2027 억 달러 규모의 항응고제 역전 약물 시장 규모 : Grand View Research, Inc.

AI4 일 전

해고당했습니다 : 동료가 축출 된 지 불과 몇 주 만에 윤리 부서 공동 대표가 퇴출되면서 Google AI가 붕괴 됨

자동차3 일 전

FAA, 세 번째 발사 및 착륙 시도를 위해 SpaceX Starship 프로토 타입 승인

나노 기술4 일 전

새로운 분리 된 림프관 루멘 관류 시스템을 사용한 나노 입자의 역학

QEC 코드의 하드웨어 구현을 제안했습니다. 회로는 빨간색으로 강조 표시된 자이 레이터로 연결된 두 개의 Josephson 접합으로 구성됩니다. CREDIT M. Rymarz et al., Phys Rev X (2021), https://doi.org/10.1103/PhysRevX.11.011032(CC BY 4.0)
나노 기술4 일 전

내결함성 큐 비트를위한 청사진 : Forschungszentrum Jülich 및 RWTH Aachen University의 과학자들은 일반적인 오류로부터 자연스럽게 보호되는 양자 컴퓨터 용 회로를 설계했습니다.

PR 뉴스 와이어4 일 전

IAR Systems, 선도적 인 임베디드 개발 도구에서 64 비트 Arm 코어 지원 도입

PR 뉴스 와이어4 일 전

Heritage Health Solutions, Inc., 새로운 사장 발표

PR 뉴스 와이어4 일 전

Famtech가 다가오는 해에 주요 트렌드가 될 이유

QEC 코드의 하드웨어 구현을 제안했습니다. 회로는 빨간색으로 강조 표시된 자이 레이터로 연결된 두 개의 Josephson 접합으로 구성됩니다. CREDIT M. Rymarz et al., Phys Rev X (2021), https://doi.org/10.1103/PhysRevX.11.011032(CC BY 4.0)
나노 기술3 일 전

내결함성 큐 비트를위한 청사진 : Forschungszentrum Jülich 및 RWTH Aachen University의 과학자들은 일반적인 오류로부터 자연스럽게 보호되는 양자 컴퓨터 용 회로를 설계했습니다.

나노 기술5 일 전

새로운 차원을 발견 한 광 주파수 빗

인기순