Xây dựng mô hình dự đoán bệnh bằng Amazon SageMaker với dữ liệu chuẩn hóa của Amazon HealthLake

Trong bài đăng này, chúng tôi sẽ hướng dẫn bạn các bước để xây dựng các mô hình máy học (ML) trong Amazon SageMaker với dữ liệu được lưu trữ trong Sức Khỏe AmazonHồ sử dụng hai mô hình bệnh dự đoán ví dụ mà chúng tôi đã đào tạo về dữ liệu mẫu bằng cách sử dụng MIMIC-III tập dữ liệu. Bộ dữ liệu này được phát triển bởi phòng thí nghiệm MIT về Sinh lý học tính toán và bao gồm dữ liệu chăm sóc sức khỏe không xác định liên quan đến khoảng 60,000 lượt nhập viện ICU. Bộ dữ liệu bao gồm nhiều thuộc tính về bệnh nhân như nhân khẩu học, các dấu hiệu sinh tồn và thuốc men cùng với các ghi chú lâm sàng của họ. Trước tiên, chúng tôi đã phát triển các mô hình bằng cách sử dụng dữ liệu có cấu trúc như nhân khẩu học, dấu hiệu sinh tồn và thuốc men. Sau đó, chúng tôi đã tăng cường các mô hình này bằng dữ liệu bổ sung được trích xuất và chuẩn hóa từ các ghi chú lâm sàng để kiểm tra và so sánh hiệu suất của chúng. Trong cả hai thử nghiệm này, chúng tôi đã nhận thấy sự cải thiện về hiệu suất của mô hình khi được mô hình hóa dưới dạng bài toán học có giám sát (phân loại) hoặc học không giám sát (phân cụm). Chúng tôi trình bày những phát hiện của chúng tôi và thiết lập các thí nghiệm trong bài đăng này.

Tại sao nhiều phương thức?

Phương thức có thể được định nghĩa là phân loại đầu vào/đầu ra cảm giác độc lập duy nhất giữa máy tính và con người. Ví dụ, chúng ta có thể nhìn thấy đồ vật và nghe thấy âm thanh bằng cách sử dụng các giác quan của mình. Đây có thể được coi là hai phương thức riêng biệt. Bộ dữ liệu đại diện cho nhiều phương thức được phân loại là bộ dữ liệu đa phương thức. Chẳng hạn, hình ảnh có thể bao gồm các thẻ giúp tìm kiếm và sắp xếp chúng, và dữ liệu văn bản có thể chứa hình ảnh để giải thích nội dung trong hình ảnh. Khi các bác sĩ đưa ra quyết định lâm sàng, nó thường dựa trên thông tin thu thập được từ nhiều phương thức dữ liệu chăm sóc sức khỏe. Một bác sĩ xem xét các quan sát của bệnh nhân, tiền sử bệnh, các bản quét và thậm chí cả các đặc điểm thể chất của bệnh nhân trong quá trình thăm khám để đưa ra chẩn đoán xác định. Các mô hình ML cần tính đến điều này khi cố gắng đạt được hiệu suất trong thế giới thực. Bài Xây dựng nền tảng tìm kiếm hình ảnh y tế trên AWS cho biết cách bạn có thể kết hợp các tính năng từ hình ảnh y tế và các báo cáo X quang tương ứng của chúng để tạo nền tảng tìm kiếm hình ảnh y tế. Thách thức với việc tạo các mô hình như vậy là tiền xử lý các bộ dữ liệu đa phương thức này và trích xuất các tính năng thích hợp từ chúng.

Amazon HealthLake giúp đào tạo các mô hình trên dữ liệu đa phương thức dễ dàng hơn

Amazon HealthLake là dịch vụ đủ điều kiện HIPAA cho phép các nhà cung cấp dịch vụ chăm sóc sức khỏe, công ty bảo hiểm sức khỏe và công ty dược phẩm lưu trữ, chuyển đổi, truy vấn và phân tích dữ liệu sức khỏe trên Đám mây AWS ở quy mô petabyte. Là một phần của quá trình chuyển đổi, Amazon HealthLake gắn thẻ và lập chỉ mục dữ liệu phi cấu trúc bằng các mô hình ML chuyên dụng. Các thẻ và chỉ mục này có thể được sử dụng để truy vấn và tìm kiếm cũng như hiểu các mối quan hệ trong dữ liệu để phân tích.

Khi bạn xuất dữ liệu từ Amazon HealthLake, nó sẽ thêm một tài nguyên có tên là DocumentReference đến đầu ra. Tài nguyên này bao gồm các thực thể lâm sàng (Giống như thuốc, tình trạng y tế, giải phẫu và Thông tin sức khỏe được bảo vệ (PHI)), mã RxNorm cho thuốc và mã ICD10 cho tình trạng y tế được tự động lấy từ các ghi chú phi cấu trúc về bệnh nhân. Đây là những thuộc tính bổ sung về bệnh nhân được nhúng trong các phần không có cấu trúc của hồ sơ bệnh án của họ và phần lớn sẽ bị bỏ qua khi phân tích tiếp theo. Việc kết hợp dữ liệu có cấu trúc từ EHR với các thuộc tính này sẽ cung cấp một bức tranh tổng thể hơn về bệnh nhân và tình trạng của họ. Để giúp xác định giá trị của các thuộc tính này, chúng tôi đã tạo ra một vài thử nghiệm xung quanh dự đoán kết quả lâm sàng.

Tổng quan kiến trúc

Sơ đồ sau đây minh họa kiến trúc cho các thí nghiệm của chúng tôi.

Bạn có thể xuất dữ liệu đã chuẩn hóa thành một Dịch vụ lưu trữ đơn giản của Amazon (Amazon S3) sử dụng API xuất. Sau đó, chúng tôi sử dụng Keo AWS để thu thập thông tin và xây dựng danh mục dữ liệu. Danh mục này được chia sẻ bởi amazon Athena để chạy các truy vấn trực tiếp từ dữ liệu đã xuất từ Colossus. Athena cũng chuẩn hóa các tệp định dạng JSON thành các hàng và cột để dễ dàng truy vấn. Các DocumentReference tệp JSON tài nguyên được xử lý riêng để trích xuất dữ liệu được lập chỉ mục bắt nguồn từ các phần không có cấu trúc của hồ sơ bệnh nhân. Các tập tin bao gồm một extension thẻ có đầu ra JSON phân cấp bao gồm các thuộc tính bệnh nhân. Có nhiều cách để xử lý tệp này (như sử dụng trình phân tích cú pháp JSON dựa trên Python hoặc thậm chí là đối sánh mẫu và biểu thức chính quy dựa trên chuỗi). Để biết cách triển khai ví dụ, hãy xem phần Kết nối Athena với HealthLake trong bài Các ứng dụng sức khỏe dân số với Amazon HealthLake - Phần 1: Phân tích và giám sát bằng Amazon QuickSight.

Thiết lập mẫu

Truy cập bộ dữ liệu MIMIC-III yêu cầu bạn phải yêu cầu truy cập. Là một phần của bài đăng này, chúng tôi không phân phối bất kỳ dữ liệu nào mà thay vào đó cung cấp các bước thiết lập để bạn có thể sao chép các thử nghiệm này khi bạn có quyền truy cập vào MIMIC-III. Chúng tôi cũng công bố kết luận và phát hiện của chúng tôi từ kết quả.

Đối với thử nghiệm đầu tiên, chúng tôi xây dựng mô hình phân loại bệnh nhị phân để dự đoán bệnh nhân bị suy tim sung huyết (CHF). Chúng tôi đo lường hiệu suất của nó bằng cách sử dụng độ chính xác, ROC và ma trận nhầm lẫn cho cả hồ sơ bệnh nhân có cấu trúc và không có cấu trúc. Đối với thử nghiệm thứ hai, chúng tôi nhóm một nhóm bệnh nhân thành một số nhóm cố định và trực quan hóa việc phân tách cụm trước và sau khi thêm hồ sơ bệnh nhân không có cấu trúc. Đối với cả hai thử nghiệm của mình, chúng tôi xây dựng một mô hình cơ sở và so sánh nó với mô hình đa phương thức, trong đó chúng tôi kết hợp dữ liệu có cấu trúc hiện có với các tính năng bổ sung (mã ICD-10 và mã Rx-Norm) trong tập huấn luyện của mình.

Những thử nghiệm này không nhằm mục đích tạo ra một mô hình tiên tiến nhất trên các bộ dữ liệu trong thế giới thực; mục đích của nó là để chứng minh cách bạn có thể sử dụng các tính năng được xuất từ Amazon Healthlake cho các mô hình đào tạo trên hồ sơ bệnh nhân có cấu trúc và phi cấu trúc nhằm cải thiện hiệu suất mô hình tổng thể của bạn.

Tính năng và chuẩn hóa dữ liệu

Chúng tôi đã sử dụng nhiều tính năng liên quan đến các cuộc gặp gỡ của bệnh nhân để huấn luyện các mô hình của mình. Điều này bao gồm nhân khẩu học của bệnh nhân (giới tính, tình trạng hôn nhân), điều kiện lâm sàng, thủ tục, thuốc men và quan sát. Bởi vì mỗi bệnh nhân có thể có nhiều lần khám bao gồm nhiều quan sát, tình trạng lâm sàng, quy trình và thuốc men, nên chúng tôi đã chuẩn hóa dữ liệu và chuyển đổi từng đặc điểm này thành một danh sách. Điều này cho phép chúng tôi có được một bộ đào tạo với tất cả các tính năng này (dưới dạng danh sách) cho từng bệnh nhân.

Tương tự, đối với các tính năng phi cấu trúc mà Amazon Healthlake đã chuyển đổi thành DocumentReference tài nguyên, chúng tôi đã trích xuất các mã ICD-10 và mã Rx-Norm (sử dụng các phương pháp được mô tả trong kiến trúc) và chuyển đổi chúng thành các vectơ đặc trưng.

Tính năng kỹ thuật và mô hình

Đối với các thuộc tính phân loại trong tập dữ liệu của chúng tôi, chúng tôi đã sử dụng bộ mã hóa nhãn để chuyển đổi các thuộc tính thành biểu diễn số. Đối với tất cả các thuộc tính danh sách khác, chúng tôi đã sử dụng các vectơ tần số tài liệu nghịch đảo thuật ngữ (FI-IDF). Tập dữ liệu nhiều chiều này sau đó được xáo trộn và chia thành 80% tập huấn luyện và 20% tập kiểm tra để huấn luyện và đánh giá các mô hình tương ứng. Để đào tạo mô hình của chúng tôi, chúng tôi đã sử dụng thư viện tăng cường độ dốc XGBoost. Chúng tôi xem xét hầu hết các siêu tham số mặc định và không thực hiện bất kỳ điều chỉnh siêu tham số nào, bởi vì mục tiêu của chúng tôi chỉ là đào tạo một mô hình cơ sở với các hồ sơ bệnh nhân có cấu trúc và sau đó cho thấy sự cải thiện đối với các kết quả đó bằng các tính năng phi cấu trúc. Việc áp dụng các siêu đường kính tốt hơn hoặc thay đổi sang các phương pháp mô hình hóa và kỹ thuật tính năng khác có thể cải thiện các kết quả này.

Ví dụ 1: Chẩn đoán bệnh nhân suy tim sung huyết

Đối với thí nghiệm đầu tiên, chúng tôi đã lấy 500 bệnh nhân được chẩn đoán CHF dương tính. Đối với nhóm tiêu cực, chúng tôi chọn ngẫu nhiên 500 bệnh nhân không có chẩn đoán CHF. Chúng tôi đã loại bỏ các tình trạng lâm sàng khỏi nhóm bệnh nhân dương tính có liên quan trực tiếp đến CHF. Ví dụ, tất cả bệnh nhân trong nhóm dương tính dự kiến sẽ có mã ICD-9 là 428, viết tắt của CHF. Chúng tôi đã lọc nó ra khỏi lớp tích cực để đảm bảo mô hình không quá phù hợp với tình trạng lâm sàng.

Mô hình cơ sở

Mô hình cơ sở của chúng tôi có độ chính xác là 85.8%. Biểu đồ sau đây cho thấy đường cong ROC.

Biểu đồ sau đây cho thấy ma trận nhầm lẫn.

Mô hình tăng cường Amazon HealthLake

Mô hình tăng cường Amazon HealthLake của chúng tôi có độ chính xác là 89.1%. Biểu đồ sau đây cho thấy đường cong ROC.

Biểu đồ sau đây cho thấy đường cong ROC.

Biểu đồ sau đây cho thấy ma trận nhầm lẫn.

Việc thêm các tính năng được trích xuất từ Amazon HealthLake cho phép chúng tôi cải thiện độ chính xác của mô hình từ 85% lên 89% và cả AUC từ 0.86 lên 0.89. Nếu bạn nhìn vào ma trận nhầm lẫn của hai mô hình, tỷ lệ dương tính giả giảm từ 20 xuống 13 và âm tính giả giảm từ 27 xuống 20.

Tối ưu hóa việc chăm sóc sức khỏe là đảm bảo bệnh nhân được kết hợp với đồng nghiệp của họ và nhóm thuần tập phù hợp. Khi dữ liệu bệnh nhân được thêm vào hoặc thay đổi, điều quan trọng là phải liên tục xác định và giảm số nhận dạng dương tính và âm tính giả để cải thiện tổng thể chất lượng chăm sóc.

Để giải thích rõ hơn về những cải tiến về hiệu suất, chúng tôi đã chọn một bệnh nhân từ nhóm thuần tập âm tính giả trong mô hình đầu tiên đã chuyển sang dương tính thực sự trong mô hình thứ hai. Chúng tôi đã vẽ một đám mây từ cho các tình trạng y tế hàng đầu của bệnh nhân này đối với mô hình thứ nhất và thứ hai, như thể hiện trong các hình ảnh sau đây.

Có sự khác biệt rõ ràng giữa tình trạng bệnh lý của bệnh nhân trước và sau khi bổ sung các tính năng từ Amazon HealthLake. Đám mây từ cho mô hình 2 phong phú hơn, với nhiều tình trạng y tế cho thấy CHF hơn so với từ cho mô hình 1. Dữ liệu được nhúng trong các ghi chú phi cấu trúc cho bệnh nhân này do Amazon HealthLake trích xuất đã giúp bệnh nhân này chuyển từ danh mục âm tính giả sang dương tính thật .

Những con số này dựa trên dữ liệu thử nghiệm tổng hợp mà chúng tôi đã sử dụng từ một nhóm nhỏ bệnh nhân MIMIC-III. Trong một tình huống thực tế với số lượng bệnh nhân cao hơn, những con số này có thể khác nhau.

Ví dụ 2: Phân nhóm bệnh nhân được chẩn đoán nhiễm trùng huyết

Đối với thí nghiệm thứ hai, chúng tôi lấy 500 bệnh nhân được chẩn đoán nhiễm trùng huyết dương tính. Chúng tôi đã nhóm những bệnh nhân này trên cơ sở hồ sơ lâm sàng có cấu trúc của họ bằng cách sử dụng phân cụm k-means. Để chứng minh rằng đây là một mẫu có thể lặp lại, chúng tôi đã chọn các kỹ thuật kỹ thuật tính năng giống như được mô tả trong thử nghiệm 1. Chúng tôi không chia dữ liệu thành tập dữ liệu huấn luyện và thử nghiệm vì chúng tôi đang triển khai thuật toán học không giám sát.

Trước tiên, chúng tôi đã phân tích số lượng cụm tối ưu của nhóm bằng phương pháp Elbow và đi đến đường cong được hiển thị trong biểu đồ sau.

Điều này cho phép chúng tôi xác định rằng sáu cụm là con số tối ưu trong nhóm bệnh nhân của chúng tôi.

Mô hình cơ sở

Chúng tôi đã giảm kích thước của dữ liệu đầu vào bằng cách sử dụng Phân tích thành phần chính (PCA) xuống còn hai và vẽ biểu đồ phân tán sau.

Sau đây là số lượng bệnh nhân trên mỗi cụm:

Cụm 1
Số bệnh nhân: 44

Cụm 2
Số bệnh nhân: 30

Cụm 3
Số bệnh nhân: 109

Cụm 4
Số bệnh nhân: 66

Cụm 5
Số bệnh nhân: 106

Cụm 6
Số bệnh nhân: 145

Chúng tôi thấy rằng ít nhất bốn trong số sáu cụm có sự chồng chéo rõ rệt về bệnh nhân. Điều đó có nghĩa là các đặc điểm lâm sàng có cấu trúc không đủ để phân chia rõ ràng bệnh nhân thành sáu nhóm.

mô hình nâng cao

Đối với mô hình nâng cao, chúng tôi đã thêm mã ICD-10 và mô tả tương ứng của chúng cho từng bệnh nhân như được trích xuất từ Amazon HealthLake. Tuy nhiên, lần này, chúng ta có thể thấy sự tách biệt rõ ràng giữa các nhóm bệnh nhân.

Chúng tôi cũng nhận thấy sự thay đổi trong phân phối trên sáu cụm:

Cụm 1
Số bệnh nhân: 54

Cụm 2
Số bệnh nhân: 154

Cụm 3
Số bệnh nhân: 64

Cụm 4
Số bệnh nhân: 44

Cụm 5
Số bệnh nhân: 109

Cụm 6
Số bệnh nhân: 75

Như bạn có thể thấy, việc thêm các tính năng từ dữ liệu phi cấu trúc cho bệnh nhân cho phép chúng tôi cải thiện mô hình phân cụm để phân chia rõ ràng bệnh nhân thành XNUMX cụm. Chúng tôi thậm chí còn thấy rằng một số bệnh nhân di chuyển qua các cụm, cho thấy rằng mô hình đã trở nên tốt hơn trong việc nhận ra những bệnh nhân đó dựa trên hồ sơ lâm sàng phi cấu trúc của họ.

Kết luận

Trong bài đăng này, chúng tôi đã trình bày cách bạn có thể dễ dàng sử dụng SageMaker để xây dựng các mô hình ML trên dữ liệu của mình trong Amazon HealthLake. Chúng tôi cũng đã chứng minh những lợi thế của việc tăng cường dữ liệu từ các ghi chú lâm sàng phi cấu trúc để cải thiện độ chính xác của các mô hình dự đoán bệnh. Chúng tôi hy vọng nội dung công việc này cung cấp cho bạn các ví dụ về cách xây dựng mô hình ML bằng SageMaker với dữ liệu của bạn được lưu trữ và chuẩn hóa trong Amazon HealthLake, đồng thời cải thiện hiệu suất mô hình để dự đoán kết quả lâm sàng. Để tìm hiểu thêm về Amazon HealthLake, vui lòng kiểm tra trang mạng và tài liệu kỹ thuật để biết thêm thông tin chi tiết.

Về các tác giả

Ujjwal Ratan là Chuyên gia học máy chính trong nhóm Khoa học đời sống và chăm sóc sức khỏe toàn cầu tại Amazon Web Services. Anh ấy làm việc về ứng dụng học máy và học sâu cho các vấn đề trong ngành trong thế giới thực như hình ảnh y tế, văn bản lâm sàng phi cấu trúc, bộ gen, y học chính xác, thử nghiệm lâm sàng và cải thiện chất lượng chăm sóc. Anh ấy có chuyên môn trong việc mở rộng các thuật toán machine learning/deep learning trên đám mây AWS để tăng tốc đào tạo và suy luận. Trong thời gian rảnh rỗi, anh ấy thích nghe (và chơi) nhạc và tham gia các chuyến du lịch ngoài dự kiến cùng gia đình.

Nihir Chadderwala là Kiến trúc sư giải pháp AI/ML trong nhóm Khoa học đời sống và chăm sóc sức khỏe toàn cầu. Nền tảng của anh ấy là xây dựng các giải pháp dựa trên Dữ liệu lớn và AI cho các vấn đề của khách hàng trong nhiều lĩnh vực như phần mềm, phương tiện truyền thông, ô tô và chăm sóc sức khỏe. Khi rảnh rỗi, anh ấy thích chơi quần vợt, xem và đọc về Cosmos.

Parminder Bhatia là nhà lãnh đạo khoa học trong AWS Health AI, hiện đang xây dựng các thuật toán học sâu cho lĩnh vực lâm sàng trên quy mô lớn. Chuyên môn của anh ấy là học máy và các kỹ thuật phân tích văn bản quy mô lớn trong môi trường ít tài nguyên, đặc biệt là trong y sinh, khoa học đời sống và công nghệ chăm sóc sức khỏe. Anh ấy thích chơi bóng đá, thể thao dưới nước và đi du lịch cùng gia đình.

Nguồn: https://aws.amazon.com/blogs/machine-learning/building-predictive-disease-models-using-amazon-sagemaker-with-amazon-healthlake-normalized-data/

Trí thông minh dữ liệu tạo

Xây dựng mô hình dự đoán bệnh bằng cách sử dụng Amazon SageMaker với Amazon HealthLake dữ liệu chuẩn hóa

Tại sao nhiều phương thức?

Amazon HealthLake giúp đào tạo các mô hình trên dữ liệu đa phương thức dễ dàng hơn

Tổng quan kiến trúc