제퍼넷 로고

의료 데이터로 연합 학습 프로젝트를 구현하는 방법

시간

의료 데이터로 연합 학습 프로젝트를 구현하는 방법
님이 촬영 한 사진 나탈리야 바이트케비치
 

연합 학습(FL)은 단일 서버에서 데이터를 중앙 집중화할 필요 없이 여러 분산 장치 또는 기관에서 모델을 교육할 수 있는 기계 학습 접근 방식입니다. 모바일 장치 키보드에서 자율 차량, 석유 굴착 장치에 이르기까지 여러 산업 분야에서 사용되었습니다. 민감한 환자 데이터가 관련되고 개인의 프라이버시를 보호하기 위해 엄격한 규정을 따라야 하는 의료 산업에서 특히 유용합니다. 이 블로그 게시물에서는 의료 데이터로 연합 학습 프로젝트를 구현하기 위한 몇 가지 실용적인 단계에 대해 설명합니다.

첫째, 프로젝트의 요구 사항과 제약 조건을 이해하는 것이 중요합니다. 여기에는 작업할 데이터 유형과 개인의 프라이버시를 보호하기 위해 따라야 하는 규정에 대한 이해가 포함됩니다. 프로젝트에 데이터를 사용하는 데 필요한 승인 및 권한(예: IRB(Institutional Review Board) 승인)을 확보해야 할 수도 있습니다.

다음으로 데이터를 준비해야 합니다. 여기에는 서로 다른 임상 시스템에서 데이터를 추출하고, 서로 다른 사이트에서 데이터를 조화시키고(데이터가 다르게 인코딩되고, 형식이 다르고, 각 사이트에서 다른 분포를 가질 수 있기 때문에), 데이터에 주석을 달고(때때로 의사가 데이터를 검토하고 주석 달기) 데이터를 교육, 테스트 및 검증을 위한 파티션으로 나눕니다. 정확한 결과를 보장하기 위해 데이터가 적절하게 균형을 이루고 전체 인구를 대표하는지 확인하는 것이 중요합니다.

데이터가 준비되면 사용할 제휴 학습 프레임워크를 선택해야 합니다. 다음을 포함하여 몇 가지 옵션을 사용할 수 있습니다. 엔비디아 플레어, TensorFlow 페더레이션, 파이 시프트, 오픈FL. 이러한 각 프레임워크에는 고유한 기능 세트가 있으므로 프로젝트의 요구 사항에 가장 적합한 프레임워크를 선택하는 것이 중요합니다. NVIDIA FLARE는 기본 ML 프레임워크(PyTorch, TensorFlow, sklearn 등)와 함께 작동할 수 있는 강력한 프레임워크를 제공합니다.

다음으로 제휴 학습 프로젝트를 위한 인프라를 설정해야 합니다. 여기에는 결과 모델을 호스팅하고 FL 프로세스를 오케스트레이션할 클라우드 서버를 선택하고, 각 참여 사이트에 서버를 설정하고, 필요한 소프트웨어를 설치하고, 해당 서버에서 로컬 데이터 세트에 액세스할 수 있도록 하고, 서버가 다음과 통신할 수 있는지 확인하는 작업이 포함됩니다. 당신의 클라우드 서버. 선택한 FL 프레임워크에 따라 데이터의 개인 정보 보호 및 보안을 보장하기 위해 각 사이트의 로컬 서버와 클라우드 서버 간에 보안 통신 채널을 설정해야 할 수도 있습니다.

인프라가 구축되면 교육 프로세스를 시작할 수 있습니다. 여기에는 FL 교육을 조정하는 클라우드 서버에 모델 아키텍처를 제공하는 작업이 포함됩니다. 즉, 로컬 데이터를 사용하여 로컬 모델을 교육하는 참여 장치 또는 기관에 모델을 보내는 것입니다. 그런 다음 로컬 모델은 서버로 다시 전송되며 여기에서 집계되어 글로벌 모델을 업데이트하는 데 사용됩니다. 이 프로세스는 전역 모델이 허용 가능한 수준의 정확도로 수렴될 때까지 반복됩니다.

마지막으로 모델의 성능을 평가하고 프로젝트의 요구 사항을 충족하는지 확인하는 것이 중요합니다. 여기에는 별도의 데이터 세트에서 모델을 테스트하거나 모델을 사용하여 실제 데이터에 대한 예측이 포함됩니다. 많은 경우에 여기에는 모델 성능을 최적화하기 위해 모델 아키텍처, 기본 데이터 세트 및/또는 전처리에 대한 반복 작업도 포함됩니다.

이러한 단계는 복잡해 보일 수 있지만 다행히도 다음과 같은 FL 플랫폼이 있습니다. Rhino 건강 이 전체 프로세스를 간단하고 매끄럽게 만듭니다. 강력한 종단 간 FL 플랫폼은 인프라 프로비저닝을 처리하고 강력한 보안 기능을 제공하며 데이터 전처리에서 모델 교육 및 결과 분석에 이르는 연합 프로젝트의 모든 단계를 최대의 유연성으로 지원하여 데이터 과학자가 자신의 데이터 분석/처리 도구 및 선택한 ML/FL 프레임워크. 통합 프로젝트를 중앙 집중식 데이터를 사용하는 프로젝트와 훨씬 더 유사하게 만듭니다.

의료 혁신의 미래는 분석 및 모델 교육을 위해 대량의 데이터에 액세스할 수 있는지 여부에 달려 있습니다. 연합 학습은 데이터 프라이버시를 위험에 빠뜨리지 않고 데이터에 액세스할 수 있는 강력한 도구이므로 환자 치료를 개선하고 의료 분야를 발전시킬 수 있는 유망한 방법입니다. 이러한 단계를 따르고 환자의 개인 정보를 보호하기 위해 필요한 예방 조치를 취함으로써 연합 학습 프로젝트를 성공적으로 구현하고 의료 산업에 긍정적인 영향을 미칠 수 있습니다.
 
 
유발 바로르 Rhino Health의 CTO이자 공동 설립자입니다. 그는 소프트웨어 엔지니어링, 관리 및 스타트업(성공적으로 인수된 스타트업 설립 포함) 분야에서 거의 20년의 경험을 가지고 있습니다. 지난 3년 동안 그는 XNUMX개의 다른 회사에서 AI 기반 생산 시스템을 구축하는 일을 했습니다. 저는 인공 지능의 깊은 도전, 고객에게 상당한 영향을 미치는 생산 시스템 구축의 흥분, 실제 시스템에서 AI를 작동시키는 독특한 단면을 즐깁니다.
 

spot_img

최신 인텔리전스

spot_img