제퍼넷 로고

게놈 예측의 그래프 머신 러닝

시간

게놈 예측의 그래프 머신 러닝

이 작업은 유전 정보와 함께 유전자 관계를 활용하여 그래프 머신 러닝 알고리즘을 사용하여 유전자 특성을 예측하는 방법을 탐구합니다.


By 탄 응웬 뮬러, CSIRO 데이터 61

그림

님이 촬영 한 사진 데이비드 베커 on Unsplash

게놈 환경에서 대량의 개인과 유전체 구조의 복잡성은 귀중한 분석과 통찰력을 만듭니다 어려운. 딥 러닝은 유연성과 대규모 데이터 세트에서 복잡한 패턴을 발견 할 수있는 기능으로 널리 알려져 있습니다. 이러한 장점으로 유전체학 분야의 딥 러닝 떠오르고 있습니다.

그러한 응용 중 하나는 게놈 예측이며, 여기서 질병에 대한 감수성 또는 수율 관련 형질과 같은 개인의 특성은 게놈 정보를 사용하여 예측됩니다. 유전 적 특성과 게놈의 변이의 상관 관계를 이해하면 작물 육종 과정의 발전과 같은 많은 이점이있어 식량 안보를 향상시킬 수 있습니다.

이 기사에서 우리는 유전 적 특성과 함께 유전 적 관계를 이용하여 유전 적 특성을 예측할 수있는 방법을 탐구한다. 그래프 머신 러닝 알고리즘.

게놈 예측 상황에서의 딥 러닝

 
게놈 예측에서 전통적인 딥 러닝은 신경망의 입력 기능으로 단일 뉴클레오티드 다형성 (SNP)과 같은 개인의 게놈 정보를 사용합니다. SNP는 본질적으로 개인의 게놈에서 특정 위치에서 발생하는 차이입니다.

신경망은 개인의 게놈 정보, 예를 들어 SNP 및 관찰 된 특성을 관찰함으로써, 보이지 않는 개인의 특성을 게놈 정보로부터 예측하는 것을 배우게 될 것이다.

아래의 MLP (MultiLayer Perceptron) 네트워크를 예로 들어, 네트워크에는 SNP를 보유하는 입력 계층, 하나 이상의 숨겨진 계층 및 특성을 예측하는 출력 계층 (정량 또는 범주)이 포함됩니다. 그라디언트 디센트 최적화 알고리즘의 풍미 중 하나 (예 : 확률 적 그라디언트 디센트)를 사용하여 트레이닝 세트에서 각 개인의 예측 된 특성과 관찰 된 특성 사이의 평균 오차를 최소화하는 방식으로 매개 변수를 조정하여 네트워크를 훈련시킵니다.

그림

그림 1 : MLP 신경망은 SNP 기능을 입력, 두 개의 숨겨진 (완전히 연결된) 레이어 및 특성 값을 예측하는 출력 레이어로 사용하는 것을 보여줍니다.

이러한 게놈 정보와 함께, 개인은 또한 특성 예측 정확도의 개선에 유리할 수있는 유전자 관계를 갖는다. 우리의 질문은 그때입니다. 특성 예측을 위해 이러한 관계를 어떻게 활용할 수 있습니까?

특성 예측을위한 그래프 표현

 
그래프 머신 러닝은 예측 작업을 수행하기 위해 엔티티 (예 : SNP 기능)에 대한 고유 정보뿐만 아니라 엔티티 간의 관계를 활용할 수있는 도구입니다. 그래프로 모델링 할 수있는 데이터에 대한 딥 러닝의 확장입니다.

개인의 그래프는 개인을 노드로 나타내고, 이들 간의 관계를 에지로 나타냅니다. 가계도 기반의 친족 매트릭스는 개인 간의 관계로 묘사 될 수있는 것입니다. 이 엔×엔 매트릭스 N 개인 수, 가계도 포함 관계 계수 예를 들어 XNUMX 차 (부모-자녀, 형제 자매), XNUMX 차 (이모, 삼촌), XNUMX 차 (사촌, 조부모) 등 개인 간의 생물학적 관계를 나타냅니다.

가계 기반 관계를 통해 SNP와 같은 유전 적 특징을 가진 노드와 그 사이의 특정 정도를 나타내는 모서리로 구성된 그래프를 구성 할 수 있습니다. 이것은 특성 예측에 사용될 수있는 데이터의 자연스러운 표현입니다.

그림

그림 2는 자주색 밀짚 밀의 관계에 대한 그래프를 보여줍니다. 왼쪽의 그래프는 XNUMX 차 관계 만 포함합니다. 두 번째 그래프에서는 XNUMX 차 및 XNUMX 차 관계가 모두 고려되고 XNUMX 차 그래프는 XNUMX 차, XNUMX 차 및 XNUMX 차 관계가 포함 된 경우 연결 밀도를 나타냅니다.

유전 육종 (예 : 밀)과 같은 게놈 육종의 맥락에서 성장 조건은 또한 개인의 특성에 중요한 영향을 미칩니다. 즉, 다른 환경에서 자라는 동일한 종의 개체는 동일한 SNP를 공유하면서도 다른 성장 조건으로 인해 추가적인 환경 관련 특징과 특성을 가질 수 있습니다. 따라서 그래프에 이것을 추가하면 다음과 같이 유용 할 수 있습니다.

  1. 식물을 관찰하다 하나의 환경 조건 다른 환경에서 같은 식물의 특성을 예측하면서
  2. 자란 식물을 관찰하다 모든 종류의 환경 조건 동일한 환경에서 처리 된 완전히 다른 식물의 특성을 예측합니다.

이 정보를 그래프에 통합하는 한 가지 가능한 방법은 각 환경 조건에 대해 개인의 복제본을 생성하고 복제본 사이에 가장자리를 그려서 동일한 게놈의 복제본이라는 사실을 인코딩하는 것입니다.

그림

그림 3 : 그래프는 장기 및 단기 환경 처리에서 자주색 짚의 XNUMX 차 관계를 보여줍니다. 가장자리는 가계 관계 또는 복제본에 대한 연결을 나타냅니다.

그러나 개인의 복제품과 결합되는 모서리는 가계 관계의 모서리와 다른 의미의 의미를 갖습니다. 이를 고려하기 위해 가계도와 환경 조건이 서로 다른 두 가지 엣지 유형으로 단일 노드 유형으로 개인을 갖는 이종 그래프를 구성합니다.

그림

그림 4 : 두 가지 엣지 유형으로“낮은 날”환경 처리에서 자주색 짚은“가계도”는 첫 번째 순서 관계를 나타내고“조건”은 다른 환경에서 자란 복제본과의 연결을 나타냅니다.

지금까지 우리는 환경 조건과 가계 기반 관계를 가진 사람들을 그래프로 표현했습니다. 우리의 마지막 질문은 그때입니다. 신경망을 특성 예측을위한 그래프 구조화 된 데이터에 어떻게 적용 할 수 있는가?

그래프에서 특성 예측

 
Graph Convolutional Neural Networks 클래스에 속하는 GraphSAGE [1]은 그래프에 적용될 때 다운 스트림에 가장 적합한 각 노드에 대해 이러한 잠재 벡터 표현 ( "임베딩"이라고도 함)을 생성하는 방법을 학습하는 신경망입니다. 예측 작업 (예 : 노드 분류 또는 회귀). 이는 노드 기능을 이웃 노드의 집계 된 기능과 융합하여이를 수행합니다.

이를 개인 그래프에 적용하면 GraphSAGE 레이어가 각 개인에 대해 새로운 임베딩 벡터를 형성하여 개인의 특징을 직접 친척의 특징과 다른 환경의 복제본과 융합시킵니다.

쌓을 때 k GraphSAGE 레이어는 각 노드의 이웃을 확장하여 이웃의 임베딩을 통합합니다. k멀리 뛰어 예를 들어, 두 개의 GraphSAGE 레이어를 사용하면 각 개인에 대한 친척의 정보도 포함합니다.

모든 이웃의 특징을 융합하는 것이 아니라 확장 성을 위해 각 GraphSAGE 계층은 무작위로 선택된 이웃 집합의 특징 만 융합합니다. GraphSAGE를 사용하면 레이어 수와 레이어 당 이웃 수를 사용자 정의 할 수 있습니다.

마지막으로 이러한 노드 임베딩을 숨겨진 레이어 및 출력 레이어의 스택에 공급하면 신경망은 특성 예측에 최적의 임베딩을 찾는 방식으로 생성 된 노드 임베딩 및 모델의 매개 변수를 조정하는 방법을 배웁니다. MLP와 마찬가지로, 신경망의 출력 레이어에는 개인의 예측 된 특성이 포함됩니다.

그림

그림 5는 노드와 에지를 포함하는 입력 레이어 (인접 행렬), XNUMX 개의 GraphSAGE 레이어, XNUMX 개의 완전히 연결된 레이어 및 출력 레이어가있는 엔드 투 엔드 그래프 신경망을 보여줍니다.

이기종 그래프의 특성 예측을위한 HinSAGE

 
GraphSAGE 알고리즘은 동종 그래프에서만 작동하므로 노드의 정보와 그래프의“이웃”을 융합 할 때 노드 유형과 에지 유형을 구분하지 않습니다. 그러나, 이러한 구별은 의미 적으로 다른 관계이고 대응하는 노드 이웃도 다르기 때문에,도 4에 도시 된 가계 및 환경 조건 관계에 대해 바람직하다.

힌지 (이종 GraphSAGE) [2]는 GraphSAGE 알고리즘의 확장으로 그래프에서 노드와 에지의 이종성을 활용할 수 있습니다. HinSAGE는 이웃 유형을 에지 유형별로 선택하고 통합하는 이웃 집계 전략을 따릅니다. 결과적으로, 친척을 환경 의존 복제품과 융합시키는 대신 HinSAGE는 먼저 친척의 특징을 융합 한 다음 복제물에서 (또는 그 반대로) 융합하고, 결국에만 개인의 특징으로 결과를 융합합니다.

GraphSAGE 신경망과 마찬가지로 그래프 신경망의 아키텍처는 입력 레이어, 하나 이상의 HinSAGE 레이어, 하나 이상의 완전히 연결된 레이어 및 출력 레이어로 구성됩니다. 입력 계층은 개별 노드를 노드로하여 그래프를 유지하며 각 노드에는 SNP 및 환경 기능이 있습니다. 가계 및 환경 조건은 다른 유형의 가장자리로 표시됩니다.

그림

그림 6 : 입력 레이어, XNUMX 개의 HinSAGE 레이어, XNUMX 개의 완전히 연결된 레이어 및 출력 레이어가있는 종단 간 그래프 신경망. 입력 레이어는 가계도 (파란색 셀)와 환경 조건 (노란색 셀)의 두 가지 가장자리 유형이있는 인접 행렬을 보여줍니다.

새로운 잠재력

 
그래프 머신 러닝은 게놈 예측 환경에서 새로운 잠재력을 보여줍니다. 딥 러닝이 제공하는 유연성 및 확장 성의 이점과 함께 그래프 머신 러닝을 통해 예측 작업을 위해 데이터에서 사용 가능한 유용한 정보를 활용할 수 있습니다.

그 장점에도 불구하고, 그래프 머신 러닝은 최상의 성능을위한 튜닝 아키텍처 및 하이퍼 파라미터와 같은 딥 러닝과 유사한 과제에 직면 해 있으며 훈련을위한 충분한 데이터 세트가 필요합니다. 또한, 게놈 데이터의 그래프 표현 측면에서 추가 탐색이 필요합니다.

게놈 예측에 그래프 머신 러닝을 적용하는 작업은 진행중인 작업입니다. 그럼에도 불구하고, 그래프 머신 러닝은 게놈 예측 툴킷에서 그 자리를 차지할 유망한 도구입니다.

스텔라 그래프 Tensorflow 및 Keras에 최신 그래프 머신 러닝 알고리즘을 제공하는 오픈 소스 파이썬 라이브러리입니다. 시작하려면 다음을 실행하십시오. pip install stellargraph, 그리고 GraphSAGE 또는 힌지 시민.

덕분에 안나 레온 테바 이 프로젝트에 큰 기여를 한 유리 티 체스키 과 레다 칼 스케 블로그 게시물을 검토해 주셔서 감사합니다.

이 작품은 CSIRO의 Data61, 호주 최고의 디지털 리서치 네트워크이며이 리서치는 Science and Industry Endowment Fund의 지원을받습니다.

참고자료

  1. 큰 그래프에 대한 귀납적 표현 학습. WL Hamilton, R. Ying 및 J. Leskovec. 2017 년 신경 정보 처리 시스템 (NIPS)
  2. 이기종 그래프힌지) : Data61의 GraphSAGE 일반화. StellarGraph 릴리즈 v0.10.0, 2020

 
바이오 : 탄 응웬 뮬러 호주 최고의 디지털 리서치 네트워크 인 CSIRO의 Data61의 선임 소프트웨어 엔지니어입니다.

실물. 허가를 받아 다시 게시했습니다.

관련 :

출처 : https://www.kdnuggets.com/2020/06/graph-machine-learning-genomic-prediction.html

spot_img

최신 인텔리전스

spot_img

우리와 함께 채팅

안녕하세요! 어떻게 도와 드릴까요?