제퍼넷 로고

더 나은 AI 모델 구축을 위한 "블랙 박스" 풀기

시간

신용 카드 활동에서 금융 사기를 감지하거나 의료 이미지에서 암을 식별하기 위해 딥 러닝 모델이 실제 세계에 배치될 때 종종 인간을 능가할 수 있습니다.

그러나 이러한 딥 러닝 모델은 정확히 무엇을 학습합니까? 예를 들어, 임상 이미지에서 피부암을 발견하도록 훈련된 모델이 실제로 암 조직의 색상과 질감을 학습합니까, 아니면 다른 특징이나 패턴에 플래그를 지정합니까?

이러한 강력한 기계 학습 모델은 일반적으로 다음을 기반으로 합니다. 인공 신경망 예측을 위해 데이터를 처리하는 수백만 개의 노드를 가질 수 있습니다. 그 복잡성으로 인해 연구자들은 종종 이러한 모델을 "블랙 박스"라고 부릅니다. 모델을 만드는 과학자조차도 후드 아래에서 진행되는 모든 것을 이해하지 못하기 때문입니다.

Stefanie Jegelka는 "블랙 박스" 설명에 만족하지 않습니다. MIT 전기 공학 및 컴퓨터 과학과의 신임 부교수인 Jegelka는 이러한 모델이 무엇을 배울 수 있고 어떻게 작동하는지 이해하고 이러한 모델에 특정 사전 정보를 구축하는 방법을 이해하기 위해 딥 러닝을 깊이 파고들고 있습니다.

“결국 딥 러닝 모델이 학습할 내용은 수많은 요인에 따라 달라집니다. 그러나 실제로 관련된 이해를 구축하면 더 나은 모델을 설계하는 데 도움이 되며 모델 내부에서 진행되는 상황을 이해하여 모델을 배포할 수 있는 시기와 그렇지 않은 시기를 알 수 있습니다. 이는 매우 중요합니다.”라고 CSAIL(Computer Science and Artificial Intelligence Laboratory)과 IDSS(Institute for Data, Systems, and Society)의 회원이기도 한 Jegelka는 말합니다.

Jegelka는 입력 데이터가 그래프 형태일 때 기계 학습 모델을 최적화하는 데 특히 관심이 있습니다. 그래프 데이터는 특정 문제를 제기합니다. 예를 들어 데이터의 정보는 개별 노드와 에지에 대한 정보와 구조(무엇이 무엇에 연결되어 있는지)로 구성됩니다. 또한 그래프에는 예를 들어 동일한 그래프가 항상 동일한 예측으로 이어지도록 기계 학습 모델에서 준수해야 하는 수학적 대칭이 있습니다. 이러한 대칭을 기계 학습 모델로 구축하는 것은 일반적으로 쉽지 않습니다.

예를 들어 분자를 생각해보십시오. 분자는 원자에 해당하는 정점과 그들 사이의 화학 결합에 해당하는 가장자리가 있는 그래프로 나타낼 수 있습니다. 제약 회사는 딥 러닝을 사용하여 많은 분자의 속성을 신속하게 예측하여 실험실에서 물리적으로 테스트해야 하는 수를 좁힐 수 있습니다.

Jegelka는 그래프 데이터를 효과적으로 입력 및 출력으로 사용할 수 있는 수학적 기계 학습 모델을 구축하는 방법을 연구합니다. 이 경우에는 분자의 화학적 특성을 예측합니다. 이것은 분자의 특성이 그 안에 있는 원자뿐만 아니라 이들 사이의 연결에 의해서도 결정되기 때문에 특히 어렵습니다.  

그래프에 대한 기계 학습의 다른 예로는 트래픽 라우팅, 칩 설계 및 추천 시스템이 있습니다.

모델을 훈련시키는 데 사용되는 데이터가 모델이 실제로 보는 데이터와 종종 다르기 때문에 이러한 모델을 설계하는 것은 훨씬 더 어렵습니다. 아마도 이 모델은 작은 분자 그래프 또는 트래픽 네트워크를 사용하여 훈련되었을 수 있지만 일단 배포되면 표시되는 그래프가 더 크거나 더 복잡합니다.

이 경우 연구원은 이 모델이 무엇을 배울 것으로 기대할 수 있으며 실제 데이터가 다른 경우 실제로 여전히 작동할까요?

Jegelka는 "컴퓨터 과학의 일부 경도 문제로 인해 모델이 모든 것을 학습할 수는 없지만 학습할 수 있는 것과 학습할 수 없는 것은 모델을 설정하는 방법에 따라 다릅니다."라고 말합니다.

그녀는 알고리즘 및 이산 수학에 대한 열정과 기계 학습에 대한 열정을 결합하여 이 질문에 접근합니다.

나비에서 생물정보학까지

Jegelka는 독일의 작은 마을에서 자랐고 고등학생 때 과학에 관심을 갖게 되었습니다. 지원 교사는 그녀에게 국제 과학 대회에 참가하도록 격려했습니다. 그녀와 그녀의 미국 및 싱가포르 팀원들은 나비에 대해 세 가지 언어로 만든 웹사이트로 상을 받았습니다.

“우리 프로젝트를 위해 지역 응용 과학 대학에서 주사 전자 현미경으로 날개 이미지를 촬영했습니다. 나는 또한 Mercedes Benz에서 고속 카메라를 사용할 기회를 얻었습니다. 이 카메라는 일반적으로 연소 엔진을 촬영했습니다. 이 카메라는 나비 날개의 움직임을 슬로우 모션 비디오로 캡처하는 데 사용했습니다. 그때 처음으로 과학과 탐험을 접하게 되었습니다.”라고 그녀는 회상합니다.

생물학과 수학 모두에 흥미를 느낀 Jegelka는 튀빙겐 대학교와 오스틴에 있는 텍사스 대학교에서 생물정보학을 공부하기로 결정했습니다. 그녀는 Georgetown University에서 전산 신경과학 인턴십을 포함하여 학부생으로서 연구를 수행할 몇 가지 기회가 있었지만 어떤 경력을 따라야 할지 확신하지 못했습니다.

대학 마지막 해에 돌아왔을 때 예겔카는 튀빙겐에 있는 막스 플랑크 연구소에서 연구 조교로 일하고 있던 두 명의 룸메이트와 함께 이사했습니다.

“그들은 기계 학습에 대해 연구하고 있었고, 그것은 나에게 정말 멋져 보였습니다. 학사 학위 논문을 써야 했기 때문에 학원에 저를 위한 프로젝트가 있는지 물었습니다. Max Planck Institute에서 기계 학습 작업을 시작했고 정말 좋았습니다. 나는 그곳에서 많은 것을 배웠고 연구하기에 좋은 곳이었습니다.”라고 그녀는 말합니다.

그녀는 Max Planck Institute에 머물면서 석사 논문을 완성한 후 Max Planck Institute와 Swiss Federal Institute of Technology에서 기계 학습 박사 학위를 취득했습니다..

박사 과정 동안 그녀는 이산 수학의 개념이 기계 학습 기술을 개선하는 데 어떻게 도움이 될 수 있는지 탐구했습니다.

학습 모델 교육

Jegelka는 머신 러닝에 대해 더 많이 배울수록 모델이 어떻게 행동하는지 이해하고 이 행동을 조종하는 방법에 더 흥미를 느꼈습니다.

“머신 러닝으로 많은 일을 할 수 있지만 올바른 모델과 데이터가 있는 경우에만 가능합니다. 데이터에 던지면 작동하는 블랙박스가 아닙니다. 실제로 그것, 그 속성, 그리고 모델이 배우고 수행하기를 원하는 것에 대해 생각해야 합니다.”라고 그녀는 말합니다.

University of California at Berkeley에서 박사후 과정을 마친 Jegelka는 연구에 매료되어 학계에서 경력을 쌓기로 결정했습니다. 그녀는 2015년 조교수로 MIT 교수진에 합류했습니다.

“처음부터 MIT에 대해 정말 좋아했던 점은 사람들이 연구와 창의성에 깊은 관심을 갖고 있다는 점이었습니다. 그것이 제가 MIT에 대해 가장 감사하게 생각하는 것입니다. 이곳 사람들은 연구의 독창성과 깊이를 중요하게 생각합니다.”라고 그녀는 말합니다.

창의성에 초점을 맞춘 덕분에 Jegelka는 광범위한 주제를 탐구할 수 있었습니다.

그녀는 MIT의 다른 교수진과 협력하여 생물학, 이미징, 컴퓨터 비전 및 재료 과학 분야의 기계 학습 응용 프로그램을 연구합니다.

그러나 Jegelka를 진정으로 이끄는 것은 기계 학습의 기본 사항과 가장 최근에는 견고성 문제를 조사하는 것입니다. 종종 모델은 교육 데이터에서 잘 작동하지만 약간 다른 데이터에 배포되면 성능이 저하됩니다. 모델에 사전 지식을 구축하면 보다 신뢰할 수 있지만 모델이 성공하는 데 필요한 정보와 모델을 구축하는 방법을 이해하는 것은 그렇게 간단하지 않다고 그녀는 말합니다.

그녀는 또한 이미지 분류를 위한 기계 학습 모델의 성능을 개선하는 방법을 모색하고 있습니다.

이미지 분류 모델은 휴대폰의 안면 인식 시스템에서 소셜 미디어의 가짜 계정을 식별하는 도구에 이르기까지 어디에나 있습니다. 이러한 모델은 교육을 위해 막대한 양의 데이터가 필요하지만 사람이 수백만 개의 이미지에 수동 레이블을 지정하는 데 비용이 많이 들기 때문에 연구원은 대신 레이블이 지정되지 않은 데이터 세트를 사용하여 모델을 사전 교육하는 경우가 많습니다.

그런 다음 이러한 모델은 나중에 특정 작업을 위해 미세 조정될 때 학습한 표현을 재사용합니다.

이상적으로 연구자들은 모델이 사전 교육 중에 최대한 많이 학습하여 해당 지식을 다운스트림 작업에 적용할 수 있기를 원합니다. 그러나 실제로 이러한 모델은 한 이미지에는 햇빛이 있고 다른 이미지에는 그늘이 있는 것과 같은 몇 가지 간단한 상관 관계만 학습하고 이러한 "바로 가기"를 사용하여 이미지를 분류합니다.

“우리는 이것이 사전 훈련의 표준 기법인 '대조 학습'의 문제라는 것을 이론적으로나 경험적으로 보여주었습니다. 그러나 모델에 표시하는 데이터 유형을 수정하여 모델이 나타내는 정보의 종류에 영향을 미칠 수 있음도 보여줍니다. 이것은 모델이 실제로 무엇을 하는지 이해하기 위한 한 단계입니다.”라고 그녀는 말합니다.

연구자들은 여전히 ​​딥 러닝 모델 내에서 일어나는 모든 일이나 모델이 학습하는 내용과 작동 방식에 어떻게 영향을 미칠 수 있는지에 대한 세부 사항을 이해하지 못하지만 Jegelka는 이러한 주제를 계속 탐구하기를 기대합니다.

“종종 기계 학습에서 우리는 실제로 어떤 일이 일어나는 것을 보고 이론적으로 이해하려고 노력합니다. 이것은 엄청난 도전입니다. 더 잘할 수 있도록 실제로 보는 것과 일치하는 이해를 구축하고 싶습니다. 우리는 아직 이것을 이해하는 초기 단계에 불과합니다.”라고 그녀는 말합니다.

실험실 밖에서 Jegelka는 음악, 예술, 여행, 자전거 타기의 팬입니다. 하지만 요즘 그녀는 여가 시간의 대부분을 취학 전의 딸과 함께 보내는 것을 즐깁니다.

<!–
–>

spot_img

최신 인텔리전스

spot_img