제퍼넷 로고

더 나은 컴퓨터 비전을 위한 더 간단한 경로

시간

24 년 2022 월 XNUMX 일 (나노 워크 뉴스) 머신러닝 모델이 의료 이미지에서 암을 식별하는 등의 작업을 완료하려면 먼저 모델을 훈련해야 합니다. 이미지 분류 모델 학습에는 일반적으로 대규모 데이터세트에 수집된 수백만 개의 예시 이미지를 모델에 표시하는 작업이 포함됩니다. 그러나 실제 이미지 데이터를 사용하면 실용적이고 윤리적인 문제가 발생할 수 있습니다. 이미지가 저작권법에 위배되거나, 개인의 사생활을 침해하거나, 특정 인종 또는 민족 집단에 대해 편견을 가질 수 있습니다. 이러한 함정을 피하기 위해 연구자들은 이미지 생성 프로그램을 사용하여 모델 훈련을 위한 합성 데이터를 생성할 수 있습니다. 그러나 효과적인 훈련 데이터를 생성할 수 있는 이미지 생성 프로그램을 직접 설계하려면 전문 지식이 필요한 경우가 많기 때문에 이러한 기술은 제한적입니다.  이미지 생성 프로그램 연구원들은 이미지 분류를 위한 컴퓨터 비전 모델을 사전 학습시키기 위해 간단하고 선별되지 않은 합성 이미지 생성 프로그램의 대규모 컬렉션을 사용했습니다. 연구원들은 각각 단 몇 줄의 코드로 구성된 프로그램을 선별하거나 변경하지 않았습니다. 이 이미지에서 각 행의 이미지 세트는 3개의 서로 다른 이미지 생성 프로그램을 사용하여 생성되었습니다. (이미지 : 연구원 제공) MIT, MIT-IBM Watson AI Lab 등의 연구원들은 다른 접근 방식을 취했습니다. 특정 훈련 작업을 위한 맞춤형 이미지 생성 프로그램을 설계하는 대신 인터넷에서 공개적으로 사용 가능한 21,000개의 프로그램 데이터 세트를 수집했습니다. 그런 다음 이 대규모 기본 이미지 생성 프로그램 모음을 사용하여 컴퓨터 비전 모델을 교육했습니다. 단순한 색상과 질감을 표현하는 다양한 이미지를 만들어 내는 프로그램입니다. 연구원들은 각각 단 몇 줄의 코드로 구성된 프로그램을 선별하거나 변경하지 않았습니다. 이 대규모 프로그램 데이터 세트로 훈련한 모델은 합성적으로 훈련된 다른 모델보다 이미지를 더 정확하게 분류했습니다. 그리고 그들의 모델은 실제 데이터로 훈련된 모델의 성능보다 낮았지만, 연구원들은 데이터세트의 이미지 프로그램 수가 증가하면 모델 성능도 향상되어 더 높은 정확도를 달성할 수 있는 경로가 드러났다는 것을 보여주었습니다. “사람들이 조작해야 하는 작은 프로그램 세트를 사용하는 것보다 선별되지 않은 많은 프로그램을 사용하는 것이 실제로 더 낫다는 것이 밝혀졌습니다. 데이터는 중요하지만 우리는 실제 데이터 없이도 꽤 멀리 갈 수 있다는 것을 보여주었습니다.”라고 컴퓨터 과학 및 인공 지능 연구소(CSAIL)에서 근무하는 전기 공학 및 컴퓨터 과학(EECS) 대학원생이자 이 기술을 설명하는 논문(“표상학습을 위한 절차적 이미지 프로그램”). 공동 저자로는 CSAIL의 EECS 대학원생인 Tongzhou Wang; MIT-IBM Watson AI Lab의 수석 과학자이자 관리자인 Rogerio Feris; Antonio Torralba, 전기 공학 및 컴퓨터 과학 분야의 Delta Electronics 교수이자 CSAIL 회원입니다. EECS 및 CSAIL 부교수인 선임 저자 Phillip Isola; JPMorgan Chase Bank 및 Xyla, Inc.의 다른 연구자들과 함께. 이 연구는 신경 정보 처리 시스템 컨퍼런스에서 발표될 예정입니다. 

사전 훈련에 대한 재고

기계 학습 모델은 일반적으로 사전 훈련됩니다. 즉, 먼저 하나의 데이터세트에 대해 훈련되어 다른 작업을 처리하는 데 사용할 수 있는 매개변수를 구축하는 데 도움이 됩니다. X선 분류 모델은 훨씬 작은 실제 X선 데이터 세트를 사용하여 실제 작업을 위해 훈련되기 전에 합성으로 생성된 이미지의 거대한 데이터 세트를 사용하여 사전 훈련될 수 있습니다. 이 연구자들은 이전에 소수의 이미지 생성 프로그램을 사용하여 모델 사전 훈련을 위한 합성 데이터를 생성할 수 있다는 것을 보여주었지만 합성 이미지가 실제 이미지의 특정 속성과 일치하도록 프로그램을 신중하게 설계해야 했습니다. 이로 인해 기술을 확장하기가 어려워졌습니다. 새로운 작업에서는 대신 선별되지 않은 이미지 생성 프로그램의 막대한 데이터 세트를 사용했습니다. 그들은 인터넷에서 21,000개의 이미지 생성 프로그램을 수집하는 것부터 시작했습니다. 모든 프로그램은 간단한 프로그래밍 언어로 작성되었으며 몇 개의 코드 조각으로 구성되어 있으므로 이미지를 빠르게 생성합니다. Baradad는 "이 프로그램은 우리가 관심 있는 속성 중 일부를 가진 이미지를 생성하기 위해 전 세계 개발자에 의해 설계되었습니다. 이 프로그램은 일종의 추상 미술처럼 보이는 이미지를 생성합니다"라고 설명합니다. 이러한 간단한 프로그램은 매우 빠르게 실행될 수 있으므로 연구원은 모델을 훈련하기 위해 미리 이미지를 생성할 필요가 없습니다. 연구원들은 이미지를 생성하는 동시에 모델을 훈련할 수 있어 프로세스가 간소화된다는 사실을 발견했습니다. 그들은 감독 및 감독되지 않는 이미지 분류 작업 모두를 위해 컴퓨터 비전 모델을 사전 훈련하기 위해 방대한 이미지 생성 프로그램 데이터 세트를 사용했습니다. 지도 학습에서는 이미지 데이터에 라벨이 지정되는 반면, 비지도 학습에서는 모델이 라벨 없이 이미지를 분류하는 방법을 학습합니다.

정확도 향상

사전 훈련된 모델을 합성 데이터를 사용하여 사전 훈련된 최첨단 컴퓨터 비전 모델과 비교했을 때 모델이 더 정확했습니다. 즉, 이미지를 올바른 범주에 더 자주 넣었다는 의미입니다. 정확도 수준은 실제 데이터로 훈련된 모델보다 여전히 낮았지만, 그들의 기술은 실제 데이터로 훈련된 모델과 합성 데이터로 훈련된 모델 사이의 성능 격차를 38% 줄였습니다. “중요한 점은 수집하는 프로그램 수에 따라 성능이 대수적으로 확장된다는 점을 보여줍니다. 성능이 포화되지 않으므로 더 많은 프로그램을 수집하면 모델 성능이 더욱 향상됩니다. 따라서 접근 방식을 확장할 수 있는 방법이 있습니다.”라고 Manel은 말합니다. 또한 연구원들은 모델 정확도에 기여하는 요소를 밝히기 위한 노력의 일환으로 사전 훈련에 각 개별 이미지 생성 프로그램을 사용했습니다. 그들은 프로그램이 더 다양한 이미지 세트를 생성할 때 모델의 성능이 더 좋아진다는 것을 발견했습니다. 또한 전체 캔버스를 채우는 장면이 포함된 다채로운 이미지가 모델 성능을 가장 향상시키는 경향이 있음을 발견했습니다. 이제 이 사전 훈련 접근 방식의 성공을 입증했으므로 연구원들은 자신의 기술을 텍스트와 이미지를 포함하는 다중 모드 데이터와 같은 다른 유형의 데이터로 확장하려고 합니다. 또한 그들은 이미지 분류 성능을 향상시키는 방법을 계속해서 모색하고 싶어합니다. “실제 데이터로 훈련된 모델과는 여전히 격차가 있습니다. 이는 우리 연구에 다른 사람들이 따르기를 바라는 방향을 제시합니다.”라고 그는 말합니다.
spot_img

최신 인텔리전스

spot_img