제퍼넷 로고

로봇 훈련 방법 (AI 및 슈퍼 컴퓨터 사용)

시간

알링턴에있는 텍사스 대학교에 컴퓨터 공학 및 공학과의 조교수로 입사하고 그곳에 로봇 비전 연구소를 설립하기 전에 William Beksi는 세계 최대의 소비자 용 로봇 생산 업체 인 iRobot에서 인턴으로 일했습니다 (주로 룸바 로봇 진공을 통해) .

구축 된 환경을 탐색하려면 로봇이 로케일과 상호 작용하는 방법을 감지하고 결정할 수 있어야합니다. 이 회사의 연구원들은 로봇이 사물에 대해 학습하도록 훈련하기 위해 기계 및 딥 러닝을 사용하는 데 관심이 있었지만 그렇게하려면 대규모 이미지 데이터 세트가 필요합니다. 방에 대한 수백만 개의 사진과 비디오가 있지만 로봇 진공 청소기의 유리한 지점에서 촬영 된 것은 없습니다. 인간 중심의 관점에서 이미지를 사용하여 훈련하려는 노력은 실패했습니다.

Beksi의 연구는 로봇 공학, 컴퓨터 비전 및 사이버 물리 시스템에 중점을 둡니다. 특히, 기계가 물리적 세계와의 상호 작용을 통해 학습하고 고급 작업을 실행하는 데 필요한 기술을 자율적으로 습득 할 수 있도록하는 알고리즘을 개발하는 데 관심이 있습니다.

몇 년 후, 현재 360 명의 PhD 컴퓨터 과학 학생을 포함한 연구 그룹과 함께 Beksi는 Roomba 교육 문제를 회상하고 해결책을 모색하기 시작했습니다. 일부 사람들이 사용하는 수동 접근 방식은 고가의 XNUMX도 카메라를 사용하여 환경 (임대 된 에어 비앤비 주택 포함)을 캡처하고 사용자 지정 소프트웨어를 사용하여 이미지를 전체로 다시 연결하는 것입니다. 그러나 Beksi는 수동 캡처 방법이 성공하기에는 너무 느릴 것이라고 믿었습니다.

대신 그는 새로운 데이터의 '생성자'가 '차별 자'를 속일 수있을 때까지 두 개의 신경망이 게임에서 서로 경쟁하는 GAN (generative adversarial networks)으로 알려진 딥 러닝의 한 형태를 찾았습니다. 일단 훈련을 받으면, 그러한 네트워크는 약간 다른 형태의 의자 나 테이블 또는 차량이 있지만 여전히 사람과 로봇이 인식 할 수있는 치수를 가진 식별 가능한 물체를 사용하여 가능한 방이나 실외 환경을 무한히 만들 수있게합니다. 및 특성.

"이러한 객체를 교란시키고, 새 위치로 이동하고, 다른 조명, 색상 및 질감을 사용한 다음 데이터 세트에서 사용할 수있는 훈련 이미지로 렌더링 할 수 있습니다."라고 그는 설명했습니다. "이 접근 방식은 잠재적으로 로봇을 훈련 할 수있는 무한한 데이터를 제공 할 것입니다."

연구에 참여한 Beksi 그룹의 대학원생 인 Mohammad Samiul Arshad는 "이러한 개체를 수동으로 설계하는 데는 엄청난 양의 자원과 시간이 소요되는 반면, 제대로 훈련되면 생성 네트워크를 통해 몇 초 만에 만들 수 있습니다."라고 말했습니다.

합성 장면을위한 개체 생성

몇 번의 초기 시도 끝에 Beksi는 사실적인 전체 장면을 만드는 그의 꿈이 현재 도달 할 수 없다는 것을 깨달았습니다. "우리는 한 걸음 물러서서 현재 연구를 살펴보고 더 작은 규모로 시작하여 환경에서 단순한 개체를 생성하는 방법을 결정했습니다."

Beksi와 Arshad는 3 년 3 월 국제 2020D 비전 컨퍼런스 (3DV)에서 비지도 모드에서 조밀 한 컬러 포인트 클라우드를 생성하는 최초의 조건부 생성 적대 네트워크 인 PCGAN을 발표했습니다. 그들의 논문,“A Progressive Conditional Generative Adversarial Network for Generating Dense and Coloured 3D Point Clouds”는 네트워크가 교육 세트 (CAD 모델 데이터베이스 인 ShapeNetCore에서 파생 됨)에서 학습하고 XNUMXD 데이터 분포를 모방하여 여러 해상도에서 미세한 세부 사항을 가진 컬러 포인트 클라우드를 생성 할 수 있음을 보여줍니다.

"이러한 CAD 모델 데이터 세트에서 합성 개체를 생성 할 수있는 작업이있었습니다."라고 그는 말했습니다. "하지만 아직 아무도 색을 다룰 수 없었습니다."

다양한 모양에 대한 방법을 테스트하기 위해 Beksi의 팀은 실험을 위해 의자, 테이블, 소파, 비행기 및 오토바이를 선택했습니다. 이 도구를 사용하면 연구원은 딥 러닝 시스템이 생성하는 객체 세트의 가능한 버전에 거의 무제한에 접근 할 수 있습니다.

“우리 모델은 먼저 저해상도에서 물체의 기본 구조를 학습하고 점차 높은 수준의 세부 사항을 향해 구축합니다.”라고 그는 설명했습니다. “객체 부품과 색상 간의 관계 (예 : 의자 / 테이블의 다리는 동일한 색상이고 좌석 / 상단은 대조적 임)도 네트워크에 의해 학습됩니다. 우리는 작게 시작하여 오브젝트로 작업하고 로봇 공학에 매우 유용한 전체 합성 장면 생성을 수행하기 위해 계층 구조를 구축하고 있습니다.”

그들은 각 클래스에 대해 5,000 개의 무작위 샘플을 생성하고 다양한 방법을 사용하여 평가를 수행했습니다. 그들은 현장의 다양한 공통 지표를 사용하여 포인트 클라우드 형상과 색상을 모두 평가했습니다. 그들의 결과는 PCGAN이 서로 다른 객체 클래스 배열에 대해 고품질 포인트 클라우드를 합성 할 수 있음을 보여주었습니다.

심투리얼

Beksi가 작업중인 또 다른 문제는 구어체로 'sim2real'로 알려져 있습니다. "실제 훈련 데이터와 합성 훈련 데이터가 있으며 AI 시스템이나 로봇이이 데이터로부터 학습하는 방법에 미묘한 차이가있을 수 있습니다."라고 그는 말했습니다. " 'Sim2real'은 마찰, 충돌, 중력과 같은 장면의 물리학을 캡처하고 광선 또는 광자 추적을 사용하여 이러한 차이를 정량화하고 시뮬레이션을보다 사실적으로 만드는 방법을 살펴 봅니다.”

Beksi 팀의 다음 단계는 로봇에 소프트웨어를 배포하고 시뮬레이션과 실제 도메인 차이와 관련하여 어떻게 작동하는지 확인하는 것입니다.

PCGAN 모델의 훈련은 TACC의 Maverick 2 딥 러닝 리소스에 의해 가능해졌으며 Beksi와 그의 학생들은 UT 시스템의 연구원에게 컴퓨팅 리소스를 제공하는 University of Texas Cyberinfrastructure Research (UTRC) 프로그램을 통해 액세스 할 수있었습니다. 14 개 기관.

"더 많은 포인트와 세부 사항을 포함하기 위해 해상도를 높이려면 계산 비용이 증가합니다."라고 그는 말했습니다. "저희 연구실에는 하드웨어 리소스가 없기 때문에 TACC를 사용하는 것이 필수적이었습니다."

컴퓨팅 요구 사항 외에도 Beksi는 연구를 위해 광범위한 스토리지가 필요했습니다. "이러한 데이터 세트는 특히 3D 포인트 클라우드가 엄청납니다."라고 그는 말했습니다. “우리는 초당 수백 메가 바이트의 데이터를 생성합니다. 각 포인트 클라우드는 약 1 백만 포인트입니다. 이를 위해서는 엄청난 양의 스토리지가 필요합니다. "

Beksi는이 분야가 오랜 기간 동안 자율적으로 작동 할 수있는 강력한 로봇을 보유하기에는 아직 먼 길이지만 그렇게하면 의료, 제조 및 농업을 포함한 여러 영역에 도움이 될 것이라고 말합니다.

“이 출판물은 로봇 인식 능력을 향상시키기 위해 실내 환경의 합성 장면을 생성하는 궁극적 인 목표를 향한 작은 단계 일뿐입니다.”라고 그는 말했습니다.

출처 : https://www.sciencedaily.com/releases/2021/01/210119194329.htm

spot_img

최신 인텔리전스

spot_img

우리와 함께 채팅

안녕하세요! 어떻게 도와 드릴까요?