라벨링에 동의할 수 없기 때문에 인간이 AI 시스템을 잘못된 방향으로 이끌고 있음이 밝혀졌습니다

AI 모델을 훈련하고 시간이 지남에 따라 기술이 어떻게 발전했는지 벤치마킹하는 데 사용되는 상위 데이터 세트는 라벨링 오류로 가득 차 있습니다.

데이터는 다양한 식물 종을 식별하거나 자동으로 캡션을 생성하는 등 특정 작업을 완료하는 방법을 기계에 가르치는 데 중요한 리소스입니다. 대부분의 신경망은 데이터의 일반적인 패턴을 학습하기 전에 숟가락으로 많은 양의 주석이 달린 샘플입니다.

그러나 이러한 레이블이 항상 올바른 것은 아닙니다. 오류가 발생하기 쉬운 데이터 세트를 사용하여 기계를 훈련하면 성능이나 정확도가 저하 될 수 있습니다. 에서 앞서 언급 한 연구MIT가 이끄는 분석가들은 학술 논문에서 100,000 회 이상 인용 된 3.4 개의 인기있는 데이터 세트를 샅샅이 뒤져 평균 XNUMX %의 샘플이 잘못 표시되어 있다는 것을 발견했습니다.

그들이 살펴본 데이터 세트는 ImageNet의 사진, AudioSet의 사운드, Amazon에서 스크랩 한 리뷰, QuickDraw의 스케치에 이르기까지 다양합니다. 실수의 예 컴파일 연구자들에 의해 어떤 경우에는 악어 태그가 붙은 전구 그림과 같은 명백한 실수이지만 다른 경우에는 이것이 항상 분명하지는 않습니다. 야구 양동이 사진은 '야구'또는 '양동이'로 표시되어야합니까?

전 세계 AI 교육에 사용 된 1TB ImageNet 데이터 세트 : 알몸의 아이들, 술취한 친구 파티, 포르노 스타 등

각 샘플에 주석을다는 것은 힘든 작업입니다. 이 작업은 작업을 Amazon Mechanical Turk와 같은 서비스에 아웃소싱하는 경우가 많습니다. 여기서 작업자는 잔디의 제곱근을 지불하여 데이터를 하나씩 살펴보고 이미지와 오디오에 라벨을 지정하여 AI 시스템에 공급합니다. 이 프로세스는 Vice가 문서화 한 것처럼 편견과 오류를 증폭시킵니다. 여기에서 지금 확인해 보세요..

노동자들은 보수를 받고 싶다면 현상 유지에 동의해야한다는 압력을받습니다. 많은 사람들이 야구 양동이를 '양동이'로 분류하고 당신이 그것이 '야구'라고 결정한다면, 플랫폼이라면 전혀 보수를받지 못할 수 있습니다 당신이 틀렸거나 고의적으로 라벨링을 엉망으로 만들려고한다고 생각합니다. 즉, 작업자는 실수 한 것처럼 보이지 않도록 가장 인기있는 레이블을 선택합니다. 내러티브를 고수하고 아픈 엄지 손가락처럼 튀어 나오지 않는 것이 그들의 관심사입니다. 이는 오류 또는 더 나쁜 인종적 편견과 같은 데이터 세트의 눈덩이를 의미합니다.

오류율은 데이터 세트에 따라 다릅니다. 에 IMAGEnet, 객체 인식을 위해 모델을 훈련하는 데 사용되는 가장 인기있는 데이터 세트 인 경우 속도는 XNUMX %. 약 15 만 장의 사진이 포함되어 있다는 점을 감안하면 수십만 개의 레이블이 잘못되었음을 의미합니다. 예를 들어 '카멜레온'은 종종 '녹색 도마뱀'으로 오인되고 그 반대의 경우도 마찬가지입니다.

다른 노크 온 효과가 있습니다. 신경망은 데이터 내의 특징을 특정 레이블과 잘못 연관시키는 방법을 배울 수 있습니다. 예를 들어, 많은 바다 이미지에 보트가 포함되어 있고 계속 '바다'라는 태그가 붙으면 기계가 혼란스러워지고 보트를 바다로 잘못 인식 할 가능성이 더 높습니다.

이러한 시끄러운 데이터 세트를 사용하여 모델의 성능을 비교하려고 할 때 문제가 발생하는 것은 아닙니다. 이러한 시스템을 실제 세계에 배포하면 위험이 더 높아집니다. Curtis Northcutt는 스터드의 공동 수석 저자이자 MIT의 박사 과정 학생이며 기계 학습 하드웨어 스타트 업인 ChipBrain의 공동 창립자이자 CTO입니다. 등록.

"AI 모델을 사용하여 교차로에서 운전 결정을 내리는 자율 주행 자동차를 상상해보십시오."라고 그는 말했습니다. “자율 주행 자동차가 XNUMX 방향 교차로를 XNUMX 방향 교차로로 잘못 표시하는 라벨 오류가 빈번한 데이터 세트에서 훈련되면 어떻게 될까요? 답 : 삼 방향 교차로를 만나면 도로에서 운전하는 법을 배울 수 있습니다.

자율 주행 자동차가 XNUMX 방향 교차로를 XNUMX 방향 교차로로 잘못 표시하는 라벨 오류가 빈번한 데이터 세트에서 훈련되면 어떻게 될까요?

“아마도 AI 자율 주행 모델 중 하나는 실제로 훈련 소음에 더 강력하여 도로에서 많이 운전하지 않습니다. 테스트 세트 레이블이 현실과 일치하지 않기 때문에 테스트 세트가 너무 시끄러 우면 이것을 알 수 없습니다. 즉, 어떤 자동 조종 AI 모델이 가장 잘 움직이는 지 제대로 측정 할 수 없습니다. 최소한 도로에서 운전할 수있는 실제 세계에 자동차를 배치 할 때까지는 말입니다. "

연구팀이 오류가 제거 된 ImageNet 부분에서 일부 컨볼 루션 신경망을 훈련했을 때 성능이 향상되었습니다. boffins는 개발자가 오류율이 높은 데이터 세트에 대한 대규모 모델 학습에 대해 두 번 생각하고 먼저 샘플을 정렬하도록 조언해야한다고 생각합니다. 팀이 개발하고 부정확하고 일관성이없는 라벨을 식별하는 데 사용한 소프트웨어 인 Cleanlab을 찾을 수 있습니다. GitHub의.

Northcutt는“Cleanlab은 시끄러운 레이블이있는 기계 학습을위한 오픈 소스 Python 패키지입니다. “Cleanlab은 MIT에서 발명 한 자신감 학습이라는 기계 학습의 하위 분야에서 모든 이론과 알고리즘을 구현하여 작동합니다. 저는 다른 연구자들이 (보통 몇 줄의 코드만으로) 자신감있는 학습을 사용할 수 있도록 클린 랩을 만들었지 만 더 중요한 것은 시끄러운 라벨을 사용하여 기계 학습의 과학 발전을 발전시키고 새로운 연구자들이 쉽게 시작할 수있는 프레임 워크를 제공하는 것입니다. ”

데이터 세트의 레이블이 특히 조잡한 경우 복잡한 대규모 신경망을 훈련하는 것이 항상 그렇게 유리한 것은 아닙니다. 큰 모델은 작은 모델보다 데이터에 과적 합되는 경향이 있습니다.

“때때로 더 작은 모델을 사용하면 매우 시끄러운 데이터 세트에 적합합니다. 그러나 매우 시끄러운 데이터 세트에 대해 항상 더 작은 모델을 사용하도록 기본 설정하는 대신 기계 학습 엔지니어가 모델을 벤치마킹하기 전에 테스트 세트를 정리하고 수정해야한다고 생각합니다.”라고 Northcutt는 결론지었습니다. ®

코인 스마트. 유로파 최고의 비트 코인-보르 스
출처 : https://go.theregister.com/feed/www.theregister.com/2021/04/01/mit_ai_accuracy/

생성 데이터 인텔리전스

우리가 라벨링에 동의 할 수 없기 때문에 인간이 AI 시스템을 잘못 이끌고 있음이 밝혀졌습니다.

전 세계 AI 교육에 사용 된 1TB ImageNet 데이터 세트 : 알몸의 아이들, 술취한 친구 파티, 포르노 스타 등

스타크래프트 2의 멀티플레이어 리더가 이끄는 스튜디오는 미공개 게임으로 RTS '패러다임 전환'을 만들고 싶어합니다.

No Rest for the Wicked는 디아블로는 아니지만, 제가 오랫동안 플레이해 본 게임 중 가장 똑똑한 게임 중 하나일 것입니다.

최신 인텔리전스

No Rest For The Wicked를 20% 할인받고 한정 기간 동안 무료 게임을 받으세요

Pokémon Go 방울새 커뮤니티 데이 가이드

Bandai Namco 2024년 XNUMX월 Switch eShop 판매: Digimon World: Next Order, We Love Katamari 등 사상 최저 가격

Asus 맞춤형 Xbox 컨트롤러가 Amazon에서 최저 가격으로 떨어졌습니다.

Amazon의 Fallout TV 쇼가 시즌 2로 갱신되었습니다 – PlayStation 라이프스타일

Uncapped Games, 여름 게임 페스티벌 RTS 게임 공개 – MonsterVine

우리와 함께 채팅