제퍼넷 로고

편향되지 않은 기계 학습 모델을 만드는 방법

시간

편향되지 않은 기계 학습 모델을 만드는 방법

이 포스트에서 우리는 개념에 대해 논의합니다. 바이어스공평 Machine Learning 세계에서 ML 편향이 종종 사회의 기존 편향을 반영하는 방법을 보여줍니다. 또한 ML 모델에서 공정성을 테스트하고 적용하기 위한 다양한 방법에 대해 논의합니다.


Philip Tannor, 공동 창립자 겸 CEO 정밀 검사.

그림
이미지로 Clker-Free-Vector-ImagesPixabay

  

AI 시스템은 점점 더 대중화되고 있으며 많은 산업에서 중심이 되고 있습니다. 누가 은행에서 대출을 받을지, 개인이 유죄인지 여부를 결정하고 가까운 장래에 자율주행차와 같은 시스템을 사용할 때 우리는 그들에게 우리의 삶을 맡길 수도 있습니다. 따라서 이러한 시스템이 원하는 대로 작동하도록 보장할 수 있도록 이러한 시스템을 활용하고 제어하는 ​​메커니즘에 대한 필요성이 커지고 있습니다.

지난 몇 년 동안 인기를 얻고 있는 한 가지 중요한 문제는 공평. 일반적으로 ML 모델은 정확도와 같은 메트릭을 기반으로 평가되지만 공정성이라는 개념은 모델이 성별, 인종 및 기타 선택된 속성과 관련하여 편향되지 않도록 해야 한다는 것입니다.

AI 시스템의 인종 편견과 관련된 에피소드의 전형적인 예는 Northpointe가 개발한 COMPAS 소프트웨어 시스템으로, 피고인이 재범자가 될 가능성을 평가하는 데 있어 미국 법원을 지원하는 것을 목표로 합니다. 프로퍼블리카는 기사 이 시스템은 흑인에 대해 편향되어 있어 더 높은 위험 등급을 부여한다고 주장합니다.

그림
아프리카계 미국인에 대한 머신러닝 시스템 편견? ( )

 

이 게시물에서 우리는 ML 모델의 편향이 어디에서 발생하는지 이해하고 편향되지 않은 모델을 만드는 방법을 탐구하려고 합니다.

편견은 어디에서 오는가?

“인간은 가장 약한 고리”
—브루스 슈나이어

사이버 보안 분야에서는 종종 "인간이 가장 약한 고리"(Schneier)라고 합니다. 이 아이디어는 우리의 경우에도 적용됩니다. 편향은 실제로 인간이 의도하지 않게 ML 모델에 도입합니다.

ML 모델은 학습된 데이터만큼만 우수할 수 있으므로 학습 데이터에 편향이 포함된 경우 모델이 동일한 편향을 모방할 것으로 기대할 수 있음을 기억하십시오. 이에 대한 몇 가지 대표적인 예는 NLP의 단어 임베딩 분야에서 찾을 수 있습니다. 단어 임베딩은 단어의 의미론적 정보를 캡처하기 위한 학습된 조밀한 벡터 표현으로, 다른 다운스트림 작업을 위해 ML 모델에 제공될 수 있습니다. 따라서 유사한 의미를 가진 단어의 임베딩은 서로 "가까운" 것으로 예상됩니다.

그림
단어 임베딩은 단어의 의미론적 의미를 포착할 수 있습니다. ( )

 

임베디드 공간은 단어 간의 관계를 추출하고 유추를 찾는 데 사용할 수 있음이 밝혀졌습니다. 이에 대한 고전적인 예는 잘 알려진 왕-남자+여자=여왕 방정식. 그러나 "왕"이라는 단어를 "의사"라는 단어로 대체하면 "의사"에 해당하는 여성으로 "간호사"를 얻습니다. 이 바람직하지 않은 결과는 단순히 우리 사회와 역사에 존재하는 젠더 편견을 반영합니다. 사용 가능한 대부분의 텍스트에서 의사가 일반적으로 남성이고 간호사가 일반적으로 여성이라면 우리 모델이 이해할 것입니다.

의사 = nlp.vocab['의사'] 남자 = nlp.vocab['남자'] 여자 = nlp.vocab['여자'] result = Doctor.vector - man.vector + woman.vector print(most_similar(result)) 출력: 간호사

코드 예 : 사람 하는 것입니다 의사 as 여자 하는 것입니다 간호사 gensim word2vec에 따르면 ( )

 

문화별 경향

 
현재 인터넷에서 가장 많이 사용되는 언어는 영어. 데이터 과학 및 ML 분야의 많은 연구 및 제품도 영어로 수행됩니다. 따라서 거대한 언어 모델을 만드는 데 사용되는 많은 "자연스러운" 데이터 세트는 미국의 사고와 문화와 일치하는 경향이 있으며 다른 국적과 문화에 편향될 수 있습니다.

그림
문화적 편견: GPT-2는 주어진 프롬프트로 긍정적인 단락을 생성하기 위해 적극적인 조정이 필요합니다. ( )

합성 데이터 세트

 
데이터의 일부 편향은 데이터 세트 구성 과정에서 의도하지 않게 생성될 수 있습니다. 건설 및 평가 중에 사람들은 익숙한 세부 사항에 주목하고 주의를 기울일 가능성이 더 큽니다. 이미지 분류 실수에 대한 잘 알려진 예는 Google 포토가 흑인을 고릴라로 잘못 분류. 이러한 종류의 잘못된 분류는 전체 평가 지표에 큰 영향을 미치지 않을 수 있지만 민감한 문제이며 제품 및 고객이 제품과 관계하는 방식에 큰 영향을 미칠 수 있습니다. 

그림
인종차별 AI 알고리즘? 흑인을 고릴라로 잘못 분류. ( )

 

결론적으로 완벽한 데이터 세트는 없습니다. 데이터 세트가 수작업이든 "자연적"이든 상관없이 작성자의 편향을 반영할 가능성이 높으므로 결과 모델에도 동일한 편향이 포함됩니다.
 
 

공정한 ML 모델 만들기

 
공정한 ML 모델을 생성하기 위해 제안된 여러 방법이 있으며 일반적으로 다음 단계 중 하나에 해당합니다.
 

전처리

 
민감한 속성과 관련하여 편향되지 않은 ML 모델을 생성하기 위한 순진한 접근 방식은 단순히 데이터에서 이러한 속성을 제거하여 모델이 예측에 사용할 수 없도록 하는 것입니다. 그러나 속성을 명확한 범주로 나누는 것이 항상 간단한 것은 아닙니다. 예를 들어, 사람의 이름은 성별 또는 민족성과 상관 관계가 있을 수 있지만 이 속성을 반드시 민감한 것으로 간주하고 싶지는 않습니다. 보다 정교한 접근 방식은 민감한 속성을 제거하기 위해 차원 축소 기술을 사용하려고 시도합니다.
 
 

교육 시간에

 
우아한 방법 편향되지 않은 ML 모델 생성 적대적 편향성을 사용하고 있습니다. 이 방법에서는 두 모델을 동시에 훈련합니다. 적대적 모델은 예측자 예측 또는 숨겨진 표현이 주어지면 보호된 속성을 예측하도록 훈련됩니다. 예측자는 원래 작업을 성공하도록 훈련된 반면 상대방은 실패하게 하여 편향을 최소화합니다.

그림
적대적 편향성 제거 그림: 예측자 손실 함수는 예측자 손실과 적대적 손실이라는 두 항으로 구성됩니다. ( )

 

이 방법은 입력 데이터를 "버리"지 않고도 편향성 제거 모델에 대해 훌륭한 결과를 얻을 수 있지만, 적대적 네트워크를 훈련할 때 일반적으로 발생하는 어려움을 겪을 수 있습니다.
 
 

처리를 게시

 
사후 처리 단계에서 우리는 모델의 예측을 확률로 얻지만 이러한 출력을 기반으로 행동하는 방법을 선택할 수 있습니다. 예를 들어 공정성 요구 사항을 충족하기 위해 다른 그룹에 대한 결정 임계값을 이동할 수 있습니다.

사후 처리 단계에서 모델 공정성을 보장하는 한 가지 방법은 모든 그룹에 대해 ROC 곡선 아래 영역의 교차점을 확인하는 것입니다. 교집합은 모든 클래스에서 동시에 달성할 수 있는 TPR과 FPR을 나타냅니다. 모든 클래스에 대해 동일한 TPR 및 FPR의 원하는 결과를 충족하려면 일부 클래스에서 덜 좋은 결과를 얻기 위해 의도적으로 선택해야 할 수도 있습니다.

그림
착색된 영역은 공정성을 위한 분리성 기준을 충족하면서 달성할 수 있는 것입니다. ( )

 

후처리 단계에서 모델을 편향화하는 또 다른 방법은 다음과 같습니다. 교정 각 클래스에 대한 예측을 독립적으로 수행합니다. 캘리브레이션 분류 모델의 확률 출력이 실제로 양성 레이블의 일치 비율을 반영하는지 확인하는 방법입니다. 공식적으로 분류 모델은 r의 각 값에 대해 다음과 같은 경우 보정됩니다.

방정식

모델이 적절하게 보정되면 오류율은 보호된 속성의 다른 값에서 비슷할 것입니다.
 
 

결론

 
요약하자면, 우리는 의 개념에 대해 논의했습니다. 바이어스공평 ML 세계에서 우리는 모델 편향이 종종 사회의 기존 편향을 반영하는 것을 보았습니다. 모델에서 공정성을 시행하고 테스트할 수 있는 다양한 방법이 있으며, 이러한 방법을 사용하면 전 세계 AI 지원 시스템에서 보다 공정한 의사 결정을 내릴 수 있기를 바랍니다.

추가 읽기

 
단어 임베딩의 성별 편향

프로퍼블리카 기사

Alekh Agarwal, Alina Beygelzimer, Miroslav Dudik, John Langford, & Hanna Wallach. (2018). 공정한 분류에 대한 감소 접근법.

브라이언 후 장, 블레이크 르모인, 마가렛 미첼. (2018). 적대적 학습으로 원치 않는 편향 완화.

솔론 바로카스, 모리츠 하트, 아르빈드 나라야난(2019). 공정성과 머신 러닝. Fairmlbook.org.

Ninareh Mehrabi, Fred Morstatter, Nripsuta Saxena, Kristina Lerman, Aram Galstyan. (2019). 기계 학습의 편견과 공정성에 대한 설문 조사.

 
약력: 필립 태너 의 공동 설립자이자 CEO입니다. 정밀 검사.

관련 :


PlatoAi. Web3 재창조. 데이터 인텔리전스 증폭.
액세스하려면 여기를 클릭하십시오.

출처: https://www.kdnuggets.com/2021/07/create-unbiased-machine-learning-models.html

spot_img

최신 인텔리전스

spot_img