제퍼넷 로고

AI 트레이드오프: 강력한 모델과 잠재적 편견 간의 균형

시간

개발자가 새로운 AI 도구를 잠금 해제함에 따라 유해한 편향을 영속화할 위험이 점점 더 높아집니다. 2020년 같은 해, AI 알고리즘이 오랫동안 훈련되어 온 많은 사회적, 문화적 규범을 재창조했습니다.

본질적으로 강력하게 만드는 훈련 데이터의 규모에 의존하는 소수의 기본 모델이 등장하고 있지만 유해한 편향의 위험이 없는 것은 아닙니다. 우리는 그 사실을 집합적으로 인정해야 합니다.

인식 자체는 쉽습니다. 미래의 위험에 대한 완화와 마찬가지로 이해는 훨씬 더 어렵습니다. 즉, AI 모델 개발과 관련된 위험을 더 잘 이해하기 위해 이러한 편견의 근원을 이해하기 위한 조치를 먼저 취해야 합니다.

편견의 교활한 기원

오늘날의 AI 모델은 사전 훈련되고 오픈 소스인 경우가 많으므로 연구자와 기업 모두 AI를 신속하게 구현하고 특정 요구 사항에 맞출 수 있습니다.

이 접근 방식은 AI를 더 상업적으로 사용할 수 있게 해주지만 실제 단점이 있습니다. 즉, 소수의 모델이 이제 산업 및 대륙 전반에 걸쳐 대다수의 AI 애플리케이션을 뒷받침한다는 것입니다. 이러한 시스템은 감지되지 않거나 알 수 없는 편향으로 인해 부담이 됩니다. 즉, 응용 프로그램에 맞게 조정하는 개발자는 취약한 기반에서 작업하고 있습니다.

최근에 의하면 공부 스탠포드의 재단 모델 연구 센터(Center for Research on Foundation Models)에 따르면 이러한 기본 모델 또는 기반 모델이 기반으로 하는 데이터 내의 모든 편견은 이를 사용하는 사람들에게 상속되어 증폭 가능성을 만듭니다.

예를 들어, YFCC100M은 모델 훈련에 일반적으로 사용되는 Flickr에서 공개적으로 사용 가능한 데이터 세트입니다. 이 데이터 세트에 있는 사람들의 이미지를 조사하면 전 세계적으로 이미지 분포가 다음과 같다는 것을 알 수 있습니다. 미국 쪽으로 심하게 치우쳐, 즉 다른 지역과 문화에서 온 사람들의 대표성이 부족합니다.

훈련 데이터의 이러한 유형의 왜곡은 AI 모델이 출력에 과소 또는 과대 대표 편향을 갖는 결과를 가져옵니다. 여러 데이터 세트를 결합하여 대규모 교육 데이터 세트를 생성하면 투명성이 부족하고 사람, 지역 및 문화가 균형 있게 혼합되어 있는지 알기가 점점 더 어려워질 수 있습니다. 결과 AI 모델이 심각한 편향을 포함하여 게시되는 것은 놀라운 일이 아닙니다.

또한 기본 AI 모델이 게시될 때 일반적으로 제한 사항에 대한 정보가 거의 또는 전혀 제공되지 않습니다. 잠재적인 문제를 발견하는 것은 최종 사용자가 테스트하도록 남겨두었습니다. 이는 종종 간과되는 단계입니다. 투명성과 특정 데이터 세트에 대한 완전한 이해 없이는 여성, 어린이 또는 개발 도상국의 낮은 성과와 같은 AI 모델의 한계를 감지하기가 어렵습니다.

Getty Images에서는 다양한 수준의 능력, 성별 유동성 및 건강 상태를 포함하여 실제 경험의 이미지를 포함하는 일련의 테스트를 통해 컴퓨터 비전 모델에 편견이 있는지 여부를 평가합니다. 모든 편견을 잡을 수는 없지만 포괄적인 세계를 시각화하는 것의 중요성을 인식하고 존재할 수 있는 것들을 이해하고 가능한 한 이에 맞서는 것이 중요하다고 생각합니다.

편향 완화를 위한 메타데이터 활용

어떻게 해야 할까요? Getty Images에서 AI로 작업할 때 먼저 연령, 성별, 민족을 포함한 교육 데이터 세트 전반에 걸쳐 사람들의 분석을 검토합니다.

다행히도 우리는 라이선스를 받은 크리에이티브 콘텐츠에 대한 초상권이 필요하기 때문에 이 작업을 수행할 수 있습니다. 이를 통해 메타데이터(즉, 다른 데이터를 설명하는 데이터 세트)에 자체 식별 정보를 포함할 수 있으므로 AI 팀이 수백만 개의 이미지를 자동으로 검색하고 데이터의 왜곡을 빠르게 식별할 수 있습니다. 오픈 소스 데이터 세트는 종종 메타데이터의 부족으로 인해 제한을 받습니다. 이 문제는 여러 소스의 데이터 세트를 결합하여 더 큰 풀을 만들 때 악화되는 문제입니다.

그러나 현실적입니다. 모든 AI 팀이 광범위한 메타데이터에 액세스할 수 있는 것은 아니며 우리 팀도 완벽하지 않습니다. 고유한 절충안이 존재합니다. 즉, 데이터의 왜곡과 편향을 이해하는 대신 더 강력한 모델로 이어지는 더 큰 훈련 데이터가 있습니다.

AI 산업으로서 우리는 전 세계적으로 산업과 사람들이 AI에 의존하고 있다는 점을 감안할 때 이러한 상충 관계를 극복할 방법을 찾는 것이 중요합니다. 핵심은 데이터 중심 AI 모델에 대한 집중도를 높이는 것입니다. 더 강하게 잡아가기 시작하는 움직임.

우린 어디로 가게되는 거지?

AI의 편견에 맞서는 것은 작은 일이 아니며 향후 몇 년 동안 기술 산업 전반에 걸쳐 협력이 필요할 것입니다. 그러나 실무자가 작지만 눈에 띄는 변화를 만들기 위해 지금 취할 수 있는 예방 조치가 있습니다.

예를 들어 기본 모델이 게시되면 해당 모델을 출시할 수 있습니다. 데이터 시트 기본 교육 데이터를 설명하고 데이터 세트에 있는 내용에 대한 설명 통계를 제공합니다. 그렇게 하면 후속 사용자에게 모델의 강점과 한계에 대한 감각을 제공하여 정보에 입각한 결정을 내릴 수 있습니다. 그 영향은 엄청날 수 있습니다.

전술 한 공부 기초 모델에 대한 질문은 "너무 비싸거나 얻기 어렵지 않으면서 적절한 문서를 제공하기 위해 데이터에 대한 올바른 통계 세트는 무엇입니까?" 특히 시각적 데이터의 경우 연구자는 연령, 성별, 인종, 종교, 지역, 능력, 성적 취향, 건강 상태 등의 분포를 이상적으로 제공합니다. 그러나 이 메타데이터는 비용이 많이 들고 여러 소스의 대규모 데이터 세트에서 얻기 어렵습니다.

보완적인 접근 방식은 AI 개발자가 기본 모델에 대한 알려진 편향 및 공통 제한 사항의 실행 목록에 액세스할 수 있도록 하는 것입니다. 여기에는 특히 사람들이 이러한 모델을 사용하는 방식을 고려할 때 AI 연구원이 정기적으로 기여할 수 있는 편향에 대해 쉽게 액세스할 수 있는 테스트 데이터베이스를 개발하는 것이 포함될 수 있습니다.

예를 들어 트위터는 최근 경쟁 AI 전문가가 알고리즘의 편향을 폭로하도록 도전했습니다(인식과 인식이 완화의 핵심이라고 말한 것을 기억하십니까?). 우리는 모든 곳에서 이것이 더 필요합니다. 이와 같은 크라우드소싱을 정기적으로 연습하면 개별 실무자의 부담을 줄이는 데 도움이 될 수 있습니다.

우리는 아직 모든 답을 가지고 있지는 않지만 업계로서 우리는 더 강력한 모델에 대한 솔루션으로 사용하는 데이터를 면밀히 살펴볼 필요가 있습니다. 그렇게 하려면 편향을 증폭시키는 대가가 따르며 솔루션 내에서 우리가 하는 역할을 받아들여야 합니다. 특히 AI 시스템을 사용하여 실제 사람을 나타내거나 상호 작용할 때 사용하는 교육 데이터를 더 깊이 이해할 수 있는 방법을 찾아야 합니다.

이러한 사고 방식의 변화는 모든 유형과 규모의 기업이 개발 단계에서 편향을 빠르게 발견하고 대응하여 편향을 줄이는 데 도움이 될 것입니다.

PlatoAi. Web3 재창조. 데이터 인텔리전스 증폭.
액세스하려면 여기를 클릭하십시오.

출처: https://techcrunch.com/2021/09/24/ai-tradeoffs-balancing-powerful-models-and-potential-biases/

spot_img

최신 인텔리전스

spot_img

우리와 함께 채팅

안녕하세요! 어떻게 도와 드릴까요?