기계에게 공정함을 가르치는 연구자 - 플라톤 데이터 인텔리전스

이따금 사람은 공식 연구를 하기에는 너무 모호해 보이는 추상적인 개념을 선택하고 우아한 공식 정의를 제공할 수 있습니다. Claude Shannon이 함께 했습니다. 정보, Andrey Kolmogorov는 무작위성. 지난 몇 년 동안 연구원들은 기계 학습의 공정성 개념에 대해 동일한 작업을 수행해 왔습니다. 불행히도 이것은 더 까다로웠습니다. 개념을 정의하기가 더 어려울 뿐만 아니라 단일 정의로 모든 바람직한 공정성 지표를 충족하는 것도 불가능합니다. 아빈 드 나라 야난Princeton University의 컴퓨터 과학자인 은 다양한 관점을 맥락화하고 이 새로운 분야가 자리잡도록 돕는 데 중요한 역할을 했습니다.

그의 경력은 이론에서 정책에 이르기까지 추상화의 모든 수준에 걸쳐 있지만 결국 현재 작업으로 이어진 여정은 2006년에 시작되었습니다. 1%. Netflix는 개인 식별 정보가 제거된 것으로 알려진 익명의 사용자 및 등급 데이터 세트를 제공했습니다. 그러나 Narayanan은 정교한 통계 기술을 사용하면 데이터 세트에서 "익명" 사용자의 신원을 밝히는 데 몇 개의 데이터 포인트만 필요하다는 것을 보여주었습니다.

그 이후로 Narayanan은 이론이 실제와 만나는 다른 영역에 집중했습니다. 통해 Princeton 웹 투명성 및 책임 프로젝트, 그의 팀은 웹사이트가 사용자를 추적하고 중요한 데이터를 추출하는 은밀한 방법을 발견했습니다. 그의 팀은 NSA와 같은 그룹이 웹 브라우징 데이터(특히 제62자가 배치한 쿠키)를 사용하여 사용자의 실제 신원을 발견할 뿐만 아니라 브라우징 기록의 73~XNUMX%를 재구성할 수 있음을 알아냈습니다. . 그들은 그것을 보여주었습니다. 유명한 뉴요커 만화 — 인터넷에서 웹 사이트는 이제 당신이 개라는 것을 알고 있습니다.

최근 몇 년 동안 Narayanan은 특히 기계 학습 — 기계가 데이터로부터 학습할 수 있는 능력을 부여하는 인공 지능의 응용 프로그램입니다. 그는 AI의 발전을 환영하면서도 그러한 시스템이 어떻게 좋은 의도로도 실패할 수 있는지, 그리고 이러한 유용한 기술이 어떻게 차별을 정당화하는 도구가 될 수 있는지 지적합니다. 이러한 관점에서 Narayanan의 연구 궤적을 정의한 연결되지 않은 것처럼 보이는 점들은 일종의 별자리를 형성합니다.

콴타 비익명화 작업, 통계적 직관의 중요성, AI 시스템의 많은 함정에 대해 Narayanan과 이야기했습니다. 인터뷰는 명확성을 위해 압축 및 편집되었습니다.

항상 수학과 과학 연구를 하고 싶었나요?

나는 둘 다에 매우 관심이 있었지만 주로 수학에 관심이 많았습니다. 나는 퍼즐을 잘 풀었고 국제 수학 올림피아드에서 약간의 성공을 거두었습니다. 하지만 저는 퍼즐 풀이와 연구 수학의 차이에 대해 큰 오해를 하고 있었습니다.

그래서 초기에 저는 암호학, 특히 이론적 암호학에 대한 연구에 집중했습니다. 왜냐하면 저는 여전히 제가 수학을 아주 잘한다는 망상 아래서 애쓰고 있었기 때문입니다. 그리고 내 경력의 나머지는 실제로 내 힘이 전혀 아니라는 것을 깨닫는 여정이었습니다.

그것은 당신의 비익명화 작업에 좋은 배경이 되었을 것입니다.

네가 옳아. 비익명화 연구를 가능하게 한 것은 제가 통계적 직관이라고 부르는 기술입니다. 그것은 실제로 공식적인 수학적 지식이 아닙니다. "이 복잡한 데이터 세트를 가지고 이 변환을 적용하면 그럴듯한 결과는 무엇입니까?"와 같은 직관을 머릿속에 가질 수 있습니다.

직감은 종종 틀릴 수 있지만 괜찮습니다. 그러나 직관은 유익한 길로 안내할 수 있기 때문에 중요합니다.

Netflix 데이터 작업에 통계적 직관이 어떻게 도움이 되었나요?

나는 고차원 데이터에 대한 익명화 체계를 고안하려고 노력해 왔습니다. 완전히 실패했지만 실패하는 과정에서 고차원 데이터를 효과적으로 익명화할 수 없다는 직관을 발전시켰습니다. 물론 Netflix는 경쟁자와 함께 정확히 그렇게했다고 주장했습니다.

나는 회사의 마케팅 진술에 대해 선천적으로 회의적이어서 그들이 틀렸다는 것을 증명하려는 동기가 생겼습니다. 내 고문인 Vitaly Shmatikov와 나는 몇 주 동안 집중적으로 작업했습니다. 작업이 실제로 영향을 미치고 있다는 것을 깨닫고 나서 더 많은 작업을 시작했습니다.

전반적인 영향은 무엇이었습니까? 데이터가 그다지 익명이 아닌 것으로 밝혀진 Netflix 및 기타 회사로부터 회신을 받으셨습니까?

한 가지 긍정적인 영향은 그것이 과학에 박차를 가했다는 것입니다. 차등 개인 정보. 그러나 기업들의 반응에 관해서는 몇 가지 다른 반응이 있었습니다. 많은 경우, 그렇지 않았다면 데이터 세트를 대중에게 공개했을 회사들이 이제 더 이상 그렇게 하지 않습니다. 그들은 투명성 노력에 맞서기 위한 방법으로 프라이버시를 무기화하고 있습니다.

페이스북은 이것을 하는 것으로 유명합니다. 연구자들이 Facebook에 가서 “플랫폼에서 정보가 어떻게 전파되는지 연구하려면 이 데이터 중 일부에 액세스해야 합니다.”라고 말하면 Facebook은 이제 “아니요, 제공할 수 없습니다. 그러면 사용자의 개인 정보가 손상될 것입니다.”

당신은 한때 종이 "개인 식별 정보"라는 용어가 오해의 소지가 있을 수 있다고 주장합니다. 어때?

이 용어가 사용되는 두 가지 다른 방식으로 인해 정책 입안자들 사이에 혼란이 있다고 생각합니다. 하나는 주민등록번호와 같이 매우 민감한 정보입니다. 또 다른 의미는 일부 데이터 세트로 인덱싱하여 귀하에 대한 추가 정보를 찾는 데 사용할 수 있는 정보입니다.

이 둘은 의미가 다릅니다. 나는 첫 번째 의미에서 PII의 개념을 가진 쇠고기가 없습니다. 사람에 대한 특정 정보는 매우 민감하므로 더 신중하게 다루어야 합니다. 그러나 귀하의 이메일 주소가 대부분의 사람들에게 반드시 그렇게 민감한 것은 아니지만 여전히 다른 데이터 세트에서 귀하를 찾는 데 사용할 수 있는 고유한 식별자입니다. 한 사람에 대한 속성 조합을 전 세계의 모든 사람이 사용할 수 있는 한 익명화 해제에 필요한 모든 것입니다.

결국 어떻게 공정성을 연구하게 되었나요?

저는 2017년에 공정성과 기계 학습 과정을 가르쳤습니다. 그 과정에서 이 분야의 미해결 문제에 대한 좋은 아이디어를 얻었습니다. 그리고 그와 함께 "라는 강연을 했습니다.21 공정성 정의와 그 정치.” 나는 기술적인 정의의 확산이 기술적인 이유 때문이 아니라 이 모든 것의 중심에는 순수한 도덕적 질문이 있기 때문이라고 설명했습니다. 모든 규범적 요구 사항, 즉 원하는 모든 것을 포착하는 단일 통계 기준을 가질 수 있는 방법은 없습니다. 강연은 호평을 받았고, 두 사람이 함께 이 주제에 대해 이야기를 시작해야 한다고 저를 설득했습니다.

너도 이야기를 했다 AI 스네이크 오일 검출에 대해서도 호평을 받았다. 이것이 기계 학습의 공정성과 어떤 관련이 있습니까?

이에 대한 동기는 텍스트를 이미지로 변환하는 프로그램과 같이 AI에서 많은 진정한 기술 혁신이 일어나고 있다는 것입니다. 달·이 2 또는 체스 프로그램 알파 제로. 이렇게 빠른 속도로 발전했다는 사실이 정말 놀랍습니다. 이러한 많은 혁신은 축하받을 가치가 있습니다.

문제는 우리가 범죄 위험 예측을 위한 통계적 방법과 같은 보다 까다로운 응용 프로그램뿐만 아니라 이와 같은 것에 대해 매우 느슨하고 광범위한 포괄적 용어인 "AI"를 사용할 때 발생합니다. 그런 맥락에서 관련된 기술의 유형은 매우 다릅니다. 이들은 매우 다른 두 종류의 응용 프로그램이며 잠재적 이점과 피해도 매우 다릅니다. 그들 사이에는 거의 연결이 없기 때문에 둘 다에 대해 같은 용어를 사용하는 것은 완전히 혼란스럽습니다.

사람들은 이미지 생성으로 보고 있는 이 모든 진보가 실제로 진보로 전환될 것이라고 잘못 생각하고 있습니다. 범죄 위험을 예측하거나 어떤 아이들이 학교를 그만둘지 예측하는 것과 같은 사회적 과제를 향해. 하지만 전혀 그렇지 않습니다. 우선, 누가 범죄로 체포될지 예측하는 데 무작위 확률보다 약간 더 나을 수 있습니다. 그리고 그 정확도는 정말 간단한 분류기로 달성됩니다. 시간이 지나도 나아지지 않고 더 많은 데이터 세트를 수집해도 나아지지 않습니다. 따라서 이러한 모든 관찰은 예를 들어 이미지 생성을 위한 딥 러닝의 사용과 대조됩니다.

다양한 유형의 기계 학습 문제를 어떻게 구별하시겠습니까?

이것은 완전한 목록은 아니지만 세 가지 공통 범주가 있습니다. 첫 번째 범주는 이미지의 내용을 설명하는 것과 같은 작업을 포함하는 인식입니다. 두 번째 범주는 페이스북이 알고리즘을 사용하여 플랫폼에 남아 있기에는 너무 유독한 발언을 결정하는 것과 같이 내가 "자동화 판단"이라고 부르는 것입니다. 그리고 세 번째는 사람들 사이에서 미래의 사회적 결과를 예측하는 것입니다. 누군가가 범죄로 체포될지, 아니면 아이가 학교를 그만둘지 말입니다.

세 가지 경우 모두 달성 가능한 정확도가 매우 다르고 부정확한 AI의 잠재적 위험이 매우 다르며 그에 따른 윤리적 영향도 매우 다릅니다.

예를 들어, 내 분류에서 얼굴 인식은 인식 문제입니다. 많은 사람들이 안면 인식이 부정확하다고 이야기하지만 때로는 맞기도 합니다. 하지만 안면 인식의 정확성에 근본적인 한계가 있기 때문은 아니라고 생각합니다. 그 기술은 발전해왔고, 더 나아질 것입니다. 그것이 바로 우리가 윤리적 관점에서 그것에 대해 우려해야 하는 이유입니다. 책임이 없는 경찰이나 그 사용에 대해 투명하지 않은 국가의 손에 그것을 맡길 때 말입니다.

사회적 예측 문제가 인식 문제보다 훨씬 더 어려운 이유는 무엇입니까?

지각 문제에는 몇 가지 특징이 있습니다. 첫째, 이미지에 고양이가 있는지 여부에 대한 모호성이 없습니다. 그래서 당신은 진실을 가지고 있습니다. 둘째, 웹의 모든 이미지를 사용할 수 있기 때문에 본질적으로 무제한의 훈련 데이터가 있습니다. 그리고 당신이 구글이나 페이스북이라면 사람들이 당신의 앱에 업로드한 모든 이미지를 사용할 수 있습니다. 따라서 이 두 가지 요소(모호성 부족 및 데이터 가용성) 덕분에 분류기가 정말 잘 작동할 수 있습니다.

이는 이러한 두 가지 특성이 없는 예측 문제와는 다릅니다. 제가 언급해야 할 세 번째 차이점은 어떤 의미에서 가장 중요한 것입니다. 이러한 예측 모델을 실행하는 도덕적 결과는 전화기의 언어 번역 도구나 이미지 레이블 지정 도구를 사용하는 것과는 매우 다릅니다.

그러나 그것은 어떤 사람이 재판 전 구금되어야 하는지 여부를 결정하는 데 사용되는 도구와 같은 심각성이 아닙니다. 그것들은 사람들의 자유에 대한 결과를 가져옵니다. 따라서 아이러니하게도 AI가 가장 잘 작동하지 않는 영역, 시간이 지남에 따라 실제로 개선되지 않은 영역, 미래에도 개선될 것 같지 않은 영역은 이 모든 매우 중요한 결과를 초래하는 영역입니다.

대부분의 작업에는 해당 분야 외부의 전문가와 대화가 필요했습니다. 이렇게 다른 사람들과 협업하는 것은 어떤가요?

학제 간 협력은 가장 즐거운 협력이었습니다. 사람들이 같은 언어를 사용하지 않기 때문에 그러한 협업에는 실망스러운 순간이 있을 것이라고 생각합니다.

이에 대한 나의 처방은 문화, 그 다음 언어, 그 다음 물질입니다. 그들이 어떤 종류의 장학금을 소중히 여기는지와 같은 그들의 문화를 이해하지 못한다면 정말 어려울 것입니다. 한 사람에게 가치 있는 것이 다른 사람에게는 중요하지 않은 것처럼 보일 수 있습니다. 따라서 문화적 측면을 먼저 탐색해야 합니다. 그런 다음 공통 언어와 어휘를 설정하기 시작하고 마침내 공동 작업의 본질에 도달할 수 있습니다.

우리가 안전하고 현명하게 신기술을 채택할 수 있는지에 대해 얼마나 낙관적입니까?

문제의 일부는 지식 격차입니다. 이러한 AI 도구를 구입하는 의사 결정자, 정부 기관, 회사 및 기타 사람들은 예측 정확도의 심각한 한계를 인식하지 못할 수 있습니다.

하지만 궁극적으로는 정치적인 문제라고 생각합니다. 어떤 사람들은 비용 절감을 원하기 때문에 일자리를 없애는 자동화 도구를 원합니다. 따라서 이러한 공급업체가 예측 도구에 대해 말하는 것을 믿어야 한다는 매우 강한 압력이 있습니다.

그것들은 두 가지 다른 문제입니다. 나와 같은 사람들이 정보 격차를 해결하는 데 도움을 줄 수 있습니다. 그러나 정치적 문제를 해결하려면 행동주의가 필요합니다. 민주적 절차를 활용해야 합니다. 하시는 분들이 많아 보기 좋습니다. 그리고 장기적으로 우리는 AI의 유해하고 남용적인 응용 프로그램에 대항할 수 있다고 생각합니다. 저는 그것이 한순간에 바뀌는 것이 아니라 이미 XNUMX년 이상 진행되어 온 길고 끈질기게 끈질긴 행동주의의 과정을 통해 바뀔 것이라고 생각합니다. 나는 그것이 오랫동안 계속 될 것이라고 확신합니다.

SEO 기반 콘텐츠 및 PR 배포. 오늘 증폭하십시오.
플라토 블록체인. Web3 메타버스 인텔리전스. 지식 증폭. 여기에서 액세스하십시오.
출처: https://www.quantamagazine.org/he-protects-privacy-and-ai-fairness-with-statistics-20230310/

생성 데이터 인텔리전스

기계가 공정하도록 가르치는 연구원

항상 수학과 과학 연구를 하고 싶었나요?

그것은 당신의 비익명화 작업에 좋은 배경이 되었을 것입니다.

Netflix 데이터 작업에 통계적 직관이 어떻게 도움이 되었나요?

전반적인 영향은 무엇이었습니까? 데이터가 그다지 익명이 아닌 것으로 밝혀진 Netflix 및 기타 회사로부터 회신을 받으셨습니까?

당신은 한때 종이 "개인 식별 정보"라는 용어가 오해의 소지가 있을 수 있다고 주장합니다. 어때?

결국 어떻게 공정성을 연구하게 되었나요?

너도 이야기를 했다 AI 스네이크 오일 검출에 대해서도 호평을 받았다. 이것이 기계 학습의 공정성과 어떤 관련이 있습니까?

다양한 유형의 기계 학습 문제를 어떻게 구별하시겠습니까?

사회적 예측 문제가 인식 문제보다 훨씬 더 어려운 이유는 무엇입니까?

대부분의 작업에는 해당 분야 외부의 전문가와 대화가 필요했습니다. 이렇게 다른 사람들과 협업하는 것은 어떤가요?

우리가 안전하고 현명하게 신기술을 채택할 수 있는지에 대해 얼마나 낙관적입니까?

VC 카페

VC 카페

최신 인텔리전스

🔴이더리움 ETF 지연 | 이번 주 암호화폐 소식 - 11년 2024월 XNUMX일

Between Realities VR 팟캐스트(ft. Maeva Sponbergs of Beyond Frames)

이 대규모 협력 Halo 캠페인 모드의 예고편을 확인하세요.

오늘 솔라나(SOL) 가격이 급등한 이유는 무엇입니까?

Epic Satoshi, 시가총액 88만 달러로 새로운 룬 토큰 출시 박차

Nintendo 점검 일정 – 5년 2024월 XNUMX일

기계가 공정하도록 가르치는 연구원

개요

개요

항상 수학과 과학 연구를 하고 싶었나요?

그것은 당신의 비익명화 작업에 좋은 배경이 되었을 것입니다.

개요

Netflix 데이터 작업에 통계적 직관이 어떻게 도움이 되었나요?

전반적인 영향은 무엇이었습니까? 데이터가 그다지 익명이 아닌 것으로 밝혀진 Netflix 및 기타 회사로부터 회신을 받으셨습니까?

당신은 한때 종이 "개인 식별 정보"라는 용어가 오해의 소지가 있을 수 있다고 주장합니다. 어때?

개요

결국 어떻게 공정성을 연구하게 되었나요?

너도 이야기를 했다 AI 스네이크 오일 검출에 대해서도 호평을 받았다. 이것이 기계 학습의 공정성과 어떤 관련이 있습니까?

다양한 유형의 기계 학습 문제를 어떻게 구별하시겠습니까?

개요

사회적 예측 문제가 인식 문제보다 훨씬 더 어려운 이유는 무엇입니까?

대부분의 작업에는 해당 분야 외부의 전문가와 대화가 필요했습니다. 이렇게 다른 사람들과 협업하는 것은 어떤가요?

우리가 안전하고 현명하게 신기술을 채택할 수 있는지에 대해 얼마나 낙관적입니까?

최신 인텔리전스