Logo Zephyrnet

70% người tìm việc cho rằng kỹ năng tự động hóa là chìa khóa để tìm vị trí mới

Ngày:


“Làm người tốt thì dễ, làm người công bằng mới khó.” Victor Hugo

“Chúng ta cần bảo vệ lợi ích của những người mà chúng ta chưa từng gặp và sẽ không bao giờ gặp.” Jeffrey D. Sachs

Lưu ý: Bài viết này nhằm mục đích dành cho khán giả nói chung nhằm cố gắng làm sáng tỏ bản chất phức tạp của sự không công bằng trong các thuật toán học máy. Vì vậy, tôi đã cố gắng giải thích các khái niệm theo cách dễ tiếp cận mà ít sử dụng toán học, với hy vọng rằng mọi người có thể rút ra được điều gì đó khi đọc cuốn sách này.

Các thuật toán học máy được giám sát vốn có tính phân biệt đối xử. Họ phân biệt đối xử theo nghĩa là họ sử dụng thông tin được nhúng trong các tính năng của dữ liệu để phân tách các trường hợp thành các danh mục riêng biệt - thực sự, đây là mục đích được chỉ định trong cuộc sống của họ. Điều này được phản ánh trong tên của các thuật toán này thường được gọi là thuật toán phân biệt đối xử (chia dữ liệu thành các danh mục), trái ngược với thuật toán tổng hợp (tạo dữ liệu từ một danh mục nhất định). Khi chúng tôi sử dụng công nghệ học máy có giám sát, “sự phân biệt đối xử” này được sử dụng như một công cụ hỗ trợ giúp chúng tôi phân loại dữ liệu của mình thành các danh mục riêng biệt trong quá trình phân phối dữ liệu, như được minh họa bên dưới.

AI công bằng

Minh họa các thuật toán phân biệt đối xử và tạo ra. Lưu ý rằng các thuật toán tổng quát lấy dữ liệu từ phân phối xác suất bị ràng buộc theo một danh mục cụ thể (ví dụ: phân phối màu xanh lam), trong khi các thuật toán phân biệt đối xử nhằm mục đích phân biệt ranh giới tối ưu giữa các phân phối này. Nguồn: Stack Overflow

Mặc dù điều này xảy ra khi chúng tôi áp dụng các thuật toán phân biệt đối xử - chẳng hạn như máy vectơ hỗ trợ, các dạng hồi quy tham số (ví dụ: hồi quy tuyến tính vanilla) và hồi quy không tham số (ví dụ: rừng ngẫu nhiên, mạng lưới thần kinh, tăng cường) - cho bất kỳ tập dữ liệu nào, kết quả có thể không nhất thiết phải có bất kỳ ý nghĩa đạo đức nào. Ví dụ: sử dụng dữ liệu thời tiết của tuần trước để thử và dự đoán thời tiết ngày mai không có giá trị đạo đức nào gắn liền với nó. Tuy nhiên, khi tập dữ liệu của chúng tôi dựa trên thông tin mô tả con người - các cá nhân, trực tiếp hoặc gián tiếp, điều này có thể vô tình dẫn đến sự phân biệt đối xử trên cơ sở liên kết nhóm.

Rõ ràng, học tập có giám sát là một công nghệ có tác dụng kép. Nó có thể được sử dụng vì lợi ích của chúng tôi, chẳng hạn như để lấy thông tin (ví dụ: dự đoán thời tiết) và bảo vệ (ví dụ: phân tích mạng máy tính để phát hiện các cuộc tấn công và phần mềm độc hại). Mặt khác, nó có khả năng được vũ khí hóa để phân biệt đối xử ở bất kỳ cấp độ nào. Điều này không có nghĩa là các thuật toán làm điều này là xấu, chúng chỉ đang tìm hiểu các cách biểu diễn có trong dữ liệu, mà bản thân chúng có thể đã đưa vào trong chúng những biểu hiện của sự bất công trong lịch sử, cũng như những thành kiến ​​và khuynh hướng cá nhân. Một câu ngạn ngữ phổ biến trong khoa học dữ liệu là “rác vào = rác ra” để chỉ các mô hình phụ thuộc nhiều vào chất lượng dữ liệu được cung cấp cho chúng. Điều này có thể được phát biểu một cách tương tự trong bối cảnh công bằng thuật toán là “bias in = Bias out”.

Nếu những nội dung giáo dục chuyên sâu này hữu ích cho bạn, bạn có thể đăng ký danh sách gửi thư Nghiên cứu AI của chúng tôi ở cuối bài viết này để được cảnh báo khi chúng tôi phát hành bản cập nhật nghiên cứu mới.

Chủ nghĩa cơ bản dữ liệu

Một số người ủng hộ tin vào chủ nghĩa cơ bản dữ liệu, nghĩa là dữ liệu phản ánh sự thật khách quan của thế giới thông qua các quan sát thực nghiệm.

“với đủ dữ liệu, các con số sẽ tự nói lên điều đó.” - Cựu tổng biên tập Wired Chris Anderson (một nhà nghiên cứu cơ bản về dữ liệu)

Dữ liệu và bộ dữ liệu không khách quan; chúng là sự sáng tạo của thiết kế con người. Chúng ta đưa ra tiếng nói của các con số, rút ​​ra suy luận từ chúng và xác định ý nghĩa của chúng thông qua các diễn giải của chúng ta. Những thành kiến ​​tiềm ẩn trong cả giai đoạn thu thập và phân tích đều tiềm ẩn những rủi ro đáng kể và cũng quan trọng đối với phương trình dữ liệu lớn như chính các con số. — Kate Crawford, nhà nghiên cứu chính tại Microsoft Research Social Media Collective

Nhìn bề ngoài, đây có vẻ là một giả thuyết hợp lý, nhưng Kate Crawford đưa ra một lập luận phản biện hợp lý theo một cách hoàn toàn hợp lý. Bài báo đánh giá kinh doanh Harvard:

Boston gặp vấn đề với ổ gà, vá khoảng 20,000 ổ gà mỗi năm. Để giúp phân bổ nguồn lực một cách hiệu quả, Thành phố Boston đã đưa ra giải pháp xuất sắc Ứng dụng điện thoại thông minh StreetBump, dựa trên dữ liệu gia tốc kế và GPS để giúp phát hiện ổ gà một cách thụ động, báo cáo ngay lập tức cho thành phố. Mặc dù chắc chắn là một cách tiếp cận thông minh nhưng StreetBump lại có vấn đề về tín hiệu. Những người thuộc nhóm thu nhập thấp hơn ở Mỹ ít có khả năng sở hữu điện thoại thông minh hơn và điều này đặc biệt đúng với những người lớn tuổi, nơi tỷ lệ sử dụng điện thoại thông minh có thể thấp tới 16%. Đối với các thành phố như Boston, điều này có nghĩa là bộ dữ liệu điện thoại thông minh đang thiếu thông tin đầu vào từ một bộ phận đáng kể người dân - thường là những người có ít tài nguyên nhất. — Kate Crawford, nhà nghiên cứu chính tại Microsoft Research

Về cơ bản, ứng dụng StreetBump thu được phần lớn dữ liệu từ các khu dân cư giàu có và tương đối ít dữ liệu từ các khu dân cư nghèo hơn. Đương nhiên, kết luận đầu tiên bạn có thể rút ra từ điều này là các khu dân cư giàu có hơn có nhiều ổ gà hơn, nhưng trên thực tế, chỉ thiếu dữ liệu từ các khu dân cư nghèo hơn vì những người này ít có điện thoại thông minh hơn và do đó đã tải xuống ứng dụng SmartBump. Thông thường, dữ liệu mà chúng tôi không có trong tập dữ liệu có thể có tác động lớn nhất đến kết quả của chúng tôi. Ví dụ này minh họa một hình thức phân biệt đối xử tinh vi dựa trên thu nhập. Do đó, chúng ta nên thận trọng khi đưa ra những kết luận như vậy từ dữ liệu có thể gặp phải 'vấn đề về tín hiệu'. Vấn đề tín hiệu này thường được mô tả là sai lệch lấy mẫu.

Một ví dụ đáng chú ý khác là thuật toán “Lập hồ sơ quản lý người phạm tội cải tạo để áp dụng các biện pháp trừng phạt thay thế” hay viết tắt là COMPAS. Thuật toán này được một số bang trên khắp Hoa Kỳ sử dụng để dự đoán khả năng tái phạm - khả năng một cựu tội phạm sẽ tái phạm. Phân tích thuật toán này của ProPublica, một tổ chức báo chí điều tra, gây tranh cãi khi nó dường như gợi ý rằng thuật toán đang phân biệt đối xử dựa trên chủng tộc - một tầng lớp được bảo vệ ở Hoa Kỳ. Để giúp chúng tôi hiểu rõ hơn về những gì đang diễn ra, thuật toán được sử dụng để dự đoán khả năng tái phạm trông giống như thế này:

Điểm rủi ro tái phạm = (age*−w)+(tuổi bị bắt lần đầu*−w)+(lịch sử bạo lực*w) + (học vấn nghề nghiệp * w) + (lịch sử không tuân thủ * w)

Cần phải rõ ràng rằng chủng tộc không phải là một trong những biến số được sử dụng làm yếu tố dự đoán. Tuy nhiên, sự phân bổ dữ liệu giữa hai chủng tộc nhất định có thể khác nhau đáng kể đối với một số biến số này, chẳng hạn như các yếu tố 'lịch sử bạo lực' và 'giáo dục nghề nghiệp', dựa trên những bất công lịch sử ở Hoa Kỳ cũng như các yếu tố nhân khẩu học, xã hội và số liệu thống kê thực thi pháp luật (thường là mục tiêu bị chỉ trích vì họ thường sử dụng thuật toán để xác định khu vực nào cần tuần tra). Sự không khớp giữa các phân phối dữ liệu này có thể được thuật toán tận dụng, dẫn đến sự chênh lệch giữa các chủng tộc và do đó ở một mức độ nào đó dẫn đến kết quả có khuynh hướng vừa phải đối với hoặc chống lại một số chủng tộc nhất định. Những thành kiến ​​cố hữu này sau đó sẽ được thuật toán vận hành và tiếp tục tồn tại, dẫn đến những bất công hơn nữa. Vòng lặp này thực chất là một lời tiên tri tự hoàn thành.

Những bất công lịch sử → Dữ liệu đào tạo → Xu hướng thuật toán trong sản xuất

Điều này dẫn đến một số câu hỏi khó - chúng ta có loại bỏ các biến có vấn đề này không? Làm cách nào để chúng tôi xác định liệu một đặc điểm có dẫn đến kết quả phân biệt đối xử hay không? Chúng ta có cần thiết kế một thước đo cung cấp ngưỡng cho 'sự phân biệt đối xử' không? Người ta có thể đưa điều này đến mức cực đoan và loại bỏ gần như tất cả các biến, nhưng khi đó thuật toán sẽ không có tác dụng. Điều này vẽ ra một bức tranh ảm đạm, nhưng may mắn thay, có nhiều cách để giải quyết những vấn đề này sẽ được thảo luận sau trong bài viết này.

Những ví dụ này không phải là sự cố riêng lẻ. Ngay cả các thuật toán dự đoán ung thư vú cũng cho thấy mức độ phân biệt đối xử không công bằng. Các thuật toán học sâu để dự đoán ung thư vú từ chụp quang tuyến vú đối với phụ nữ da đen kém chính xác hơn nhiều so với phụ nữ da trắng. Điều này một phần là do tập dữ liệu được sử dụng để đào tạo các thuật toán này chủ yếu dựa trên ảnh chụp quang tuyến vú của phụ nữ da trắng, nhưng cũng vì việc phân bổ dữ liệu về bệnh ung thư vú giữa phụ nữ da đen và phụ nữ da trắng có thể có sự khác biệt đáng kể. Theo Trung tâm Kiểm soát Bệnh tật (CDC) "Phụ nữ da đen và phụ nữ da trắng mắc bệnh ung thư vú với tỷ lệ như nhau, nhưng phụ nữ da đen chết vì ung thư vú với tỷ lệ cao hơn phụ nữ da trắng".

Động cơ

Những vấn đề này đặt ra câu hỏi về động cơ của các nhà phát triển thuật toán - liệu những cá nhân thiết kế những mô hình này có chủ ý làm như vậy không? Họ có một chương trình nghị sự mà họ đang cố gắng thúc đẩy và cố gắng giấu nó bên trong các mô hình học máy hộp xám không?

Mặc dù những câu hỏi này không thể trả lời một cách chắc chắn, nhưng sẽ rất hữu ích khi xem xét dao cạo của Hanlon khi đặt những câu hỏi như vậy:

Đừng bao giờ gán cho ác ý những gì được giải thích thỏa đáng bằng sự ngu ngốc — Robert J. Hanlon

Nói cách khác, trên thế giới không có nhiều người ác đến vậy (may mắn thay), và chắc chắn trên thế giới có ít người ác hơn những người bất tài. Nhìn chung, chúng ta nên giả định rằng khi mọi việc diễn ra không như ý thì nguyên nhân có nhiều khả năng là do sự kém cỏi, ngây thơ hoặc sơ suất hơn là do ác ý rõ ràng. Mặc dù có khả năng có một số tác nhân độc hại muốn thúc đẩy các chương trình nghị sự mang tính phân biệt đối xử nhưng những người này có thể chỉ chiếm thiểu số.

Dựa trên giả định này, điều gì có thể đã xảy ra? Người ta có thể lập luận rằng các nhà thống kê, người thực hành học máy, nhà khoa học dữ liệu và nhà khoa học máy tính không được dạy đầy đủ cách phát triển các thuật toán học có giám sát để kiểm soát và sửa chữa các khuynh hướng định kiến.

Tại sao điều này là trường hợp?

Trên thực tế, các kỹ thuật đạt được điều này không tồn tại. Tính công bằng trong học máy là một lĩnh vực con của học máy đang ngày càng phổ biến trong vài năm qua nhằm đáp ứng sự tích hợp nhanh chóng của học máy vào các lĩnh vực xã hội. Các nhà khoa học máy tính, không giống như các bác sĩ, không nhất thiết phải được đào tạo để xem xét những tác động đạo đức trong hành động của họ. Chỉ tương đối gần đây (người ta có thể tranh luận kể từ khi truyền thông xã hội ra đời) rằng các thiết kế hoặc phát minh của các nhà khoa học máy tính mới có thể mang khía cạnh đạo đức.

Điều này được chứng minh ở chỗ hầu hết các tạp chí khoa học máy tính không yêu cầu các tuyên bố hoặc cân nhắc về đạo đức đối với các bản thảo được gửi. Nếu bạn lấy một cơ sở dữ liệu hình ảnh chứa đầy hàng triệu hình ảnh của người thật, điều này chắc chắn có thể có ý nghĩa đạo đức. Do khoảng cách vật lý và kích thước của tập dữ liệu, các nhà khoa học máy tính cho đến nay vẫn còn cách xa các chủ thể dữ liệu nên những tác động đối với bất kỳ cá nhân nào có thể được coi là không đáng kể và do đó bị coi nhẹ. Ngược lại, nếu một nhà xã hội học hoặc nhà tâm lý học thực hiện một bài kiểm tra trên một nhóm nhỏ cá nhân, toàn bộ hội đồng đánh giá đạo đức sẽ được thành lập để xem xét và phê duyệt thí nghiệm nhằm đảm bảo nó không vi phạm bất kỳ ranh giới đạo đức nào.

Về mặt tích cực, điều này đang dần bắt đầu thay đổi. Ngày càng có nhiều chương trình khoa học dữ liệu và khoa học máy tính bắt đầu yêu cầu sinh viên tham gia các lớp học về đạo đức dữ liệu và tư duy phê phán, đồng thời các tạp chí bắt đầu nhận ra rằng các đánh giá đạo đức thông qua IRB và các tuyên bố về đạo đức trong bản thảo có thể là sự bổ sung cần thiết cho quá trình bình duyệt. Sự quan tâm ngày càng tăng đối với chủ đề công bằng trong học máy chỉ củng cố quan điểm này.

Sự công bằng trong học máy

AI công bằng

Sự công bằng trong học máy đã trở thành một chủ đề nóng trong vài năm qua. Nguồn hình ảnh: CS 294: Tính công bằng trong học máy khóa học được giảng dạy tại UC Berkley.

Như đã đề cập trước đây, việc áp dụng rộng rãi các thuật toán học máy có giám sát đã làm dấy lên mối lo ngại về tính công bằng của thuật toán. Các thuật toán này càng được áp dụng nhiều và khả năng kiểm soát ngày càng tăng của chúng đối với cuộc sống của chúng ta sẽ chỉ làm trầm trọng thêm những mối lo ngại này. Cộng đồng học máy nhận thức rõ những thách thức này và tính công bằng trong thuật toán hiện là một lĩnh vực học máy đang phát triển nhanh chóng với nhiều nhà nghiên cứu xuất sắc như Moritz Hardt, Cynthia Dwork, Solon Barocas và Michael Feldman.

Tuy nhiên, vẫn còn những trở ngại lớn cần vượt qua trước khi chúng ta có thể đạt được các thuật toán thực sự công bằng. Nó khá dễ dàng để ngăn chặn đối xử khác nhau trong thuật toán - cách xử lý khác biệt rõ ràng giữa nhóm này với nhóm khác, chẳng hạn như bằng cách loại bỏ các biến tương ứng với các thuộc tính này khỏi tập dữ liệu (ví dụ: chủng tộc, giới tính). Tuy nhiên, việc ngăn chặn lại khó hơn nhiều tác động khác nhau —sự đối xử khác biệt ngầm giữa nhóm này với nhóm khác, thường do nguyên nhân gọi là mã hóa dư thừa trong dữ liệu.

AI công bằng

Minh họa về tác động khác nhau - trong sơ đồ này, việc phân phối dữ liệu của hai nhóm rất khác nhau, dẫn đến sự khác biệt trong đầu ra của thuật toán mà không có bất kỳ mối liên hệ rõ ràng nào giữa các nhóm. Nguồn: KdNugget

mã hóa dư thừa cho chúng tôi biết thông tin về thuộc tính được bảo vệ, chẳng hạn như chủng tộc hoặc giới tính, dựa trên các đặc điểm có trong tập dữ liệu của chúng tôi tương quan với các thuộc tính này. Ví dụ: mua một số sản phẩm trực tuyến (chẳng hạn như đồ trang điểm) có thể có mối tương quan cao với giới tính và một số mã zip nhất định có thể có thông tin nhân khẩu học về chủng tộc khác nhau mà thuật toán có thể xử lý.

Mặc dù thuật toán không cố gắng phân biệt đối xử theo những đường này, nhưng không thể tránh khỏi các thuật toán dựa trên dữ liệu thay thế hiệu suất của con người trong các nhiệm vụ nhận dạng mẫu có thể thu hút các liên kết này được nhúng trong dữ liệu, dù chúng có nhỏ đến đâu. Ngoài ra, nếu các liên kết này không mang tính thông tin (tức là chúng không làm tăng độ chính xác của thuật toán) thì thuật toán sẽ bỏ qua chúng, nghĩa là một số thông tin rõ ràng được nhúng trong các thuộc tính được bảo vệ này. Điều này đặt ra nhiều thách thức cho các nhà nghiên cứu như:

  • Có sự cân bằng cơ bản giữa tính công bằng và tính chính xác không? Chúng tôi có thể trích xuất thông tin liên quan từ các đối tượng được bảo vệ mà không sử dụng chúng theo cách phân biệt đối xử không?
  • Biện pháp thống kê tốt nhất để đưa khái niệm 'công bằng' vào trong các thuật toán là gì?
  • Làm thế nào chúng ta có thể đảm bảo rằng các chính phủ và công ty tạo ra các thuật toán bảo vệ sự công bằng của cá nhân?
  • Những thành kiến ​​nào được đưa vào dữ liệu đào tạo của chúng tôi và làm cách nào chúng tôi có thể giảm thiểu ảnh hưởng của chúng?

Chúng ta sẽ đề cập đến một số câu hỏi này trong phần còn lại của bài viết.

Vấn đề với dữ liệu

Trong phần trước đã đề cập rằng việc mã hóa dư thừa có thể dẫn đến các đặc điểm tương quan với các thuộc tính được bảo vệ. Khi tập dữ liệu của chúng tôi tăng kích thước, khả năng xuất hiện của các mối tương quan này sẽ tăng theo. Trong thời đại dữ liệu lớn, điều này đặt ra một vấn đề lớn: chúng ta càng có nhiều dữ liệu thì chúng ta càng có nhiều thông tin để phân biệt đối xử. Sự phân biệt đối xử này không nhất thiết phải dựa trên chủng tộc hay giới tính mà có thể biểu hiện là sự phân biệt đối xử đối với những cá nhân có mái tóc màu hồng, đối với các nhà phát triển web, đối với những người uống cà phê Starbucks hoặc sự kết hợp của tất cả các nhóm này. Trong phần này, một số sai lệch có trong dữ liệu huấn luyện và thuật toán được trình bày làm phức tạp việc tạo ra các thuật toán công bằng.

Xu hướng đa số

Các thuật toán không có ái lực với bất kỳ nhóm cụ thể nào, tuy nhiên, chúng có xu hướng áp dụng cho nhóm đa số do cơ sở thống kê của chúng. Như được nêu bởi Giáo sư Moritz Hardt trong một phương tiện bài viết , các bộ phân loại thường cải thiện theo số lượng điểm dữ liệu được sử dụng để huấn luyện chúng vì sai số có tỷ lệ nghịch đảo với căn bậc hai của số lượng mẫu, như được hiển thị bên dưới.

AI công bằng

Sai số của bộ phân loại thường giảm theo nghịch đảo căn bậc hai của cỡ mẫu. Số lượng mẫu nhiều gấp bốn lần có nghĩa là giảm một nửa tỷ lệ lỗi.

Điều này dẫn đến một thực tế đáng lo ngại rằng, theo định nghĩa, sẽ luôn có ít dữ liệu hơn về các nhóm thiểu số, nên các mô hình của chúng tôi sẽ có xu hướng hoạt động kém hơn đối với các nhóm đó so với nhóm đa số. Giả định này chỉ đúng nếu nhóm đa số và nhóm thiểu số được rút ra từ các phân phối riêng biệt, nếu chúng được rút ra từ một phân phối duy nhất thì việc tăng cỡ mẫu sẽ có lợi như nhau cho cả hai nhóm.

An ví dụ trong số này là thuật toán phát hiện ung thư vú mà chúng ta đã thảo luận trước đây. Vì điều này mô hình học tập sâu, được phát triển bởi các nhà nghiên cứu tại MIT, trong số 60,000 hình ảnh chụp quang tuyến vú trong bộ dữ liệu được sử dụng để huấn luyện mạng lưới thần kinh, chỉ có 5% là hình ảnh chụp quang tuyến vú của phụ nữ da đen, những người có nguy cơ tử vong vì ung thư vú cao hơn 43%. Do đó, thuật toán hoạt động kém hơn khi thử nghiệm trên phụ nữ da đen và các nhóm thiểu số nói chung. Điều này có thể được giải thích một phần vì ung thư vú thường biểu hiện ở độ tuổi sớm hơn ở phụ nữ da màu, điều này cho thấy tác động khác nhau vì phân bố xác suất của phụ nữ da màu không được thể hiện đầy đủ.

Điều này cũng đặt ra một câu hỏi quan trọng khác. Độ chính xác có phải là thước đo phù hợp cho sự công bằng không? Trong ví dụ trên, chúng tôi giả định rằng độ chính xác phân loại thấp hơn đối với một nhóm thiểu số tương ứng với sự không công bằng. Tuy nhiên, do các định nghĩa rất khác nhau và tính chất mơ hồ của tính công bằng, đôi khi khó có thể đảm bảo rằng biến số mà chúng ta đang đo lường là đại diện tốt cho sự công bằng. Ví dụ: thuật toán của chúng tôi có thể có độ chính xác 50% đối với cả phụ nữ da đen và da trắng, nhưng nếu có 30% kết quả dương tính giả đối với phụ nữ da trắng và 30% kết quả âm tính giả đối với phụ nữ da đen, thì điều này cũng cho thấy tác động khác nhau.

Từ ví dụ này, có vẻ gần như trực quan rằng đây là một hình thức phân biệt đối xử vì có sự đối xử khác biệt trên cơ sở liên kết nhóm. Tuy nhiên, đôi khi việc liên kết nhóm này mang lại nhiều thông tin cho dự đoán của chúng tôi. Ví dụ: đối với một trang web thương mại điện tử đang cố gắng quyết định nội dung nào sẽ hiển thị cho người dùng, việc biết được giới tính, độ tuổi hoặc tình trạng kinh tế xã hội của cá nhân là vô cùng hữu ích. Điều này ngụ ý rằng nếu chúng tôi chỉ xóa các trường được bảo vệ khỏi dữ liệu của mình, chúng tôi sẽ làm giảm độ chính xác (hoặc một số chỉ số hiệu suất khác) của mô hình của chúng tôi. Tương tự, nếu chúng ta có đủ dữ liệu về cả phụ nữ da đen và da trắng cho mô hình ung thư vú, chúng ta có thể phát triển một thuật toán sử dụng chủng tộc làm một trong những đầu vào. Do sự khác biệt trong cách phân bổ dữ liệu giữa các chủng tộc, có khả năng độ chính xác sẽ tăng lên đối với cả hai nhóm.

Do đó, trường hợp lý tưởng là có một thuật toán chứa các tính năng được bảo vệ này và sử dụng chúng để tạo ra các khái quát hóa thuật toán nhưng bị hạn chế bởi các số liệu công bằng để ngăn thuật toán phân biệt đối xử.

Đây là ý tưởng được đề xuất bởi Moritz Hardt và Eric Price trong 'Bình đẳng về cơ hội trong học tập có giám sát'. Điều này có một số lợi thế so với các số liệu khác, chẳng hạn như tính chẵn lẻ về mặt thống kê và tỷ lệ cược cân bằng, nhưng chúng ta sẽ thảo luận về cả ba phương pháp này trong phần tiếp theo.

Định nghĩa về sự công bằng

Trong phần này, chúng tôi phân tích một số khái niệm về tính công bằng đã được các nhà nghiên cứu về tính công bằng trong học máy đề xuất. Cụ thể là tính chẵn lẻ về mặt thống kê và sau đó là các sắc thái của tính chẵn lẻ về mặt thống kê chẳng hạn như sự bình đẳng về cơ hội và tỷ lệ cược cân bằng.

Thống kê chẵn lẻ

Tính ngang bằng thống kê là phương pháp lâu đời nhất và đơn giản nhất để thực thi sự công bằng. Nó được mở rộng rất nhiều trong bài viết arXiv "Ra quyết định theo thuật toán và chi phí của sự công bằng" Công thức tính chẵn lẻ thống kê được hiển thị dưới đây.

AI công bằng

Công thức tính chẵn lẻ thống kê. Nói cách khác, điều này mô tả rằng kết quả y độc lập với tham số p - nó không ảnh hưởng đến xác suất kết quả.

Đối với tính chẵn lẻ về mặt thống kê, kết quả sẽ độc lập với việc liên kết nhóm của tôi. Điều này có ý nghĩa gì về mặt trực giác? Nó có nghĩa là tỷ lệ giống nhau của mỗi nhóm sẽ được phân loại là tích cực hoặc tiêu cực. Vì lý do này, chúng ta cũng có thể mô tả tính chẵn lẻ thống kê như ngang bằng nhân khẩu học. Đối với tất cả các nhóm nhân khẩu học được gộp vào trong p, tính chẵn lẻ thống kê sẽ được thực thi.

Đối với tập dữ liệu chưa áp dụng tính chẵn lẻ thống kê, chúng tôi có thể đo lường mức độ dự đoán của chúng tôi sai lệch so với tính chẵn lẻ thống kê bằng cách tính khoảng cách chẵn lẻ thống kê được hiển thị bên dưới.

AI công bằng

Khoảng cách chẵn lẻ thống kê có thể được sử dụng để định lượng mức độ mà dự đoán lệch khỏi tính chẵn lẻ thống kê.

Khoảng cách này có thể cung cấp cho chúng tôi thước đo về mức độ công bằng hay không công bằng của một tập dữ liệu nhất định dựa trên liên kết nhóm p.

Sự cân bằng của việc sử dụng tính chẵn lẻ thống kê là gì?

Tính chẵn lẻ thống kê không đảm bảo sự công bằng.

Tuy nhiên, như bạn có thể nhận thấy, tính chẵn lẻ về mặt thống kê không nói lên điều gì về độ chính xác của những dự đoán này. Một nhóm có thể có nhiều khả năng được dự đoán là dương tính hơn nhóm khác và do đó chúng ta có thể thu được sự chênh lệch lớn giữa tỷ lệ dương tính giả và dương tính thực đối với mỗi nhóm. Bản thân điều này có thể gây ra tác động khác nhau đối với các cá nhân có trình độ từ một nhóm (p = 0) có thể bị bỏ lỡ vì những cá nhân không đủ tiêu chuẩn từ một nhóm khác (p = 1). Theo nghĩa này, tính chẵn lẻ thống kê gần giống với sự bình đẳng về kết quả.

Những hình ảnh dưới đây minh họa điều này một cách độc đáo. Nếu chúng ta có hai nhóm - một nhóm có 10 người (nhóm A=1) và một nhóm có 5 người (nhóm A=0) - và chúng tôi xác định rằng 8 người (80%) trong nhóm A=1 đạt được số điểm Y= 1, thì 4 người (80%) trong nhóm A=0 cũng sẽ phải cho điểm Y=1, bất kể các yếu tố khác.

Tính chẵn lẻ thống kê làm giảm độ chính xác của thuật toán

Vấn đề thứ hai với tính chẵn lẻ thống kê là một lớp được bảo vệ có thể cung cấp một số thông tin hữu ích cho việc dự đoán, nhưng chúng ta không thể tận dụng thông tin đó do quy tắc nghiêm ngặt do tính chẵn lẻ thống kê áp đặt. Giới tính có thể mang lại nhiều thông tin để đưa ra dự đoán về các mặt hàng mà mọi người có thể mua, nhưng nếu chúng tôi bị ngăn không cho sử dụng giới tính đó, mô hình của chúng tôi sẽ trở nên yếu hơn và độ chính xác bị ảnh hưởng. Một phương pháp tốt hơn sẽ cho phép chúng ta tính đến sự khác biệt giữa các nhóm này mà không tạo ra tác động khác biệt. Rõ ràng, tính chẵn lẻ về mặt thống kê không phù hợp với mục tiêu cơ bản là độ chính xác trong học máy - bộ phân loại hoàn hảo có thể không đảm bảo tính chẵn lẻ về nhân khẩu học.

Vì những lý do này, tính chẵn lẻ thống kê không còn được một số nhà nghiên cứu về tính công bằng trong học máy coi là một lựa chọn đáng tin cậy nữa. Tuy nhiên, tính chẵn lẻ về mặt thống kê là điểm khởi đầu đơn giản và hữu ích mà các định nghĩa khác về sự công bằng đã được xây dựng dựa trên đó.

Có nhiều phiên bản mang nhiều sắc thái hơn của tính chẵn lẻ thống kê, chẳng hạn như chẵn lẻ dương thực, chẵn lẻ dương tính giả và chẵn lẻ tỷ lệ dương.

Bình đẳng tích cực thực sự (Bình đẳng về cơ hội)

Điều này chỉ có thể thực hiện được đối với các dự đoán nhị phân và thực hiện tính chẵn lẻ thống kê trên các giá trị dương thực (đầu ra dự đoán là 1 và đầu ra thực cũng là 1).

AI công bằng

Bình đẳng về cơ hội cũng giống như tỷ lệ cược cân bằng, nhưng tập trung vào nhãn y=1.

Nó đảm bảo rằng trong cả hai nhóm, trong số tất cả những người đủ tiêu chuẩn (Y=1), một tỷ lệ bằng nhau các cá nhân sẽ được phân loại là đủ tiêu chuẩn (C=1). Điều này hữu ích khi chúng ta chỉ quan tâm đến sự ngang bằng với kết quả tích cực.

AI công bằng

Minh họa về tính chẵn lẻ tích cực thực sự. Lưu ý rằng trong nhóm đầu tiên, tất cả những người có Y=1 (hộp màu xanh) đều được phân loại là dương tính (C=1). Tương tự, trong nhóm thứ hai, tất cả những người được phân loại là Y=1 cũng được phân loại là dương tính, nhưng có thêm một trường hợp dương tính giả. Kết quả dương tính giả này không được xem xét trong định nghĩa về tính chẵn lẻ thống kê. Nguồn: Ghi chú bài giảng về quyền riêng tư và công bằng của Đại học Duke trong khoa học dữ liệu

Tính chẵn lẻ dương tính giả

Điều này cũng chỉ áp dụng cho các dự đoán nhị phân và tập trung vào các kết quả dương tính giả (đầu ra dự đoán là 1 nhưng đầu ra thực sự là 0). Điều này tương tự với tỷ lệ dương tính thực sự nhưng thay vào đó cung cấp sự tương đương giữa các kết quả dương tính giả.

Tỷ lệ chẵn lẻ dương (Tỷ lệ cân bằng)

Đây là sự kết hợp đồng thời của tính chẵn lẻ thống kê cho kết quả dương tính thật và dương tính giả và còn được gọi là tỷ lệ cược cân bằng.

AI công bằng

Minh họa về tỷ lệ ngang bằng dương (tỷ lệ cược cân bằng). Lưu ý rằng trong nhóm đầu tiên, tất cả những người có Y=1 (hộp màu xanh) đều được phân loại là dương tính (C=1). Tương tự, ở nhóm thứ hai, tất cả những người được phân loại là Y=1 cũng được phân loại là tích cực. Trong số dân số ở A=1 thu được Y=0, một trong số này được phân loại là C=1, cho tỷ lệ dương tính giả là 50%. Tương tự, ở nhóm thứ hai, hai trong số những cá nhân này được cho C=1, tương ứng với tỷ lệ dương tính giả là 50%. Nguồn: Ghi chú bài giảng về quyền riêng tư và công bằng của Đại học Duke trong khoa học dữ liệu

Lưu ý rằng để có cơ hội bình đẳng, chúng tôi nới lỏng điều kiện tỷ lệ cược ngang bằng rằng tỷ lệ cược phải bằng nhau trong trường hợp Y=0. Tỷ lệ cân bằng và bình đẳng về cơ hội cũng linh hoạt hơn và có thể kết hợp một số thông tin từ biến được bảo vệ mà không gây ra tác động khác nhau.

Lưu ý rằng mặc dù tất cả những điều này đều cung cấp một số dạng giải pháp có thể được cho là công bằng, nhưng không có điều nào trong số này đặc biệt khiến bạn hài lòng. Một lý do cho điều này là có nhiều định nghĩa mâu thuẫn nhau về yêu cầu của sự công bằng và rất khó để nắm bắt những định nghĩa này dưới dạng thuật toán. Đây là những điểm khởi đầu tốt nhưng vẫn còn nhiều chỗ cần cải thiện.

Các phương pháp khác để tăng tính công bằng

Sự ngang bằng về mặt thống kê, tỷ lệ cược ngang bằng và sự bình đẳng về cơ hội đều là những điểm khởi đầu tuyệt vời, nhưng có những điều khác chúng ta có thể làm để đảm bảo rằng các thuật toán không được sử dụng để phân biệt đối xử quá mức đối với các cá nhân. Hai giải pháp như vậy đã được đề xuất là tính minh bạch của con người trong vòng lặp và thuật toán.

Con người trong vòng lặp

Điều này nghe có vẻ giống như một kiểu đi tàu lượn siêu tốc, nhưng nó chỉ đề cập đến một mô hình trong đó con người giám sát quá trình thuật toán. Con người trong vòng lặp thường được thực hiện trong những tình huống có rủi ro cao nếu thuật toán mắc lỗi. Ví dụ: hệ thống phát hiện tên lửa thông báo cho quân đội khi phát hiện tên lửa cho phép các cá nhân xem xét tình hình và quyết định cách phản ứng - thuật toán không phản hồi nếu không có sự tương tác của con người. Chỉ cần tưởng tượng hậu quả thảm khốc của việc vận hành các hệ thống vũ khí hạt nhân có AI được phép khai hỏa khi chúng phát hiện ra mối đe dọa - một kết quả dương tính giả và toàn bộ thế giới sẽ bị diệt vong.

Một ví dụ khác về điều này là hệ thống COMPAS dành cho trường hợp tái phạm - hệ thống không phân loại bạn là người tái phạm và đưa ra phán quyết pháp lý. Thay vào đó, thẩm phán xem xét điểm COMPAS và sử dụng điểm này làm yếu tố đánh giá tình huống của họ. Điều này đặt ra những câu hỏi mới như cách con người tương tác với hệ thống thuật toán. Các nghiên cứu sử dụng Amazon Mechanical Turk đã chỉ ra rằng một số cá nhân sẽ hết lòng tuân theo phán đoán của thuật toán, vì họ cho rằng nó có nhiều kiến ​​thức hơn con người, những cá nhân khác coi nhẹ kết quả đầu ra của nó và một số thì hoàn toàn phớt lờ nó. Nghiên cứu về con người trong vòng lặp tương đối mới nhưng chúng ta có thể sẽ thấy nhiều điều hơn về nó khi học máy trở nên phổ biến hơn trong xã hội của chúng ta.

Một khái niệm quan trọng và tương tự khác là con người trong vòng lặp. Điều này tương tự như con người trong vòng lặp, nhưng thay vì con người tham gia tích cực vào quy trình, họ lại tham gia một cách thụ động vào việc giám sát thuật toán. Ví dụ: một nhà phân tích dữ liệu có thể chịu trách nhiệm giám sát các phần của đường ống dẫn dầu và khí đốt để đảm bảo rằng tất cả các cảm biến và quy trình đang hoạt động phù hợp và không có tín hiệu hoặc lỗi liên quan. Nhà phân tích này ở vị trí giám sát nhưng không tham gia tích cực vào quá trình này. Con người trên vòng lặp vốn có khả năng mở rộng cao hơn con người trong vòng lặp vì nó đòi hỏi ít nhân lực hơn, nhưng nó có thể không ổn định trong một số trường hợp nhất định - chẳng hạn như trông coi những tên lửa hạt nhân đó!

Tính minh bạch của thuật toán

Vị trí thống trị trong các tài liệu pháp luật về sự công bằng là thông qua khả năng diễn giải thuật toán và khả năng giải thích thông qua tính minh bạch. Lập luận là nếu một thuật toán có thể được xem công khai và phân tích kỹ lưỡng thì thuật toán đó có thể được đảm bảo với mức độ tin cậy cao rằng không có tác động khác biệt nào được đưa vào mô hình. Mặc dù điều này rõ ràng là mong muốn ở nhiều cấp độ, nhưng vẫn có một số nhược điểm đối với tính minh bạch của thuật toán.

Các thuật toán độc quyền theo định nghĩa không thể minh bạch.

Từ quan điểm thương mại, ý tưởng này không thể đứng vững trong hầu hết các trường hợp - bí mật thương mại hoặc thông tin độc quyền có thể bị rò rỉ nếu các thuật toán và quy trình kinh doanh được cung cấp cho tất cả mọi người cùng xem. Hãy tưởng tượng Facebook hoặc Twitter được yêu cầu công bố thuật toán của họ cho thế giới để họ có thể xem xét kỹ lưỡng nhằm đảm bảo không có vấn đề sai lệch. Rất có thể tôi có thể tải xuống mã của họ và bắt đầu phiên bản Twitter hoặc Facebook của riêng mình một cách khá dễ dàng. Tính minh bạch hoàn toàn chỉ thực sự là một lựa chọn cho các thuật toán được sử dụng trong các dịch vụ công, chẳng hạn như của chính phủ (ở một mức độ nào đó), chăm sóc sức khỏe, hệ thống pháp luật, v.v. Vì các học giả pháp lý chủ yếu quan tâm đến hệ thống pháp luật, nên điều này vẫn còn hợp lý. thống nhất ở thời điểm hiện tại.

Trong tương lai, có lẽ các quy định về tính công bằng trong thuật toán có thể là một giải pháp khả thi hơn là tính minh bạch về thuật toán đối với các công ty tư nhân có quyền lợi trong việc giữ thuật toán của họ không bị công chúng để mắt tới. Andrew Tutt thảo luận về ý tưởng này trong bài báo của mình “FDA cho thuật toán”, tập trung vào việc phát triển một cơ quan quản lý tương tự như FDA để điều chỉnh các thuật toán. Các thuật toán có thể được gửi đến cơ quan quản lý hoặc có thể là các dịch vụ kiểm toán của bên thứ ba và được phân tích để đảm bảo chúng phù hợp để sử dụng mà không gây ra tác động khác nhau.

Rõ ràng, một ý tưởng như vậy sẽ đòi hỏi nhiều cuộc thảo luận, tiền bạc và chuyên môn để thực hiện, nhưng theo quan điểm của tôi, đây có vẻ là một giải pháp khả thi. Vẫn còn một chặng đường dài phía trước để đảm bảo các thuật toán của chúng tôi không bị xử lý khác nhau và có tác động khác nhau. Với sự kết hợp của các quy định, tính minh bạch, con người trong vòng lặp, con người trong vòng lặp và các biến thể mới và được cải tiến của tính tương đương thống kê, chúng tôi là một phần của con đường đó, nhưng lĩnh vực này vẫn còn non trẻ và vẫn còn nhiều việc phải làm - hãy xem không gian này.

Bình luận cuối cùng

Trong bài viết này, chúng tôi đã thảo luận chi tiết về nhiều thành kiến ​​​​có trong dữ liệu đào tạo do cách thu thập và phân tích dữ liệu đó. Chúng tôi cũng đã thảo luận một số cách để giảm thiểu tác động của những thành kiến ​​này và giúp đảm bảo rằng các thuật toán không phân biệt đối xử đối với các nhóm thiểu số và các tầng lớp được bảo vệ.

Mặc dù về bản chất, học máy luôn là một hình thức phân biệt đối xử về mặt thống kê, nhưng sự phân biệt đối xử này trở nên phản cảm khi nó đặt một số nhóm đặc quyền nhất định vào lợi thế hệ thống và một số nhóm không có đặc quyền vào thế bất lợi về mặt hệ thống. Những sai lệch trong dữ liệu huấn luyện, do định kiến ​​về nhãn hoặc lấy mẫu dưới mức/quá mức, tạo ra các mô hình có sai lệch không mong muốn.

Một số người có thể nói rằng những quyết định này được đưa ra dựa trên ít thông tin hơn và do con người thực hiện, điều này có thể có nhiều thành kiến ​​ngầm và nhận thức ảnh hưởng đến quyết định của họ. Việc tự động hóa các quyết định này mang lại kết quả chính xác hơn và ở mức độ lớn sẽ hạn chế mức độ sai lệch này. Các thuật toán không cần phải hoàn hảo, chỉ cần tốt hơn những gì đã tồn tại trước đó. Vòng cung lịch sử hướng tới công lý.

Một số người có thể nói rằng các thuật toán đang được trao quyền tự do để cho phép sự bất bình đẳng được khởi tạo một cách có hệ thống hoặc bản thân dữ liệu đó vốn đã bị sai lệch. Các biến liên quan đến thuộc tính được bảo vệ phải được xóa khỏi dữ liệu để giúp giảm thiểu những vấn đề này và bất kỳ biến nào tương quan với các biến bị xóa hoặc bị hạn chế.

Cả hai nhóm sẽ đúng một phần. Tuy nhiên, chúng ta không nên hài lòng với các thuật toán không công bằng, vẫn còn chỗ để cải thiện. Tương tự, chúng ta không nên lãng phí tất cả dữ liệu mình có và loại bỏ tất cả các biến, vì điều này sẽ khiến hệ thống hoạt động kém hơn nhiều và khiến chúng trở nên kém hữu ích hơn nhiều. Nói như vậy, suy cho cùng, những người tạo ra các thuật toán và cơ quan giám sát này cũng như những người chịu trách nhiệm thu thập dữ liệu phải cố gắng đảm bảo rằng những thành kiến ​​​​này được xử lý một cách thích hợp.

Các quy trình lấy mẫu và thu thập dữ liệu thường được mô tả kỹ trong các lớp thống kê và không được công chúng hiểu rõ. Cho đến khi cơ quan quản lý xuất hiện, các kỹ sư máy học, nhà thống kê và nhà khoa học dữ liệu phải đảm bảo sự bình đẳng về cơ hội được đưa vào thực tiễn học máy của chúng ta. Chúng ta phải lưu tâm đến việc dữ liệu của chúng ta đến từ đâu và chúng ta làm gì với dữ liệu đó. Ai biết được những quyết định của chúng ta có thể tác động đến ai trong tương lai?

“Thế giới không công bằng, Calvin.”
“Tôi biết bố, nhưng tại sao điều đó không bao giờ có lợi cho tôi?”
Bill Watterson, Calvin và Hobbes thiết yếu: Kho bạc của Calvin và Hobbes

Đọc thêm

[1] Dữ liệu lớn: Báo cáo về Hệ thống thuật toán, Cơ hội và Quyền công dân. Nhà trắng. 2016.

[2] Sự thiên vị trong hệ thống máy tính. Batya Friedman, Helen Nissenbaum. 1996

[3] Những thành kiến ​​tiềm ẩn trong dữ liệu lớn. Kate Crawford. 2013.

[4] Tác động khác nhau của dữ liệu lớn. Solon Barocas, Andrew Selbst. 2014.

[5] Bài viết trên blog: Dữ liệu lớn không công bằng như thế nào. Moritz Hardt. 2014

[6] Ngữ nghĩa bắt nguồn tự động từ ngữ liệu ngôn ngữ chứa những thành kiến ​​​​giống con người. Aylin Caliskan, Joanna J. Bryson, Arvind Narayanan

[7] Xu hướng giới tính trong tuyển sinh sau đại học: Dữ liệu từ Berkeley. PJ Bickel, EA Hammel, JW O'Connell. 1975.

[8] Nghịch lý của Simpson. Ngọc Trai (Chương 6). Báo cáo công nghệ

[9] Chứng nhận và loại bỏ tác động khác nhau. Michael Feldman, Sorelle Friedler, John Moeller, Carlos Scheidegger, Suresh Venkatasubramanian

[10] Bình đẳng về cơ hội trong học tập có giám sát. Moritz Hardt, Eric Price, Nathan Srebro. 2016.

[11] Bài viết trên blog: Tiếp cận sự công bằng trong học máy. Moritz Hardt. 2016.

[12] Thiên vị máy móc. Julia Angwin, Jeff Larson, Surya Mattu và Lauren Kirchner, ProPublica. Đánh giá mã: github.com/probublica/compas-analysisgithub.com/adebayoj/fairml

[13] Thang đo rủi ro COMPAS: Thể hiện tính chính xác, công bằng và tính chẵn lẻ có thể dự đoán. Công ty Northpointe

[14] Tính công bằng trong đánh giá rủi ro tư pháp hình sự: Công nghệ tiên tiến
Richard Berk, Hoda Heidari, Shahin Jabbari, Michael Kearns, Aaron Roth. 2017.

[15] Tòa án và thuật toán dự đoán. Angèle Christin, Alex Rosenblat và danah boyd. 2015. Tài liệu thảo luận

[16] Hạn chế của việc giảm thiểu thành kiến ​​tư pháp bằng học máy. Kristian Lum. 2017.

[17] Kết quả đầu ra xác suất cho các máy vectơ hỗ trợ và so sánh với các phương pháp khả năng chính quy. John C. Platt. 1999.

[18] Sự đánh đổi cố hữu trong việc xác định công bằng các điểm rủi ro. Jon Kleinberg, Sendhil Mullainathan, Manish Raghavan. 2016.

[19] Dự đoán công bằng với tác động khác nhau: Nghiên cứu về sai lệch trong các công cụ dự đoán tái phạm. Alexandra Chouldechova. 2016.

[20] Tấn công sự phân biệt đối xử bằng học máy thông minh hơn. Hình ảnh tương tác của Martin Wattenberg, Fernanda Viégas và Moritz Hardt. 2016.

[21] Ra quyết định theo thuật toán và chi phí của sự công bằng. Sam Corbett-Davies, Emma Pierson, Avi Feller, Sharad Goel, Aziz Huq. 2017.

[22] Vấn đề cận biên trong các bài kiểm tra kết quả phân biệt đối xử. Camelia Simoiu, Sam Corbett-Davies, Sharad Goel. 2017.

[23] Bình đẳng về cơ hội trong học tập có giám sát. Moritz Hardt, Eric Price, Nathan Srebro. 2016.

[24] Các yếu tố của suy luận nhân quả. Peters, Janzing, Schölkopf

[25] Về giải thích nguyên nhân của chủng tộc trong hồi quy, điều chỉnh các biến gây nhiễu và trung gian. Tyler J. VanderWeele và Whitney R. Robinson. 2014.

[26] Sự công bằng phản thực tế. Matt J. Kusner, Joshua R. Loftus, Chris Russell, Ricardo Silva. 2017.

[27] Tránh phân biệt đối xử thông qua lý luận nhân quả. Niki Kilbertus, Mateo Rojas-Carulla, Giambattista Parascandolo, Moritz Hardt, Dominik Janzing, Bernhard Schölkopf. 2017.

[28] Suy luận công bằng về kết quả. Razieh Nabi, Ilya Shpitser

[29] Công bằng thông qua nhận thức. Cynthia Dwork, Moritz Hardt, Tonian Pitassi, Omer Reingold, Rich Zemel. 2012.

[30] Về khả năng (không) công bằng. Sorelle A. Friedler, Carlos Scheidegger, Suresh Venkatasubramanian. 2016.

[31] Tại sao không nên sử dụng điểm xu hướng. Gary King, Richard Nielson. 2016.

[32] Dữ liệu thô là một Oxymoron. Biên tập bởi Lisa Gitelman. 2013.

[33] Bài viết trên blog: Điều quan trọng nhất trong Thống kê không có trong sách giáo khoa là gì. Andrew Gelman. 2015.

[34] Giải mã các câu hỏi thống kê. David J. Tay. 1994.

[35] Thống kê và lý thuyết đo lường. David J. Tay. 1996.

[36] Lý thuyết và Thực hành Đo lường: Thế giới Thông qua Định lượng. David J. Tay. 2010

[37] Phương pháp khảo sát, tái bản lần thứ 2. Robert M. Groves, Floyd J. Fowler, Jr., Mick P. Couper, James M. Lepkowski, Eleanor Singer, Roger Tourangeau. 2009

[38] Đàn ông là lập trình viên máy tính cũng như đàn bà là nội trợ? Nhúng từ sai lệch. Tolga Bolukbasi, Kai-Wei Chang, James Zou, Venkatesh Saligrama, Adam Kalai. 2016.

[39] Đàn ông cũng thích mua sắm: Giảm khuếch đại thành kiến ​​giới tính bằng cách sử dụng các ràng buộc ở cấp độ tập thể. Jieyu Zhao, Tianlu Wang, Mark Yatskar, Vicente Ordonez, Kai-Wei Chang. 2017.

[40] Tác động khác nhau của dữ liệu lớn. Solon Barocas, Andrew Selbst. 2014.

[41] Đó không phải là sự riêng tư và nó không công bằng. Cynthia Dwork, Deirdre K. Mulligan. 2013.

[42] Rắc rối với các quyết định thuật toán. Tal Zarsky. 2016.

[43] Luật Bản quyền có thể khắc phục vấn đề thiên vị tiềm ẩn của trí tuệ nhân tạo như thế nào. Amanda Levendowski. 2017.

[44] FDA cho thuật toán. Andrew Tutt. 2016

Bài viết này ban đầu được xuất bản vào Hướng tới khoa học dữ liệu và được xuất bản lại lên TOPBOTS với sự cho phép của tác giả.

Thưởng thức bài viết này? Đăng ký để cập nhật thêm nghiên cứu AI.

Chúng tôi sẽ cho bạn biết khi chúng tôi phát hành thêm các bài viết tóm tắt như thế này.

Nguồn: https://plato-ai.network/70-of-job-seekers-think-automation-skills-are-the-key-to-finding-a-new-position/

tại chỗ_img

Tin tức mới nhất

tại chỗ_img