ラベリングについて合意できないため、人間が AI システムを誤って導いていることが判明

AIモデルをトレーニングし、テクノロジーが時間の経過とともにどのように進歩したかをベンチマークするために使用される上位のデータセットには、ラベル付けエラーがたくさんあることが研究で示されています。

データは、植物のさまざまな種を識別する場合でも、キャプションを自動的に生成する場合でも、特定のタスクを完了する方法を機械に教える上で重要なリソースです。ほとんどのニューラルネットワークは、データの一般的なパターンを学習する前に、スプーンで供給される多くの注釈付きサンプルです。

ただし、これらのラベルは常に正しいとは限りません。エラーが発生しやすいデータセットを使用するトレーニングマシンは、パフォーマンスや精度を低下させる可能性があります。の中に前述の研究、MITが率いるアナリストは、学術論文で100,000回以上引用されている3.4の人気のあるデータセットを調べ、平均してサンプルのXNUMX％が誤ってラベル付けされていることを発見しました。

彼らが調べたデータセットは、ImageNetの写真から、AudioSetのサウンド、Amazonから削り取られたレビュー、QuickDrawのスケッチまで多岐にわたります。いくつかの間違いの例コンパイル研究者によると、ワニのタグが付けられた電球の絵のように、それが明らかな失敗である場合もあれば、それが必ずしも明白であるとは限らないこともあります。野球のバケツの写真には、「野球」または「バケツ」というラベルを付ける必要がありますか？

世界のAIのトレーニングに使用される1TBのImageNetデータセットの内部：裸の子供、酔っぱらいの友愛パーティー、ポルノスターなど

詳細を見る

各サンプルに注釈を付けるのは骨の折れる作業です。この作業は、多くの場合、Amazon Mechanical Turkなどのサービスにアウトソーシングされています。このサービスでは、作業者は芝の平方根を支払ってデータをXNUMXつずつふるいにかけ、画像と音声にラベルを付けてAIシステムにフィードします。 Viceが文書化したように、このプロセスはバイアスとエラーを増幅しますここ.

労働者は、支払いを希望する場合、現状に同意するよう圧力をかけられます。多くの労働者が野球のバケツを「バケツ」とラベル付けし、それが「野球」であると判断した場合、プラットフォームがあれば、まったく支払いが行われない可能性があります。あなたが間違っているか、意図的にラベルを台無しにしようとしている数字。つまり、労働者は間違いを犯したように見えることを避けるために最も人気のあるラベルを選択します。物語に固執し、親指の痛みのように突き出さないようにすることは彼らの利益になります。これは、これらのデータセットのエラー、またはさらに悪いことに、人種的偏見などの雪だるま式を意味します。

エラー率はデータセットによって異なります。に ImageNet、オブジェクト認識用のモデルをトレーニングするために使用される最も人気のあるデータセットであるレートは、 XNUMX％。約15万枚の写真が含まれていることを考えると、何十万ものラベルが間違っていることを意味します。一部のクラスの画像は他のクラスよりも影響を受けます。たとえば、「カメレオン」は「緑のトカゲ」と間違われることが多く、その逆も同様です。

他にもノックオン効果があります。ニューラルネットは、データ内の特徴を特定のラベルに誤って関連付けることを学習する場合があります。たとえば、海の画像の多くにボートが含まれているようで、「海」のタグが付けられ続けると、マシンが混乱し、ボートを海として誤って認識する可能性が高くなります。

これらのノイズの多いデータセットを使用してモデルのパフォーマンスを比較しようとすると、問題が発生するだけではありません。これらのシステムが現実の世界に導入された場合、リスクは高くなります。スタッドの共同主執筆者であり、MITの博士課程の学生であり、機械学習ハードウェアのスタートアップであるChipBrainの共同創設者兼CTOでもあるCurtis Northcuttは、次のように説明しています。登録.

「AIモデルを使用して交差点でステアリングを決定する自動運転車を想像してみてください」と彼は言いました。「自動運転車が、XNUMX方向の交差点をXNUMX方向の交差点として誤ってラベル付けする、頻繁なラベルエラーのあるデータセットでトレーニングされた場合はどうなりますか？答え：XNUMX方向の交差点に遭遇すると、道路から車で降りることを学ぶかもしれません。

自動運転車が、XNUMX方向の交差点をXNUMX方向の交差点として誤ってラベル付けする、頻繁なラベルエラーのあるデータセットでトレーニングされた場合はどうなりますか？

「おそらく、AI自動運転モデルのXNUMXつは、実際にはトレーニングノイズに対してより堅牢であるため、道路からそれほど離れることはありません。テストセットのラベルが現実と一致しないため、テストセットのノイズが多すぎると、これを知ることはできません。これは、自動パイロットAIモデルのどれが最適に動作するかを適切に判断できないことを意味します。少なくとも、車が道路から外れる可能性のある現実の世界に車を配備するまでは。」

研究に取り組んでいるチームが、エラーが除去されたImageNetの部分でいくつかの畳み込みニューラルネットワークをトレーニングすると、それらのパフォーマンスが向上しました。ボフィンは、開発者はエラー率の高いデータセットで大規模なモデルをトレーニングすることについてXNUMX回考え、最初にサンプルを並べ替えるようにアドバイスする必要があると考えています。 Cleanlabは、チームが開発し、不正確で一貫性のないラベルを識別するために使用したソフトウェアです。 GitHubの.

「Cleanlabは、ノイズの多いラベルを使用した機械学習用のオープンソースのPythonパッケージです」とNorthcutt氏は述べています。「Cleanlabは、MITで発明された、自信を持って学習するという機械学習のサブフィールドにすべての理論とアルゴリズムを実装することで機能します。私はcleanlabを構築して、他の研究者が自信を持って学習できるようにしました。通常は数行のコードで済みますが、さらに重要なことは、ノイズの多いラベルを使用して機械学習の科学の進歩を促進し、新しい研究者が簡単に開始できるフレームワークを提供することです。」

また、データセットのラベルが特に粗雑な場合、大規模で複雑なニューラルネットワークのトレーニングが必ずしも有利であるとは限らないことに注意してください。大きなモデルは、小さなモデルよりもデータに過剰適合する傾向があります。

「非常にノイズの多いデータセットでは、小さいモデルを使用すると機能する場合があります。ただし、非常にノイズの多いデータセットに対して常にデフォルトで小さいモデルを使用するのではなく、機械学習エンジニアがモデルのベンチマークを行う前にテストセットをクリーンアップして修正する必要があることが主なポイントだと思います」とNorthcutt氏は結論付けました。 ®

コインスマート。 BesteBitcoin-ヨーロッパのBörse
出典：https：//go.theregister.com/feed/www.theregister.com/2021/04/01/mit_ai_accuracy/

生成的データインテリジェンス

ラベル付けに同意できないため、人間がAIシステムを誤ってリードしていることが判明

世界のAIのトレーニングに使用される1TBのImageNetデータセットの内部：裸の子供、酔っぱらいの友愛パーティー、ポルノスターなど

ホンダ、3台の新型電気自動車を発売…中国で、中国のために – CleanTechnica

米空軍、AI制御のF-16が人間と戦ったと発表

最新のインテリジェンス

人工的に: Indiegogo による人工知能の使い方を学ぶクラウドファンディングの機会プロジェクトのピッチ

Lightning Kayaks AIR 9: インフレータブルペダルボード Indiegogo によるクラウドファンディングの機会プロジェクトのピッチ

Quest 2 アクセサリの価格が 50% 以上値下げ

半減期がビットコイン市場に与える影響

米国、メキシコを反中国EV政策に引き込む – CleanTechnica

中国の科学者、F-22ステルス機探知の画期的な進歩を主張：F-22ステルスが脅かされる？ – テクノロジー系スタートアップ

私たちとチャット