ゼファーネットのロゴ

アジャイルデータラベリング:それが何であり、なぜそれが必要なのか

日付:

アジャイルデータラベリング:それが何であり、なぜそれが必要なのか

ソフトウェア開発におけるアジャイルの概念は、生産性の革命で業界全体に波を起こしました。 機械学習のためにデータセットに注釈を付けるという、しばしば困難なタスクに同じ利点を適用できますか?


By ジェニファー・プレンキ、創設者兼CEO @ Alectio、機械学習起業家.

敏捷性の概念は確かにテクノロジーで人気のあるものですが、データのラベル付けに自然に関連付けるものではありません。 そして、その理由を理解するのはかなり簡単です。「アジャイル」は通常、効率を高めます。 ただし、MLサークルでは、欲求不満の溜息を吐き出すことなく、ラベル付けについて議論することはほとんどありません。

図1:アジャイルマニフェストは、ソフトウェア開発者がそれらをより生産的にすると信じている一連の「ルール」を説明しています。

アジャイルがどのように広く採用されるようになったのかを理解するには、その起源に戻る必要があります。 2001年、17人のソフトウェアエンジニアのグループがユタ州のリゾートに集まり、業界をより良くする方法についてブレインストーミングを行いました。 彼らは、プロジェクトの管理方法が不適切で非効率的であり、過度に規制されていると考えていました。 そこで、彼らはアジャイルマニフェストを思いつきました。これは、ソフトウェアエンジニアリングチームのスループット(および健全性のレベル!)を向上させることができると考えた一連のガイドラインです。 アジャイルマニフェストは、進歩を妨げていたプロセスの欠如に対する抗議でした。 そして多くの点で、これはまさにデータのラベル付けに必要なものです。

図2:アジャイルマニフェストとそのコア原則の詳細。

機械学習に戻る。 それについては疑問の余地はありません。過去数十年にわたってこの分野で達成した進歩は、単に気が遠くなるようなものです。 実際、ほとんどの専門家は、テクノロジーの進化が速すぎて、法律や機関が追いつけないことに同意しています。 (確信が持てませんか?DeepFakesが世界平和にもたらす可能性のある悲惨な結果について考えてみてください)。 それでも、新しいAI製品の爆発的な増加にもかかわらず、MLプロジェクトの成功はXNUMXつに要約されます。それはデータです。 データを収集、保存、検証、クリーンアップ、または処理する手段がない場合、MLモデルは永遠に遠い夢のままになります。 世界で最も権威のあるML企業のXNUMXつであるOpenAIでさえ、 研究者に必要なデータを取得する手段がないと判断した後、部門のXNUMXつを閉鎖することにしました。.

そして、使用するオープンソースデータセットを見つけることだけが必要だと思う場合は、もう一度考えてみてください。関連するオープンソースデータがほとんど存在しないユースケースだけでなく、 これらのデータセットのほとんどは、驚くほど誤解されています、そしてそれらを本番環境で使用することは無責任にほかなりません。

当然のことながら、これまで以上に優れた手頃な価格のハードウェアがあれば、独自のデータセットを収集することはもはやそれほど問題にはならないはずです。 ただし、主要な問題は、注釈を付ける必要があるため、これらのデータをそのまま使用することはできないということです。 見た目にもかかわらず、それは簡単な作業ではありません。

図3:オブジェクト検出またはオブジェクトセグメンテーションのユースケースのためにこの画像のすべての平面に注釈を付けると、熟練した専門家であっても50,000時間以上かかる可能性があります。 XNUMX枚の画像に対してそれを行う必要があり、助けなしに注釈の品質を保証する必要があると想像してみてください。

データのラベル付けは困難です。 多くのML科学者にとって、データに注釈を付けることは、彼らのワークロードの途方もなく大きな部分を占めています。 また、データに自分で注釈を付けることはほとんどの人にとって楽しい作業ではありませんが、プロセスをサードパーティにアウトソーシングすることはさらに面倒な場合があります。

図4:Train AI2018でのAndreyKarpathyのスライドのXNUMXつの写真。ここでは、彼と彼のチームがテスラでのデータ準備に費やした時間を説明しています。

会ったことのない完全な見知らぬ人に説明しなければならず、有毒なツイート、検索クエリに関連する結果、または写真の歩行者と見なすものと直接通信できないと想像してみてください。 何百人もの人々がそれぞれ異なる意見や背景を持っていても、あなたの指示をまったく同じように理解し、あなたが達成しようとしていることについて何も知らないことを保証することを想像してみてください。 それこそが、ラベリングプロセスのアウトソーシングです。

図5:広告の人物に人物のラベルを付ける必要がありますか?

これはアジャイルと何の関係がありますか? さて、まだ推測していなければ、ラベリングに関するMLの科学者の間で高まる欲求不満は、私たちが物事をどのように成し遂げるかを再考する時が来たという私たちの手がかりかもしれません。 データラベリングのアジャイルマニフェストの時が来ました。

ソフトウェア開発のアジャイルマニフェストは、基本的にXNUMXつの基本的な概念に要約されます。 反応性。 厳格なアプローチは機能しないと述べています。 代わりに、ソフトウェアエンジニアは、顧客や同僚からのフィードバックに依存する必要があります。 彼らは彼らが彼らの最終的な目標を達成することができることを確実にするために彼らの過ちから適応しそして学ぶ準備ができているべきです。 フィードバックと反応性の欠如が、チームがアウトソーシングを恐れる理由であるため、これは興味深いことです。 これが、ラベル付けタスクにばかげた時間がかかり、企業に数百万ドルの費用がかかることが多い主な理由です。

データラベリングのアジャイルマニフェストを成功させるには、同じ反応性の原則から始める必要があります。これは、データラベリング会社の説明には驚くほど欠けています。 トレーニングデータの準備を成功させるには、協力、フィードバック、および規律が必要です。

図5:データラベリングのアジャイルマニフェスト。

1.複数の方法/ツールを組み合わせる

の概念 自動ラベル付けMLモデルを使用して「合成」ラベルを生成することで構成されるは、近年ますます人気が高まっており、現状にうんざりしている人々に希望を与えていますが、データラベル付けを合理化するためのXNUMXつの試みにすぎません。 真実は、しかし、単一のアプローチがすべての問題を解決するわけではありません。たとえば、自動ラベル付けの中心には、鶏が先か卵が先かという問題があります。 だからこそのコンセプト ヒューマンインザループ ラベリングは勢いを増しています。

とは言うものの、これらの試みは調整されていないと感じており、これらの新しいパラダイムが自分たちの課題にどのように適用されるかを理解するのに苦労している企業にはほとんど、あるいはまったく安心をもたらしません。 そのため、業界は既存のツールに関してより多くの可視性と透明性を必要としています(これに対する素晴らしい最初の試みは TWIMLソリューションガイド、特にラベリングソリューションを対象とはしていませんが)、これらのツール間の簡単な統合、およびMLライフサイクルの残りの部分と自然に統合されるエンドツーエンドのラベリングワークフロー。

2.市場の強さを活用する

プロセスのアウトソーシングは、サードパーティが満足のいく結果を提供できない特殊なユースケースのオプションではない場合があります。 これは、ほとんどのラベリング会社がクラウドソーシングまたはBPOのいずれかに依存しているためです。つまり、アノテーターは高度なスキルを持つ労働力ではなく、MRIで脳腫瘍に注釈を付けることはできません。 幸いなことに、一部の新興企業は現在、特定の業種に特化したサービスの提供に焦点を合わせています。

しかし、専門家が必要かどうかに関係なく、あなたに適した会社を特定することは依然として困難です。 ほとんどのラベリング会社はそれをすべて行いますが、最終的には独自の長所と短所があり、顧客はXNUMX年間の契約に署名した後にのみそれを発見することがよくあります。 すべてのオプションを比較することは、必要なときに利用できる最高のアノテーターを見つけるための鍵であり、プロセスの重要な部分である必要があります。

3.反復的なアプローチを取る

フィードバックは機械学習の中心にありますが、データにラベルを付けるプロセスは、実際にはフィードバックループから驚くほど免除されています。 盲目的にモデルを開発することを考える人は誰もいませんが、それでも、ラベルを生成するために伝統的に行われていることです。 クロールウォークランアプローチを使用して、ラベル付けプロセスとモデルのデータセットを調整および最適化することは、間違いなく進むべき道です。 そのため、マシンが事前に注釈を付け、人間が検証する、ヒューマンインザループベースのパラダイムが明らかに勝者です。

さらに有望なアプローチは、モデルの手がかりを聞いてモデルが失敗している場所と理由を特定し、不良ラベルを特定し、必要に応じて修正することです。 これを行うXNUMXつの方法は、アクティブラーニングを使用することです。

4.量より質を優先する

データが多ければ多いほど良いと教えられた場合、それは間違いなくあなただけではありません。それは機械学習で最も一般的な誤解のXNUMXつです。 ただし、重要なのはボリュームではなく、多様性です。 スケールは単に過大評価されています。 ブートストラップするには明らかにいくつかのデータが必要ですが、大量のデータは容赦なく収穫逓減につながります。これは純粋な経済学です。

代わりに、多くの場合、無駄なデータの負荷にラベルを付けるよりも、戦略的に選択されたトレーニングデータセットに適切なラベルを取得するために時間とお金を投資する方が有益です。 データキュレーション(最も影響力のあるトレーニングレコードをサンプリングするという概念)がMLライフサイクルに確実に組み込まれるようにすることは、今後数年間のMLOpsの重要な焦点となるはずです。

ほとんどのデータサイエンティストのように、データラベリングに不満を感じている場合は、それらすべてのアイデアを試してみる時期かもしれません。 アジャイルの初期の頃と同じように、どの教訓も特に難しいものではありませんが、それらはすべて自己規律と意識を必要とします。

これらのベストプラクティスを世界中のデータサイエンティストの日常の習慣に組み込むには確かに長い道のりがありますが、他の意味のある変化と同様に、それは2001つから始まります。 XNUMX年に、スキーリゾートでの会議が、ソフトウェア開発革命につながるエンジンを始動するために必要なすべてであったことを思い出してください。 私たちの革命は、疑いを持たない目の前ですでに展開しているかもしれません。実際、おそらくそうです。 どうぞお楽しみに。

バイオ: ジェニファー・プレンキ博士 は、最初のML主導のData PrepOpsプラットフォームであるAlectioの創設者兼CEOです。 彼女と彼女のチームは、MLチームがより少ないデータでモデルを構築し、「従来の」データ準備に関連するすべての問題点を取り除くのを支援する使命を帯びています。 Alectioの前は、JenniferはFigureEightの機械学習担当副社長でした。 彼女はまた、AtlassianでML機能全体をゼロから構築し、WalmartLabsの検索チームで複数のデータサイエンスプロジェクトを主導しました。 彼女は、アクティブラーニングとMLライフサイクル管理の業界トップの専門家の一人として認められており、技術的な聴衆と技術的でない聴衆の両方に対応することを楽しんでいる熟練した講演者です。

関連する


PlatoAi。 Web3の再考。 増幅されたデータインテリジェンス。
アクセスするには、ここをクリックしてください。

出典:https://www.kdnuggets.com/2021/08/agile-data-labeling.html

スポット画像

最新のインテリジェンス

スポット画像