機能の選択 – これまで知りたかったことのすべて

データセットにはさまざまな特徴に関する多くの情報が含まれている可能性がありますが、機械学習モデルで考慮される「最良の」情報のみを選択することは、より優れたパフォーマンス、より高い精度、およびより優れたパフォーマンスを備えたモデルとの違いを意味する可能性があります。計算効率が向上しますが、結果は横ばいです。特徴選択のプロセスは、最も意味のあるデータのみを扱うように導きます。これを達成するために、探索できるさまざまな特徴選択のタイプ、方法論、テクニックが存在します。

注釈

By ダニー・ブトヴィニク、NICE Actimize のチーフデータサイエンティスト.

出典: TnTウッドクラフト。

次元削減手法としての特徴選択は、無関係な特徴、冗長な特徴、またはノイズの多い特徴を削除することによって、元の特徴から関連する特徴の小さなサブセットを選択することを目的としています。通常、特徴を選択すると、学習パフォーマンスが向上し、学習精度が向上し、計算コストが削減され、モデルの解釈可能性が向上します。この記事では、特徴選択プロセスに焦点を当て、データとアルゴリズムの両方の観点から、特徴選択のタイプ、方法論、およびテクニックの包括的かつ構造化された概要を提供します。

図 1: 特徴選択のための高レベルの分類。

この記事では、機能の選択プロセスについて説明します。データセット内の特徴量がサンプル数と同等かそれ以上に多いとモデルの過剰適合が発生し、検証データセットの結果が悪くなるため、この問題は重要です。さらに、多くの特徴を含むデータセットからモデルを構築すると、より多くの計算量が必要になります。

最適な特徴サブセットには関連性の高い特徴が常に必要であり、元の条件付きターゲット分布に影響を与えずに削除することはできません。

機能選択の目的は、関連性を最大化し、冗長性を最小限に抑えることです。

特徴選択方法をデータの前処理で使用して、効率的なデータ削減を実現できます。これは、正確なデータモデルを見つけるのに役立ちます。最適な特徴サブセットを徹底的に検索することはほとんどの場合実行不可能であるため、多くの検索戦略が文献で提案されています。特徴選択の通常の用途は、分類、クラスタリング、および回帰タスクです。

特徴選択とは

すべての機械学習ワークフローは、最新の機械学習パイプラインの基本的な構成要素である特徴抽出と特徴選択で構成される特徴エンジニアリングに依存しています。特徴抽出プロセスと特徴選択プロセスには一部重複する部分があるにもかかわらず、多くの場合、これらの用語は誤って同一視されます。特徴抽出は、ドメイン知識を使用して、機械学習アルゴリズムを機能させるための新しい変数を生データから抽出するプロセスです。特徴選択プロセスは、最も一貫性があり、関連性があり、冗長性のない特徴を選択することに基づいています。

特徴選択手法の目的には次のようなものがあります。

研究者/ユーザーが解釈しやすくするためのモデルの単純化
トレーニング時間の短縮
次元の呪いを避ける
過剰適合を減らすことで一般化を強化 (正式には分散の減少)

現在、研究者が自由に使える開発された分析手法が多数あるため、データセットサイズの削減がより重要になっていますが、特徴量とサンプルの数の両方に関して平均的なデータセットのサイズは増加し続けています。

図 2: 表形式データにおける特徴選択とデータサイズ削減の図。

一部の機能表現が他のものより優れているのはなぜですか?

特徴表現への技術的アプローチに関係なく、ほとんどの機械学習ワークフローでデータサイエンティストを悩ませる共通の質問があります。「一部の特徴表現が他の特徴表現よりも優れているのはなぜですか?」

最新の機械学習の問題が、ドメインの専門家が解釈できない数十万、さらには数百万の機能を使用していることを考えると、これは非常識な質問のように思えるかもしれません。

対象とする質問に対する簡単な答えはありませんが、従うことができる一般原則がいくつかあります。一般に、フィーチャ表現には次の XNUMX つの主要な望ましいプロパティがあります。

原因となる要因を解きほぐす
モデル化が簡単
正則化戦略とうまく連携する

基本的に、ソリッド表現には、観察されたデータの根本的な原因に対応する特徴が含まれます。より具体的には、この論文は、表現の品質を、基礎となるデータセット内のさまざまな原因にさまざまな特徴や方向が対応する構造に関連付け、表現によってある原因を別の原因から解きほぐすことができるようにします。

優れた表現を示すもう XNUMX つの主要な指標は、モデリングの単純さです。特定の機械学習の問題/データセットについて、根底にある原因要因を分離する多くの表現を見つけることができますが、それらをモデル化するのは非常に難しい場合があります。

教師あり特徴選択方法

教師あり特徴選択手法は、学習モデルとの相互作用に基づいて、フィルター手法、ラッパー手法、ハイブリッド手法、埋め込み手法などの XNUMX 種類に分類されます。

図 3: 教師あり特徴選択方法および技術の拡張分類法。

フィルタ方法

Filter メソッドでは、統計的尺度に基づいて特徴が選択されます。学習アルゴリズムから独立しており、必要な計算時間が短くなります。情報ゲイン、カイ二乗検定、フィッシャースコア、相関係数、分散しきい値は、特徴の重要性を理解するために使用される統計的尺度の一部です。

フィルター方法では、選択したメトリックを使用して無関係な属性を特定し、モデルから冗長な列をフィルターで除外します。モデルを強化する選択されたメジャーを分離するオプションが提供されます。列は、特徴スコアの計算に従ってランク付けされます。

ラッパー手法

Wrapper 手法では、特徴セットの選択を検索問題として考慮し、さまざまな組み合わせを準備、評価し、他の組み合わせと比較します。予測モデルは、機能の組み合わせを評価し、モデルのパフォーマンススコアを割り当てるために使用されます。

Wrapper メソッドのパフォーマンスは分類子に依存します。分類子の結果に基づいて、特徴の最適なサブセットが選択されます。

ハイブリッド手法

ハイブリッド特徴選択メソッドを作成するプロセスは、何を組み合わせるかを選択するかによって異なります。主な優先事項は、使用する方法を選択し、そのプロセスに従うことです。ここでの考え方は、これらのランキング方法を使用して最初のステップで機能ランキングリストを生成し、次に上位を使用することです。 k ラッパーメソッドを実行するには、このリストの機能を選択します。これにより、これらのフィルターベースのレンジャーを使用してデータセットの特徴空間を削減し、ラッパーメソッドの時間計算量を改善できます。

組み込み手法

組み込み技術では、特徴選択アルゴリズムが学習アルゴリズムの一部として統合されます。最も典型的な組み込み技術は決定木アルゴリズムです。デシジョンツリーアルゴリズムは、ツリー成長プロセスの再帰的な各ステップで特徴を選択し、サンプルセットをより小さなサブセットに分割します。

教師なし特徴選択方法

すぐに利用できるラベルが不足しているため、高次元データの分析には教師なし特徴選択 (UFS) 手法が広く採用されています。しかし、既存の UFS 手法のほとんどは、特徴間の冗長性を無視して、データ構造を維持する際の特徴の重要性に主に焦点を当てています。さらに、特徴の適切な数を決定することも別の課題です。

教師なし特徴選択手法は、学習モデルとの相互作用に基づいて、フィルター手法、ラッパー手法、ハイブリッド手法などの XNUMX つのタイプに分類されます。

図 4: 教師なし特徴選択方法および技術の拡張分類法。

フィルタ方法

フィルターアプローチに基づく教師なし特徴選択方法は、単変量と多変量に分類できます。単変量法、別名ランキングベースの教師なし特徴選択法は、特定の基準を使用して各特徴を評価し、順序付けされた特徴のランキングリストを取得します。この順序に従って最終的な特徴サブセットが選択されます。このような方法では、無関係な機能を効果的に特定して削除できますが、機能間の依存関係の可能性が考慮されていないため、冗長な機能を削除することはできません。一方、多変量フィルター手法では、特徴の関連性を個別ではなく共同で評価します。多変量メソッドは、冗長で無関係な特徴を処理できます。したがって、多くの場合、多変量手法で選択された特徴のサブセットを使用した学習アルゴリズムによって達成される精度は、単変量手法を使用して達成される精度よりも優れています。

ラッパー手法

ラッパーアプローチに基づく教師なし特徴選択方法は、大きく XNUMX つのカテゴリに分類できます。

特徴検索戦略に従って、逐次的、生物由来、反復的です。逐次的な方法論では、機能は逐次的に追加または削除されます。逐次検索に基づく方法は、実装が簡単で高速です。

一方、生物にインスピレーションを得た方法論は、局所最適化から逃れることを目的として、検索プロセスにランダム性を組み込もうとします。

反復法は、教師なし特徴選択問題を推定問題としてキャストし、組み合わせ検索を回避することで、教師なし特徴選択問題に対処します。

ラッパーメソッドは、特定のクラスタリングアルゴリズムの結果を使用して特徴サブセットを評価します。このアプローチに基づいて開発された方法は、選択に使用されるクラスタリングアルゴリズムの結果の品質の向上に寄与する特徴サブセットを見つけることを特徴としています。ただし、ラッパーメソッドの主な欠点は、通常、計算コストが高く、特定のクラスタリングアルゴリズムと組み合わせて使用するように制限されていることです。

ハイブリッド手法

ハイブリッド手法は、フィルターとラッパーの両方のアプローチの品質を活用し、効率 (計算量) と有効性 (選択された機能を使用する際の関連する目的タスクの品質) の間で適切な妥協点を見つけようとします。

フィルターとラッパーのアプローチを活用するために、ハイブリッド手法にはフィルターステージが含まれており、データの固有の特性に基づいた尺度を適用することで特徴がランク付けまたは選択されます。一方、ラッパー段階では、特定のクラスタリングアルゴリズムを通じて最適な機能サブセットを見つけるために特定の機能サブセットが評価されます。ハイブリッド方式には、ランキングに基づく方式と、特徴のランキングに基づかない方式の XNUMX 種類があります。

特徴選択アルゴリズムの特徴

特徴選択アルゴリズムの目的は、関連性の定義に従って関連する特徴を識別することです。ただし、機械学習における関連性の概念は、まだ共通の合意に基づいて厳密に定義されていません。関連性の主な定義は、目的に関して関連性があるという概念です。

文献には、特徴選択アルゴリズムを特徴付けるための考慮事項がいくつかあります。これらを考慮すると、この特徴付けは仮説空間における探索問題として次のように説明できます。

探索組織: 仮説の空間を探索するための一般的な戦略。
後継者の生成: 現在の仮説の可能なバリアント (後継候補) が提案されるメカニズム。
評価尺度: 後継候補を評価する機能。これにより、検索プロセスをガイドするためにさまざまな仮説を比較できます。

図 5: 特徴選択アルゴリズムの特徴。

金融犯罪ドメインの特徴表現

データサイエンスと機械学習における NICE Actimize の研究の一部は、特徴の選択と特徴の表現に関するものです。不正行為検出などのアプリケーション分野では、これらのタスクは、多様で、高次元で、まばらで、混合タイプのデータによってさらに複雑になります。

ドメイン知識に依存せずに、正確な分類モデルを誘導するために高次元のデータから適切な特徴セットを選択することは、計算上困難な課題です。

残念ながら、データマイニングや金融犯罪の分野では、一部のデータは長い配列の特徴によって記述されます。機能の考えられるすべての組み合わせを徹底的に試すには力技を使うと永遠に時間がかかるように思えますが、確率的最適化が解決策になる可能性があります。

したがって、金融データは時間とコンテキストに固有の性質を持っているため、潜在的な情報損失を最小限に抑えながら機能を適切に設計するには、その分野の専門知識が必要です。さらに、金融犯罪分野における指標の業界標準は存在しません。そのため、特に機械学習モデルの目的関数を定義する場合、特徴抽出と特徴選択の開発プロセスが非常に困難になります。

金融犯罪特徴空間ベクトルは、基礎となるロジックを保持しないため、幾何学的計画に投影できません。問題は、XNUMX つの金融取引 (XNUMX つの高次元の混合型ベクトル) 間の距離をどのように定義すべきかということです。

ぜひこの課題に挑戦し、次のことを考えてみてください。

カーディナリティが異なる XNUMX つのスパースで異種の特徴ベクトル (またはテンソル) の間で適切なメトリクスを定義するにはどうすればよいでしょうか?
有効な機能の検証を保証するメカニズムは何ですか? (有効な機能とは、非常に重要でドメインロジックを表す機能です)。

参考文献

Jovic 他、(2015) アプリケーションを使用した特徴選択方法のレビュー
Dadaneh et al., (2016) アリのコロニー最適化を使用した教師なしの確率的特徴選択。
Mohana (2016) 特徴選択の安定性対策に関する調査
Chandrashekar (2014) 特徴選択方法に関する調査
Kamkar ら、(2015) 安定した特徴選択に向けた特徴関係の利用。
Guo (2018) 依存関係による教師なし特徴選択。
Zhou ら、(2015) 安定した特徴選択アルゴリズム。
Yu (2004) 関連性と冗長性の分析による効率的な特徴選択
Fernandez et al.、(2020) 教師なし特徴選択方法のレビュー
Li ら、(2017) 特徴選択とその応用における最近の進歩
趙と劉煥。 (2007) 教師あり学習と教師なし学習のためのスペクトル特徴選択

関連する

= 前の投稿

過去30日間の人気記事

一番人気
データサイエンティストになるためのガイド (ステップバイステップアプローチ) データサイエンティスト、データエンジニア、その他のデータキャリア、説明 Vaex: パンダですが 1000 倍高速です SQL でのデータ準備、虎の巻付き! 上位のプログラミング言語とその使用法

ほとんど共有

コインスマート。 BesteBitcoin-ヨーロッパのBörse
出典: https://www.kdnuggets.com/2021/06/feature-selection-overview.html

生成的データインテリジェンス

機能の選択 – これまで知りたかったことのすべて

機能の選択 – これまで知りたかったことのすべて

特徴選択とは

一部の機能表現が他のものより優れているのはなぜですか?

教師あり特徴選択方法

教師なし特徴選択方法

特徴選択アルゴリズムの特徴

金融犯罪ドメインの特徴表現

参考文献

過去30日間の人気記事

アムステルダム・スキポール空港の夜間閉鎖が進めば、トランサヴィアはオランダ市場から撤退することを検討

サンフランシスコ、空港名の変更を巡りオークランドを相手取って訴訟

最新のインテリジェンス

キャデラックリリック、ヒュンダイサンタフェ、そして数多くのルシッドエアを運転 |オートブログポッドキャスト #828

Poe のマルチボットチャット: AI インタラクティブ性におけるゲームチェンジャー

Meta Llama 3: 大規模言語モデル標準の再定義

TelegramがTONブロックチェーン上のNFTとしてステッカーや絵文字をトークン化する計画を発表

ルーン文字はビットコインの長期的な安全性を解決する可能性がある：IntoTheBlock

ドミニク・プニ 2024 NFL ドラフトプロフィール

私たちとチャット