ゼファーネットのロゴ

COVIDはすべてのモデルに何をしましたか?

日付:

COVIDはすべてのモデルに何をしましたか?

変更管理、複雑さ、解釈可能性、AIが人類を乗っ取るリスクについてのディーンアボットとジョンエルダーへのインタビュー。


By ヘザー・ファイソン、KNIME

COVIDはすべてのモデルに何をしましたか?

後に KNIME秋のサミット、恐竜は家に帰りました…まあ、彼らのラップトップのスイッチを切りました。 ディーンアボット および ジョン・エルダー、長年のデータサイエンスの専門家は、によって秋のサミットに招待されました Michael Liebreich の議論に彼に参加する データサイエンスの未来:業界の恐竜との炉辺談話。 その結果、データサイエンスの課題と新しいトレンドについてのきらめく会話が生まれました。 スタジオの照明を消してから、 Rosaria データサイエンスの世界における変更管理、複雑さ、解釈可能性などに関するハイライトのいくつかを抽出して拡張しました。 それが私たちをもたらした場所を見てみましょう。

現実が変化し、モデルを更新する必要がある場合、AIの変更管理についてどのような経験がありますか? COVIDはすべてのモデルに何をしましたか?

 
[ディーン] 機械学習(ML)アルゴリズムは、過去と未来の間の一貫性を前提としています。 物事が変わると、モデルは失敗します。 COVIDは私たちの習慣を変え、それゆえ私たちのデータを変えました。 COVID以前のモデルは新しい状況に対処するのに苦労しています。

[ジョン] 簡単な例は、Googleマップのトラフィックレイヤーです。 2020年に封鎖が国ごとに発生した後、Googleマップのトラフィックの見積もりはしばらくの間非常に不正確でした。 それはかなり安定したトレーニングデータに基づいて構築されていましたが、今ではそのシステムは完全に破壊されました。

世界が変化し、モデルが機能しなくなった時期をどのように把握しますか?

 
[ディーン] 私が使用するちょっとしたトリックは次のとおりです。データを時間で分割し、レコードに「前」と「後」のラベルを付けます。 次に、分類モデルを作成して、モデルが使用するのと同じ入力から「後」と「前」を区別します。 識別が可能な場合、「後」は「前」とは異なり、世界が変化し、データが変化し、モデルを再トレーニングする必要があります。

特に何年にもわたるカスタマイズの後、プロジェクトでモデルを再トレーニングすることはどれほど複雑ですか?

 
[ジョン] モデルのトレーニングは通常、すべての中で最も簡単なステップです。 それ以外の点では成功したプロジェクトの大部分 死ぬ 実装フェーズで。 最大 時間 データクレンジングと準備フェーズで費やされます。 そして最も 問題 ビジネス理解/プロジェクト定義フェーズで見落とされているか、作成されています。 したがって、欠陥が何であるかを理解し、新しいデータを取得して実装フレームワークを配置できる場合、比較すると、新しいモデルの作成は非常に簡単です。

数十年にわたる経験に基づいて、実際に機能するデータサイエンスアプリケーションをまとめるのはどれほど複雑ですか?

 
[ジョン] もちろん、複雑さによって異なります。 私たちのプロジェクトのほとんどは、少なくとも数か月で機能するプロトタイプを取得します。 しかし、結局のところ、フィードバックの重要性を十分に強調することはできません。あなたは、あなたが望むよりもはるかに頻繁に人々と話をしなければなりません。 そして聞いてください! 私たちは毎回、ビジネス上の問題、データ、または制約について新しいことを学びます。 私たちすべての量的な人々が人間と話すことに熟練しているわけではないので、それはしばしばチームを必要とします。 しかし、利害関係者のチーム全体が同じ言語を話すことを学ぶ必要があります。

[ディーン] 私たちのビジネスカウンターパートと話すことが重要です。 人々は変化を恐れ、現在の状況を変えたくないのです。 重要な問題の11つは、本当に心理的な問題です。 アナリストはしばしば迷惑と見なされます。 したがって、ビジネスの相手と分析オタクの間の信頼を構築する必要があります。 プロジェクトの開始には、常に次のステップを含める必要があります。ドメインの専門家/プロジェクトマネージャー、アナリスト、ITおよびインフラストラクチャ(DevOps)チームを同期して、プロジェクトの目的とその実行方法を全員が明確にします。 アナリストは、毎日会わなければならない人々のトップ10リストのXNUMX位です! データサイエンティストの傲慢さを具体化することは避けましょう。「ビジネスは私たち/私たちの技術を理解できませんが、何が最も効果的かはわかっています」。 しかし、私たちが理解していないのは、ドメインの専門家は実際には私たちが取り組んでいるドメインの専門家であるということです! データサイエンスの仮定とアプローチを、ドメインの専門家が理解できる言語に翻訳することが重要です。

現在の最新のトレンドはディープラーニングであり、どうやらそれはすべてを解決できるようです。 最近、学生から「ディープラーニングがデータサイエンスの問題を解決するための最先端であるのに、なぜ他のMLアルゴリズムを学ぶ必要があるのか​​」という質問がありました。

 
[ディーン] ディープラーニングは、部屋から多くの酸素を吸い出しました。 ニューラルネットワークが同様の楽観主義で上昇した1990年代初頭のように感じます! ディープラーニングは確かに強力なテクニックのセットですが、実装と最適化は困難です。 木のアンサンブルであるXGBoostも強力ですが、現在はより主流になっています。 高度な分析を使用して解決する必要のある問題の大部分は、実際には複雑なソリューションを必要としないため、単純なものから始めてください。 このような状況では、ディープラーニングはやり過ぎです。 オッカムの剃刀の原理を使用するのが最善です。XNUMXつのモデルが同じように機能する場合は、最も単純なものを採用します。

複雑さについて。 ディープラーニングとは反対のもうXNUMXつの傾向は、MLの解釈可能性です。 ここでは、モデルを説明できるように、モデルを大幅に(過度に?)単純化します。 解釈可能性はそれほど重要ですか?

 
[ジョン] 私はしばしば解釈可能性と戦っています。 それは確かに素晴らしいことですが、多くの場合、最も重要なモデルプロパティである信頼できる精度のコストが高すぎます。 しかし、多くの利害関係者は、解釈可能性が不可欠であると信じているため、それが受け入れの障壁になります。 したがって、どのような解釈可能性が必要かを発見することが不可欠です。 おそらく、最も重要な変数が何であるかを知っているだけですか? これは、多くの非線形モデルで実行できます。 たぶん、なぜ彼らが断られたのかを信用申請者に説明するのと同じように、一度にXNUMXつのケースのアウトプットを解釈する必要があるだけですか? 与えられた点の線形近似を構築できます。 または、ブラックボックスモデルからデータを生成し、そのデータに合うように複雑な「解釈可能な」モデルを構築することもできます。

最後に、調査によると、ユーザーがモデルで遊ぶ機会がある場合、つまり、入力の試行値でモデルを突いてその出力を確認し、おそらくそれを視覚化する場合、ユーザーは同じ温かい解釈可能性を感じることがわかっています。 全体として、モデルの背後にいる人とテクノロジーへの信頼は受け入れに必要であり、これは定期的なコミュニケーションと、モデルの最終的なユーザーをモデル化プロセスの構築フェーズと決定に含めることによって強化されます。

[ディーン] ちなみに、KNIME Analytics Platformには、ランダムフォレスト内の入力変数の重要性を定量化するための優れた機能があります。 ザ・ ランダムフォレスト学習者 ノードは、候補変数と分割変数の統計を出力します。 Random Forest Learnerノードを使用する場合は、覚えておいてください。

モデルの機能の説明を求める声が高まっています。 たとえば、一部のセキュリティクラスでは、欧州連合は、モデルが想定外の動作を行わないことの検証を要求しています。 すべてを説明する必要がある場合は、機械学習は道のりではないかもしれません。 機械学習はもう必要ありませんか?

 
[ディーン]  完全な説明性を得るのは難しいかもしれませんが、モデル入力に対してグリッド検索を実行して、モデルの機能を説明するスコアカードのようなものを作成することで進歩を遂げることができます。 これは、ハードウェアおよびソフトウェアのQAでの回帰テストのようなものです。 モデルが実行していることを正式に証明できない場合は、テストしてテストしてテストしましょう。 入力シャッフルとターゲットシャッフルは、モデルの動作の大まかな表現を実現するのに役立ちます。

[ジョン] モデルが何をするのかを理解することについて話すと、私は科学における再現性の問題を提起したいと思います。 すべての分野のジャーナル記事の大部分(65〜90%)は複製できないと考えられています。 これは科学における真の危機です。 医学論文は、その結果を再現する方法を教えようとします。 MLペーパーは、まだ再現性を気にしていないようです。 最近の調査によると、AIペーパーの15%だけがコードを共有しています。

機械学習バイアスについて話しましょう。 差別のないモデルを構築することは可能ですか?

 
[ジョン] (ちょっとオタクになるために、その言葉は残念ながらです 過負荷。 MLの世界で「区別する」というのがあなたの目標です。つまり、XNUMXつのクラスを区別することです。)しかし、実際の質問は、データ(および、アナリストがデータの弱点を調整するのに十分賢いかどうか)によって異なります。 ):モデルは、そこに反映されている情報をデータから引き出します。 コンピューターは、その前のデータにあるものを除いて、世界について何も知りません。 したがって、アナリストはデータをキュレートする必要があります—現実を反映するこれらのケースに対して責任を負います。 たとえば、特定のタイプの人々が過小評価されている場合、モデルは彼らにあまり注意を払わず、今後は彼らについてそれほど正確ではなくなります。 「ここに到達するためにデータは何を通過する必要がありましたか?」と私は尋ねます。 (このデータセットを取得するために)他のケースがプロセスの途中でどのように脱落した可能性があるかを考える(つまり、生存者バイアス)。 熟練したデータサイエンティストは、そのような問題を探し、それらを調整/修正する方法を考えることができます。

[ディーン] バイアスはアルゴリズムにはありません。 バイアスはデータにあります。 データに偏りがある場合、私たちは偏った世界観で作業しています。 数学は単なる数学であり、偏見はありません。

AIは人類を引き継ぐのでしょうか?!

 
[ジョン] AIは優れたエンジニアリングだと思います。 AIは人間の知性を超えますか? 私の経験では、40歳未満の人は誰でも「はい」と信じています。これは避けられないことであり、40歳を超える人のほとんど(私のように):いいえ! AIモデルは高速で、忠実で、従順です。 優れたジャーマンシェパード犬のように、AIモデルはそのボールを手に入れますが、表示されているデータ以外は世界について何も知りません。 常識はありません。 これは特定のタスクに最適なアシスタントですが、実際にはかなり薄暗いです。

[ディーン] その点で、AIの黎明期から1961年と1970年にマービンミンスキーが行ったXNUMXつの引用を報告したいと思います。これは、AIの将来をよく表していると思います。

「私たちの生涯の中で、いくつかのマシンは一般的な知性で私たちを超えるかもしれません」 (1961)

「XNUMX年からXNUMX年で、人間の知性を備えた機械ができあがります」 (1970)

これらのアイデアは長い間存在しています。 AIがすべての問題を解決できない理由のXNUMXつは、次のとおりです。XNUMXつの数値、XNUMXつの数値のみに基づいて、AIの動作を判断しています。 (モデルエラー。)たとえば、エラーメトリックとして二乗平均平方根エラーを使用してモデルを構築することによって予測される、今後XNUMX年間の株価の予測は、データが実際に行っていることの全体像を描くことができず、モデルを大幅に妨げる可能性があります。そして、パターンを柔軟に明らかにするその能力。 RMSEが粗すぎることは誰もが知っています。 ディープラーニングアルゴリズムは今後も改善されていきますが、モデルが実際にどれだけ優れているかを判断することも改善する必要があります。 だから、いや! AIが人類を引き継ぐとは思いません。

このインタビューは終わりになりました。 ディーンとジョンの時間と知識の丸薬に感謝します。 また会えることを願っています!

ディーンアボットとジョンエルダーについて

COVIDはすべてのモデルに何をしましたか ディーンアボット SmarterHQの共同創設者兼チーフデータサイエンティストです。 彼は、データサイエンスと予測分析の分野で国際的に認められた専門家であり革新者であり、オムニチャネルの顧客分析、不正検出、リスクモデリング、テキストマイニング、調査分析の問題を解決してきた2014年の経験があります。 先駆的なデータサイエンティストとデータサイエンティストのリストに頻繁に含まれ、世界中の会議で人気の基調講演者およびワークショップインストラクターであり、UC / Irvine PredictiveAnalyticsおよびUCSDData ScienceCertificateプログラムの諮問委員会にも参加しています。 彼は、Applied Predictive Analytics(Wiley、2013)の著者であり、IBM SPSS Modeler Cookbook(Packt Publishing、XNUMX)の共著者です。


COVIDはすべてのモデルに何をしましたか ジョン・エルダー 1995年に、アメリカで最大かつ最も経験豊富なデータサイエンスコンサルタント会社であるElder Researchを設立しました。シャーロッツビルVA、ボルチモアMD、ローリー、ノースカロライナ、ワシントンDC、ロンドンにオフィスを構え、実用的な知識を抽出することで、商業および政府のクライアントの何百もの課題を解決してきました。すべてのタイプのデータから。 エルダー博士は、実用的なデータマイニング、アンサンブル、テキストマイニングに関するXNUMX冊の本を共同執筆しました。そのうちXNUMX冊は「ブックオブザイヤー」賞を受賞しました。 Johnは、データマイニングツールを作成し、アンサンブル手法の発見者であり、国際会議の議長を務め、人気のあるワークショップおよび基調講演者です。


 
バイオ: ヘザー・ファイソン KNIMEのブログエディターです。 当初はイベントチームで、彼女の経歴は実際には翻訳と校正にあります。そのため、2019年にブログに移動することで、彼女はテキストを扱うという真の情熱に戻りました。 PS彼女は常に新しい記事についてのあなたのアイデアを聞くことに興味を持っています。

元の。 許可を得て転載。

関連する

コインスマート。 BesteBitcoin-ヨーロッパのBörse
出典:https://www.kdnuggets.com/2021/04/covid-do-all-our-models.html

スポット画像

最新のインテリジェンス

スポット画像