私達と接続する

ビッグデータ

US SECは、アナリストに情報を漏らしたとしてAT&Tの幹部に請求します

アバター

公開済み

on

クリス・プレンティス

ワシントン(ロイター)–金曜日の米国証券取引委員会は、2016年の四半期予想を下回らないように、非公開情報をリサーチアナリストに開示したとしてAT&TIncとXNUMX人の幹部を訴えました。

AT&Tは、2016年XNUMX月に、スマートフォンの第XNUMX四半期の売上が予想よりも急減すると、アナリストの予想を下回ることを知ったとされています。そのため、電話会社の最高財務責任者は、投資家向け広報担当者に「アナリストに働きかける」よう指示しました。彼らの見積もりを下げるために、SECは裁判所の提出書類で言った。

SECは、投資家向け広報担当役員のクリストファー・ウォマック、マイケル・ブラック、ケント・エバンスが約20社のアナリストにXNUMX対XNUMXの非公開の電話をかけ、証券法に違反して重要な非公開情報を開示したと述べた。

AT&Tは、オンラインで公開された長い声明の中でこの主張を否定し、次のように述べています。「AT&Tは、アナリストが問題を提起する前に、この傾向を何度も公表しただけでなく、電話販売の減少が収益に重大な影響を与えなかったことも明らかにしました。 」

同社はまた、中核事業はワイヤレスサービスの販売であり、機器収益の減少はAT&Tにとって重要ではないと述べた。

Womack、Black、およびEvansの弁護士は、コメントの要求にすぐには応答しませんでした。

SECによると、リークによりアナリストは予測を引き下げ、26年2016月1.7日に四半期決算を発表したときにAT&Tが予想を上回る収益を報告できるようになりました。AT&Tの株価は翌日XNUMX%上昇しました。

SECによると、この申し立ては、企業が重要な情報を一般に公開せずに証券アナリストに開示することを禁じている規制違反を表しています。 訴訟はマンハッタンで提起されました。

(ワシントンのEricBeechとニューヨークのJonStempelによる追加レポート、Mohammad Zargham、David Gregorio、Sonya Hepinstallによる編集)

画像著作権:ロイター

PrimeXBTをチェックアウト
ACミランの公式CFDパートナーとの取引
暗号を取引する最も簡単な方法。
出典:https://datafloq.com/read/us-sec-charges-att-executives-leaking-information-analysts/12953

ビッグデータ

EHRデータは患者が健康データを所有するための運動を開始します

アバター

公開済み

on

EHRデータ の正式な立ち上げを発表しました EHRデータウェーブメーカー、患者が自分の健康データを所有および制御できるようにするために、医療業界で切望されている変化を推進する波を作成するように個人を教育し、権限を与えることを目的とした運動。

あらゆる分野の多くの人々が、自分自身または愛する人の治療やケアに悪影響を及ぼした可能性のある自分の健康記録の取得と共有の遅れや失敗による誤解に対処した経験があったに違いありません。 EHRデータウェーブメーカーの最前線 運動 は、ハッシュタグ#myEHRstoryを使用してソーシャルメディアでストーリーを共有することを人々に奨励するデジタルキャンペーンMy EHRStoryです。 これにより、患者が個人の健康データにアクセスするのが困難な現在の状況(データを所有および管理するのが正当な場合)についての認識が高まるだけでなく、責任あるデータ管理に向けた動きを先導します。 ブロックチェーンベース グローバルヘルスケアデータベース。

「EHRDataは、米国で41年間存在している会社です。これは、新興企業ではありません。 これは、米国のヘルスケアデータの世界で重要なプレーヤーです。41年の経験を生かして、Craig Wrightのリードに従い、人々が自分のデータ、この場合はヘルスケアデータをより細かく制御できるようにしています。 彼らはより多くの患者の安全を作りたいと思っています。 彼らは、すべての健康データがブロックチェーン上のXNUMXつの場所に存在できるように、グローバルな電子健康記録の概念を構築しています。 私が一般開業医の医者に行く米国や多くの国で私たちが持っている現在のシステムとは対照的に、それらは私の健康記録のいくつかを持っています。 私の歯科医はいくつかの健康記録を持っています。」 ビットコイン協会 創設者のジミー・グエン社長は、 Bitcoin SV 昨年スロベニアのリュブリャナで開催されたイベント中のブロックチェーン。

この動きは、これ以上適切な時期には到来しなかったでしょう。 人々がパンデミックのこの時期にデータの価値を認識しているので、今こそ波を起こし、人々がデータを所有してその恩恵を受けるために必要な変更を実施する時です。 それだけでなく、グローバルヘルスケアデータベースはビットコインSVブロックチェーン上に構築されており、データに透明性、セキュリティ、スケーラビリティ、および不変性を提供します。 さらに、 ビットコインSVブロックチェーン 収容することができます ビッグデータと低コストのマイクロトランザクション 経済的に動機付けられたモデルで動作し、

これにより、グローバルなヘルスケアデータベースに最適です。

「時代は変わりつつあり、相互運用性と、健康データへのアクセスを増やす患者の絶対的な権利により大きな焦点が当てられています。 私たちはこのプロセスの先頭に立ち、羊飼いをします。 EHRデータのチーフサイエンティストであるRonAustring氏は、医療データを一元管理し、患者とそのプロバイダーのチームがいつでもアクセスできるように管理し、許可する時期が来ています」と説明しました。

患者は自分の健康データを所有しているため、さまざまな機関で使用するためにデータが必要になるたびに許可を求められ、その費用が支払われます。 これは、大企業だけが人々のデータを収集することで利益を得る現在のシステムとは対照的です。 そして、これが変化の必要性がある理由です。 人々は、システムに革命を起こすために集まって、データの所有権を取り戻す必要があります。

訪問 https://ehrdata.com/この運動の一部になり、あなたの物語を共有する方法についてもっと学ぶために、ウェーブメーカー。

著者:マッキーマクラン

ソースリンク:https://bitcoinassociation.net/bitcoin-sv-means-business-why-bsv-is-the-enterprise-friendly-blockchain/

 

続きを読む

人工知能

ディープラーニングと機械学習:新興分野が従来のコンピュータープログラミングにどのように影響するか

アバター

公開済み

on

XNUMXつの異なる概念が大きく絡み合っている場合、それらを別個の学術トピックとして分離することは困難な場合があります。 それはなぜ分離するのがとても難しいのかを説明するかもしれません 深い学習 from 機械学習 全体として。 自動化と即時の満足の両方に対する現在の推進力を考慮すると、このトピックに新たな焦点が山積みされています。

自動化された製造業のワーフクローから パーソナライズされたデジタル医療 依存するように成長する可能性があります 深い学習 技術。 しかし、これらの業界に革命をもたらすこの技術分野の正確な側面を定義することは、確かにはるかに困難です。 おそらく、コンピュータサイエンスのより大きな動きの文脈で、ディープラーニングを検討するのが最善でしょう。

深層学習を機械学習のサブセットとして定義する

機械学習 ディープラーニングは本質的に同じコインの両面です。 深層学習技術は、同じように幅広い状況で正しい応答を予測できる、訓練された人工知能エージェントの多種多様なものを含む、はるかに大きな分野に属する特定の分野です。 ただし、ディープラーニングをこれらの他のすべての手法から独立させているのは、多くの仮想環境で可能な限り最良のアクションを学習することにより、特定の目標を達成するためにエージェントを教えることにほぼ専念しているという事実です。

従来の機械学習アルゴリズムは通常、暗記によって刺激に応答する方法を人工ノードに教えます。 これは、単純な繰り返しで構成される人間の指導技法にいくぶん似ているため、コンピューターで計算された、九九を暗唱できるようになるまで九九を走る学生と同等であると考えることができます。 これはある意味では効果的ですが、そのような方法で教育された人工知能エージェントは、元の設計仕様の範囲外の刺激に応答できない場合があります。

そのため、ディープラーニングのスペシャリストは、多くの点ではるかにハードウェアを集中的に使用しているにもかかわらず、この方法よりもいくらか優れていると考えられる代替アルゴリズムを開発しました。 深層学習エージェントによって使用されるサブルーチンは、生成的敵対的ネットワーク、畳み込みニューラルノード構造、または制限付きボルツマンマシンの実用的な形式に基づいている場合があります。 これらは、従来の機械学習ファームウェアや最新のファイルシステムの大部分で使用されているバイナリツリーやリンクリストとは対照的です。

自己組織化マップも広くディープラーニングに使用されていますが、他のAI研究分野でのアプリケーションは、通常、それほど有望ではありません。 定義することになると ディープラーニングと機械学習 ただし、議論は、技術者が今後数か月の間に理論的な学術的議論よりも実用的なアプリケーションを探している可能性が高いです。 機械学習は、最も単純なAIから最も洗練された予測アルゴリズムまですべてを網羅し、ディープラーニングはこれらの手法のより選択的なサブセットを構成すると言えば十分です。

ディープラーニングテクノロジーの実用化

特定のプログラムの作成方法に応じて、深層学習手法を教師ありまたは半教師ありニューラルネットワークに沿って展開できます。 理論的には、次のことも可能です。 完全に監視されていないノードレイアウトを介してこれを行います、そしてすぐに最も有望になったのはこのテクニックです。 このアプリケーションは、既知の入力に対してテストする必要のある固有のグラフィック情報をコンピュータプログラムに提示することが多いため、教師なしネットワークは医療画像分析に役立つ場合があります。

従来の二分木または ブロックチェーンベースの学習システム 情報は、データを効果的に提示するように設計されていたはずの構造に隠されたままであるため、劇的に異なるシナリオで同じパターンを特定するのに苦労しました。 これは本質的にステガノグラフィの自然な形であり、ヘルスケア業界のコンピューターアルゴリズムを混乱させてきました。 ただし、この新しいタイプの教師なし学習ノードは、コンピューターが期待する通常の線に沿って編成されていないデータ構造でも、これらのパターンを一致させる方法について事実上教育することができます。

他の人は実装を提案しました 半教師あり人工知能マーケティングエージェント これにより、既存の取引成立ソフトウェアに関する倫理に関する懸念の多くを取り除くことができます。 これらのツールは、できるだけ多くの顧客ベースに到達しようとする代わりに、特定の時間に製品を必要とする特定の個人のオッズを計算します。 そのためには、組織が代表して活動する特定の種類の情報が必要になりますが、最終的には、それ以降のすべてのアクションを独自に予測できるようになります。

現在、同じ目標を達成するために従来の機械学習テクノロジーを利用するツールに依存している企業もありますが、これらは多くの場合、 プライバシー と倫理的な懸念。 深く構造化された学習アルゴリズムの出現により、ソフトウェアエンジニアはこれらの欠点に悩まされない新しいシステムを思い付くことができました。

プライベート自動学習環境の開発

従来の機械学習プログラムはしばしば深刻な問題にぶつかります プライバシー 有用な結論を引き出すために膨大な量の入力が必要であるという事実のために懸念があります。 深層学習画像認識ソフトウェア 入力のより小さなサブセットを処理することで機能するため、そのために多くの情報を必要としないことが保証されます。 ジョブ。 これは、 消費者データ漏えいの可能性.

これらの問題の多くに対する新しい規制スタンスを考慮すると、コンプライアンスの観点からもすぐに重要になるものになります。 毒物学研究室が使い始めると 生物活性に焦点を当てた深く構造化された学習パッケージ、規制当局は、この種の機密データを使用して特定のタスクを実行するために必要な情報の量に関して、追加の懸念を表明する可能性があります。 コンピュータ科学者は、ほとんどの人が快適に感じるよりも多くの物語を語る、バイトの真の消防ホースと呼ばれるものを縮小しなければなりませんでした。

ある意味で、これらの開発は、システム内の各プロセスがそのジョブを完了するために必要な量の特権のみを持つべきであると信じられていた以前の時代にまでさかのぼります。 機械学習エンジニアがこのパラダイムを採用しているため、今日の既存の運用を強化するために必要な大量のデータマイニングを必要としないという理由だけで、将来の開発はかなり安全になる可能性が高くなります。

画像クレジット:toptal.io

コインスマート。 BesteBitcoin-ヨーロッパのBörse
出典:https://datafloq.com/read/deep-learning-vs-machine-learning-how-emerging-field-influences-traditional-computer-programming/13652

続きを読む

AI

COVIDはすべてのモデルに何をしましたか?

アバター

公開済み

on

COVIDはすべてのモデルに何をしましたか?

変更管理、複雑さ、解釈可能性、AIが人類を乗っ取るリスクについてのディーンアボットとジョンエルダーへのインタビュー。


By ヘザー・ファイソン、KNIME

COVIDはすべてのモデルに何をしましたか?

後に KNIME秋のサミット、恐竜は家に帰りました…まあ、彼らのラップトップのスイッチを切りました。 ディーンアボット   ジョン・エルダー、長年のデータサイエンスの専門家は、によって秋のサミットに招待されました マイケル の議論に彼に参加する データサイエンスの未来:業界の恐竜との炉辺談話。 その結果、データサイエンスの課題と新しいトレンドについてのきらめく会話が生まれました。 スタジオの照明を消してから、 Rosaria データサイエンスの世界における変更管理、複雑さ、解釈可能性などに関するハイライトのいくつかを抽出して拡張しました。 それが私たちをもたらした場所を見てみましょう。

現実が変化し、モデルを更新する必要がある場合、AIの変更管理についてどのような経験がありますか? COVIDはすべてのモデルに何をしましたか?

 
[ディーン] 機械学習(ML)アルゴリズムは、過去と未来の間の一貫性を前提としています。 物事が変わると、モデルは失敗します。 COVIDは私たちの習慣を変え、それゆえ私たちのデータを変えました。 COVID以前のモデルは新しい状況に対処するのに苦労しています。

[ジョン] 簡単な例は、Googleマップのトラフィックレイヤーです。 2020年に封鎖が国ごとに発生した後、Googleマップのトラフィックの見積もりはしばらくの間非常に不正確でした。 それはかなり安定したトレーニングデータに基づいて構築されていましたが、今ではそのシステムは完全に破壊されました。

世界が変化し、モデルが機能しなくなった時期をどのように把握しますか?

 
[ディーン] 私が使用するちょっとしたトリックは次のとおりです。データを時間で分割し、レコードに「前」と「後」のラベルを付けます。 次に、分類モデルを作成して、モデルが使用するのと同じ入力から「後」と「前」を区別します。 識別が可能な場合、「後」は「前」とは異なり、世界が変化し、データが変化し、モデルを再トレーニングする必要があります。

特に何年にもわたるカスタマイズの後、プロジェクトでモデルを再トレーニングすることはどれほど複雑ですか?

 
[ジョン] モデルのトレーニングは通常、すべての中で最も簡単なステップです。 それ以外の点では成功したプロジェクトの大部分 死ぬ 実装フェーズで。 最大 時間 データクレンジングと準備フェーズで費やされます。 そして最も 問題 ビジネス理解/プロジェクト定義フェーズで見落とされているか、作成されています。 したがって、欠陥が何であるかを理解し、新しいデータを取得して実装フレームワークを配置できる場合、比較すると、新しいモデルの作成は非常に簡単です。

数十年にわたる経験に基づいて、実際に機能するデータサイエンスアプリケーションをまとめるのはどれほど複雑ですか?

 
[ジョン] もちろん、複雑さによって異なります。 私たちのプロジェクトのほとんどは、少なくとも数か月で機能するプロトタイプを取得します。 しかし、結局のところ、フィードバックの重要性を十分に強調することはできません。あなたは、あなたが望むよりもはるかに頻繁に人々と話をしなければなりません。 そして聞いてください! 私たちは毎回、ビジネス上の問題、データ、または制約について新しいことを学びます。 私たちすべての量的な人々が人間と話すことに熟練しているわけではないので、それはしばしばチームを必要とします。 しかし、利害関係者のチーム全体が同じ言語を話すことを学ぶ必要があります。

[ディーン] 私たちのビジネスカウンターパートと話すことが重要です。 人々は変化を恐れ、現在の状況を変えたくないのです。 重要な問題の11つは、本当に心理的な問題です。 アナリストはしばしば迷惑と見なされます。 したがって、ビジネスの相手と分析オタクの間の信頼を構築する必要があります。 プロジェクトの開始には、常に次のステップを含める必要があります。ドメインの専門家/プロジェクトマネージャー、アナリスト、ITおよびインフラストラクチャ(DevOps)チームを同期して、プロジェクトの目的とその実行方法を全員が明確にします。 アナリストは、毎日会わなければならない人々のトップ10リストのXNUMX位です! データサイエンティストの傲慢さを具体化することは避けましょう。「ビジネスは私たち/私たちの技術を理解できませんが、何が最も効果的かはわかっています」。 しかし、私たちが理解していないのは、ドメインの専門家は実際には私たちが取り組んでいるドメインの専門家であるということです! データサイエンスの仮定とアプローチを、ドメインの専門家が理解できる言語に翻訳することが重要です。

現在の最新のトレンドはディープラーニングであり、どうやらそれはすべてを解決できるようです。 最近、学生から「ディープラーニングがデータサイエンスの問題を解決するための最先端であるのに、なぜ他のMLアルゴリズムを学ぶ必要があるのか​​」という質問がありました。

 
[ディーン] ディープラーニングは、部屋から多くの酸素を吸い出しました。 ニューラルネットワークが同様の楽観主義で上昇した1990年代初頭のように感じます! ディープラーニングは確かに強力なテクニックのセットですが、実装と最適化は困難です。 木のアンサンブルであるXGBoostも強力ですが、現在はより主流になっています。 高度な分析を使用して解決する必要のある問題の大部分は、実際には複雑なソリューションを必要としないため、単純なものから始めてください。 このような状況では、ディープラーニングはやり過ぎです。 オッカムの剃刀の原理を使用するのが最善です。XNUMXつのモデルが同じように機能する場合は、最も単純なものを採用します。

複雑さについて。 ディープラーニングとは反対のもうXNUMXつの傾向は、MLの解釈可能性です。 ここでは、モデルを説明できるように、モデルを大幅に(過度に?)単純化します。 解釈可能性はそれほど重要ですか?

 
[ジョン] 私はしばしば解釈可能性と戦っています。 それは確かに素晴らしいことですが、多くの場合、最も重要なモデルプロパティである信頼できる精度のコストが高すぎます。 しかし、多くの利害関係者は、解釈可能性が不可欠であると信じているため、それが受け入れの障壁になります。 したがって、どのような解釈可能性が必要かを発見することが不可欠です。 おそらく、最も重要な変数が何であるかを知っているだけですか? これは、多くの非線形モデルで実行できます。 たぶん、なぜ彼らが断られたのかを信用申請者に説明するのと同じように、一度にXNUMXつのケースのアウトプットを解釈する必要があるだけですか? 与えられた点の線形近似を構築できます。 または、ブラックボックスモデルからデータを生成し、そのデータに合うように複雑な「解釈可能な」モデルを構築することもできます。

最後に、調査によると、ユーザーがモデルで遊ぶ機会がある場合、つまり、入力の試行値でモデルを突いてその出力を確認し、おそらくそれを視覚化する場合、ユーザーは同じ温かい解釈可能性を感じることがわかっています。 全体として、モデルの背後にいる人とテクノロジーへの信頼は受け入れに必要であり、これは定期的なコミュニケーションと、モデルの最終的なユーザーをモデル化プロセスの構築フェーズと決定に含めることによって強化されます。

[ディーン] ちなみに、KNIME Analytics Platformには、ランダムフォレスト内の入力変数の重要性を定量化するための優れた機能があります。 ザ・ ランダムフォレスト学習者 ノードは、候補変数と分割変数の統計を出力します。 Random Forest Learnerノードを使用する場合は、覚えておいてください。

モデルの機能の説明を求める声が高まっています。 たとえば、一部のセキュリティクラスでは、欧州連合は、モデルが想定外の動作を行わないことの検証を要求しています。 すべてを説明する必要がある場合は、機械学習は道のりではないかもしれません。 機械学習はもう必要ありませんか?

 
[ディーン]  完全な説明性を得るのは難しいかもしれませんが、モデル入力に対してグリッド検索を実行して、モデルの機能を説明するスコアカードのようなものを作成することで進歩を遂げることができます。 これは、ハードウェアおよびソフトウェアのQAでの回帰テストのようなものです。 モデルが実行していることを正式に証明できない場合は、テストしてテストしてテストしましょう。 入力シャッフルとターゲットシャッフルは、モデルの動作の大まかな表現を実現するのに役立ちます。

[ジョン] モデルが何をするのかを理解することについて話すと、私は科学における再現性の問題を提起したいと思います。 すべての分野のジャーナル記事の大部分(65〜90%)は複製できないと考えられています。 これは科学における真の危機です。 医学論文は、その結果を再現する方法を教えようとします。 MLペーパーは、まだ再現性を気にしていないようです。 最近の調査によると、AIペーパーの15%だけがコードを共有しています。

機械学習バイアスについて話しましょう。 差別のないモデルを構築することは可能ですか?

 
[ジョン] (ちょっとオタクになるために、その言葉は残念ながらです 過負荷。 MLの世界で「区別する」というのがあなたの目標です。つまり、XNUMXつのクラスを区別することです。)しかし、実際の質問は、データ(および、アナリストがデータの弱点を調整するのに十分賢いかどうか)によって異なります。 ):モデルは、そこに反映されている情報をデータから引き出します。 コンピューターは、その前のデータにあるものを除いて、世界について何も知りません。 したがって、アナリストはデータをキュレートする必要があります—現実を反映するこれらのケースに対して責任を負います。 たとえば、特定のタイプの人々が過小評価されている場合、モデルは彼らにあまり注意を払わず、今後は彼らについてそれほど正確ではなくなります。 「ここに到達するためにデータは何を通過する必要がありましたか?」と私は尋ねます。 (このデータセットを取得するために)他のケースがプロセスの途中でどのように脱落した可能性があるかを考える(つまり、生存者バイアス)。 熟練したデータサイエンティストは、そのような問題を探し、それらを調整/修正する方法を考えることができます。

[ディーン] バイアスはアルゴリズムにはありません。 バイアスはデータにあります。 データに偏りがある場合、私たちは偏った世界観で作業しています。 数学は単なる数学であり、偏見はありません。

AIは人類を引き継ぐのでしょうか?!

 
[ジョン] AIは優れたエンジニアリングだと思います。 AIは人間の知性を超えますか? 私の経験では、40歳未満の人は誰でも「はい」と信じています。これは避けられないことであり、40歳を超える人のほとんど(私のように):いいえ! AIモデルは高速で、忠実で、従順です。 優れたジャーマンシェパード犬のように、AIモデルはそのボールを手に入れますが、表示されているデータ以外は世界について何も知りません。 常識はありません。 これは特定のタスクに最適なアシスタントですが、実際にはかなり薄暗いです。

[ディーン] その点で、AIの黎明期から1961年と1970年にマービンミンスキーが行ったXNUMXつの引用を報告したいと思います。これは、AIの将来をよく表していると思います。

「私たちの生涯の中で、いくつかのマシンは一般的な知性で私たちを超えるかもしれません」 (1961)

「XNUMX年からXNUMX年で、人間の知性を備えた機械ができあがります」 (1970)

これらのアイデアは長い間存在しています。 AIがすべての問題を解決できない理由のXNUMXつは、次のとおりです。XNUMXつの数値、XNUMXつの数値のみに基づいて、AIの動作を判断しています。 (モデルエラー。)たとえば、エラーメトリックとして二乗平均平方根エラーを使用してモデルを構築することによって予測される、今後XNUMX年間の株価の予測は、データが実際に行っていることの全体像を描くことができず、モデルを大幅に妨げる可能性があります。そして、パターンを柔軟に明らかにするその能力。 RMSEが粗すぎることは誰もが知っています。 ディープラーニングアルゴリズムは今後も改善されていきますが、モデルが実際にどれだけ優れているかを判断することも改善する必要があります。 だから、いや! AIが人類を引き継ぐとは思いません。

このインタビューは終わりになりました。 ディーンとジョンの時間と知識の丸薬に感謝します。 また会えることを願っています!

ディーンアボットとジョンエルダーについて

COVIDはすべてのモデルに何をしましたか ディーンアボット SmarterHQの共同創設者兼チーフデータサイエンティストです。 彼は、データサイエンスと予測分析の分野で国際的に認められた専門家であり革新者であり、オムニチャネルの顧客分析、不正検出、リスクモデリング、テキストマイニング、調査分析の問題を解決してきた2014年の経験があります。 先駆的なデータサイエンティストとデータサイエンティストのリストに頻繁に含まれ、世界中の会議で人気の基調講演者およびワークショップインストラクターであり、UC / Irvine PredictiveAnalyticsおよびUCSDData ScienceCertificateプログラムの諮問委員会にも参加しています。 彼は、Applied Predictive Analytics(Wiley、2013)の著者であり、IBM SPSS Modeler Cookbook(Packt Publishing、XNUMX)の共著者です。


COVIDはすべてのモデルに何をしましたか ジョン・エルダー 1995年に、アメリカで最大かつ最も経験豊富なデータサイエンスコンサルタント会社であるElder Researchを設立しました。シャーロッツビルVA、ボルチモアMD、ローリー、ノースカロライナ、ワシントンDC、ロンドンにオフィスを構え、実用的な知識を抽出することで、商業および政府のクライアントの何百もの課題を解決してきました。すべてのタイプのデータから。 エルダー博士は、実用的なデータマイニング、アンサンブル、テキストマイニングに関するXNUMX冊の本を共同執筆しました。そのうちXNUMX冊は「ブックオブザイヤー」賞を受賞しました。 Johnは、データマイニングツールを作成し、アンサンブル手法の発見者であり、国際会議の議長を務め、人気のあるワークショップおよび基調講演者です。


 
バイオ: ヘザー・ファイソン KNIMEのブログエディターです。 当初はイベントチームで、彼女の経歴は実際には翻訳と校正にあります。そのため、2019年にブログに移動することで、彼女はテキストを扱うという真の情熱に戻りました。 PS彼女は常に新しい記事についてのあなたのアイデアを聞くことに興味を持っています。

元の。 許可を得て転載。

関連する

コインスマート。 BesteBitcoin-ヨーロッパのBörse
出典:https://www.kdnuggets.com/2021/04/covid-do-all-our-models.html

続きを読む

ビッグデータ

Shapash:機械学習モデルを理解できるようにする

アバター

公開済み

on

Shapash:機械学習モデルを理解できるようにする

AIテクノロジーに関する信頼への期待を確立することは、データサイエンティストが提供する最も重要なスキルのXNUMXつになる可能性があります。 この分野では重要な研究投資が進行中であり、データサイエンティストが機械学習モデルをより透明で理解しやすくするのに役立つオープンソースのPythonライブラリであるShapashなどの新しいツールが開発されています。


By ヤン・ゴルヘン、MAIF、リードデータサイエンティスト.

ShapashWebアプリのデモ

シャプシュ by MAIF は、データサイエンティストが機械学習モデルを理解しやすくするPythonツールキットです。 これにより、モデルの解釈可能性をデータ以外のスペシャリスト(ビジネスアナリスト、マネージャー、エンドユーザー)と共有して話し合うことが容易になります。

具体的には、Shapashは読みやすい視覚化と ウェブアプリ。 Shapashは、適切な表現(前処理逆/後処理)で結果を表示します。 シャプシュ データサイエンティストが探索から本番までの説明可能性を使用できるため、運用コンテキストで役立ちます。本番環境でローカルの説明可能性を簡単に展開して、ローカルの説明可能性の要約を使用して各予測/推奨事項を完成させることができます。

この投稿では、Shapashの主な機能とその動作方法を紹介します。 具体的なユースケースでのライブラリの実装について説明します。

コンテキストの要素

モデルの解釈可能性と説明可能性はホットなトピックです。 それに関する多くの記事、出版物、およびオープンソースの貢献があります。 これらすべての貢献は、同じ問題や課題を扱っているわけではありません。

ほとんどのデータサイエンティストは、多くの理由でこれらの手法を使用しています。モデルをよりよく理解するため、モデルが一貫して偏りがないことを確認するため、およびデバッグのためです。

ただし、それだけではありません。

了解度は教育目的にとって重要です。 わかりやすい機械学習モデルは、データスペシャリストではない人々(ビジネスアナリスト、最終ユーザーなど)と議論することができます。

具体的には、データサイエンスプロジェクトには、専門家以外の人が関与するXNUMXつのステップがあります。

探索ステップとモデルフィッティング

このステップでは、データサイエンティストとビジネスアナリストが何が問題になっているのかを話し合い、プロジェクトに統合する重要なデータを定義します。 それには、主題と私たちがモデル化している問題の主な推進要因をよく理解する必要があります。

これを行うために、データサイエンティストは、グローバルな説明可能性、機能の重要性、およびモデルの主要な機能が果たす役割を研究します。 また、一部の個人、特に外れ値をローカルで確認することもできます。 Webアプリは、視覚化とグラフィックスを確認する必要があるため、このフェーズでは興味深いものです。 これらの結果についてビジネスアナリストと話し合うことは、アプローチに挑戦し、モデルを検証するのに興味深いものです。

モデルを実稼働環境にデプロイする

それでおしまい! モデルは検証され、展開され、エンドユーザーに予測を提供します。 ローカルでの説明可能性は、優れた、有用で、理解しやすい要約を提供する方法がある場合にのみ、多くの価値をもたらすことができます。 それはXNUMXつの理由で彼らにとって価値があります:

  • 透明性は信頼をもたらします:彼らがモデルを理解すれば、彼らはモデルを信頼します。
  • 人間が制御を維持:100%信頼できるモデルはありません。 アルゴリズムの出力を理解できる場合、ユーザーは、誤ったデータに基づいていると思われる場合、アルゴリズムの提案を覆すことができます。

Shapashは、データサイエンティストがこれらのニーズを満たすのを支援するために開発されました。

Shapashの主な機能

  • 誰にとっても読みやすい視覚化。
  • Webアプリ:モデルがどのように機能するかを理解するには、複数のグラフ、機能の重要性、およびモデルへの機能のグローバルな貢献度を確認する必要があります。 Webアプリはこのための便利なツールです。
  • 適切な表現で結果を表示するいくつかの方法(前処理の逆、後処理)。 データディクショナリを簡単に追加できます。 カテゴリーエンコーダーオブジェクト、またはsklearn ColumnTransformer より明示的な出力の場合。
  • 簡単に保存できる機能 ピクルスファイルと結果をテーブルにエクスポートします。
  • 説明性の要約:要約は、ニーズに合わせて、ローカルの説明性にとって重要なことに焦点を当てるように構成できます。
  • 実稼働環境に簡単にデプロイし、各運用アプリ(バッチまたはAPI)のローカルの説明可能性の概要を使用してすべての予測/推奨を完了する機能
  • Shapashisは、いくつかの方法で進めることができます。結果に簡単にアクセスしたり、より適切な表現に取り組むために使用できます。 結果を表示するために必要な引数はごくわずかです。 ただし、データセットのクリーニングと文書化に取り組むほど、エンドユーザーにとってより明確な結果が得られます。

Shapashは、回帰、二項分類、またはマルチクラスの問題に対して機能します。 多くのモデルと互換性があります。 キャットブーストXgboostLightGBMSklearnアンサンブル線形モデルSVM.

Shapashは、Shap(シャープレイ値)、Lime、または合計可能なローカルコントリビューションの計算を可能にする任意の手法で計算されたローカルコントリビューションに基づいています。

インストール

あなたはpipを通してパッケージをインストールすることができます:

$ pipインストールshapash 

シャプシュのデモンストレーション

使ってみよう 具体的なデータセットのシャプシュ。 この記事の残りの部分では、Shapashがモデルを探索する方法を紹介します。

からの有名な「住宅価格」データセットを使用します Kaggle リグレッサーに適合し、住宅価格を予測するために! データセットをロードすることから始めましょう:

パンダをshapash.data.data_loaderからpdとしてインポートしますimportdata_loading house_df、house_dict = data_loading( 'house_prices')y_df = house_df ['SalePrice']。to_frame()X_df = house_df [house_df.columns.difference(['SalePrice']) ] house_df.head(3) 

カテゴリ機能をエンコードします。

from category_encoders import OrdinalEncoder categorical_features = [col for col in X_df.columns if X_df [col] .dtype == 'object']エンコーダー= OrdinalEncoder(cols = category_features).fit(X_df)X_df = encode.transform(X_df) 

トレーニング、テスト分割、モデルフィッティング:

from sklearn.model_selection import train_test_split from sklearn.ensemble import RandomForestRegressor Xtrain、Xtest、ytrain、ytest = train_test_split(X_df、y_df、train_size = 0.75)reg = RandomForestRegressor(n_estimators = 200、min_samples_leaf = 2) 

そして、テストデータを予測します。

y_pred = pd.DataFrame(reg.predict(Xtest)、columns = ['pred']、index = Xtest.index) 

ShapashSmartExplainerを見つけて使用しましょう。

ステップ1—インポート

shapash.explainer.smart_explainerからインポートSmartExplainer 

ステップ2—SmartExplainerオブジェクトを初期化します

xpl = SmartExplainer(features_dict = house_dict)#オプションのパラメーター 
  • features_dict:xpd.DataFrameの各列名の意味を指定するdict。

ステップ3—コンパイル

xpl.compile(x = Xtest、model = regressor、preprocessing =エンコーダー、#オプション:inverse_transformメソッドを使用y_pred = y_pred#オプション) 

compileメソッドでは、別のオプションのパラメーターを使用できます。 後処理。 これにより、新しい関数を適用して、より適切な表現(正規表現、マッピングdictなど)を指定することができます。

これで、結果を表示して、回帰モデルがどのように機能するかを理解できます。

ステップ4—Webアプリを起動する

app = xpl.run_app() 

WebアプリのリンクがJupyter出力に表示されます(デモにアクセスします) ここ).

このWebアプリにはXNUMXつの部分があります。

それぞれが相互作用して、モデルを簡単に探索できるようにします。

機能の重要性: 各機能をクリックして、以下の寄与プロットを更新できます。

貢献プロット: 機能は予測にどのように影響しますか? フィーチャーの各ローカル寄与のバイオリンまたは散布図を表示します。

ローカルプロット:

  • ローカル説明:どの機能が予測値に最も貢献するか。
  • いくつかのボタン/スライダー/リストを使用して、このローカルな説明性の要約を構成できます。 以下に説明します filter  サマリーを操作できるさまざまなパラメーターをメソッドします。
  • このWebアプリは、ビジネスアナリストと、運用上のニーズを満たすための説明性を要約するための最良の方法について話し合うための便利なツールです。

選択表: これにより、Webアプリユーザーは以下を選択できます。

  • このサブセットに探索を集中させるためのサブセット
  • 関連するローカルの説明を表示する単一の行

データテーブルをどのように使用してサブセットを選択しますか? 表の上部で、フィルタリングに使用する列の名前のすぐ下で、次のように指定します。

  • =値、>値、
  • 特定の単語を含むすべての行を選択する場合は、「=」なしでその単語を入力するだけです。

このWebアプリで利用できるオプションがいくつかあります(右上のボタン)。 最も重要なものは、おそらくサンプルのサイズです(デフォルト:1000)。 待ち時間を回避するために、Webアプリはサンプルに依存して結果を表示します。 このサンプルサイズを変更するには、このオプションを使用します。

アプリを強制終了するには:

app.kill() 

ステップ5—プロット

すべてのプロットはjupyterノートブックで利用できます。以下の段落では、各プロットの要点について説明します。

機能の重要性

このパラメーターを使用すると、サブセットの機能の重要性を比較できます。 サブセット内の特定の動作を検出すると便利です。

サブセット= [168、54、995、799、310、322、1374、1106、232、645、1170、1229、703、66、886、160、191、1183、1037、991、482、725、410、59 、28、719、337、36] xpl.plot.features_importance(selection = subset) 

貢献プロット

寄与プロットは、次のような質問に答えるために使用されます。

機能は私の予測にどのように影響しますか? それは積極的に貢献していますか? この機能はますます貢献していますか? 減少しますか? しきい値の影響はありますか? カテゴリ変数の場合、各モダリティはどのように貢献しますか? このプロットは、モデルに対する機能の影響をよりよく理解するための、解釈可能性、モデルのグローバルな了解度に対する機能の重要性を完成させます。

このプロットにはいくつかのパラメーターがあります。 表示されるプロットは、カテゴリ変数または連続変数(ViolinまたはScatter)のどちらに関心があるか、および対処するユースケースのタイプ(回帰、分類)に応じて適応することに注意してください。

xpl.plot.contribution_plot( "OverallQual") 

連続特徴に適用される寄与プロット。

分類ケース:Titanic Classifier —カテゴリ機能に適用される寄与プロット。

ローカルプロット

モデルの局所的な説明可能性のために局所プロットを使用できます。

  フィルタ() local_plot() メソッドを使用すると、モデルが取得した信号を要約するための最良の方法をテストして選択できます。 探索段階で使用できます。 次に、この要約を実稼働環境にデプロイして、エンドユーザーが各推奨事項の最も影響力のある基準を数秒で理解できるようにします。

ローカルの説明可能性を本番環境に展開する方法を説明するXNUMX番目の記事を公開します。

filterメソッドとlocal_plotメソッドを組み合わせる

使用 filter ローカルの説明可能性を要約する方法を指定する方法。 要約を構成するには、次のXNUMXつのパラメーターがあります。

  • max_contrib:表示する基準の最大数
  • しきい値:基準を表示するために必要な寄与の最小値(絶対値)
  • ポジティブ:ポジティブな貢献のみを表示しますか? 負? (デフォルトはなし)
  • features_to_hide:表示したくない機能のリスト

これらのパラメータを定義した後、次のように結果を表示できます。 local_plot() メソッド、またはでそれらをエクスポートします to_pandas()。

xpl.filter(max_contrib = 8、threshold = 100)xpl.plot.local_plot(index = 560) 

pandas DataFrameへのエクスポート:

xpl.filter(max_contrib = 3、threshold = 1000)summary_df = xpl.to_pandas()summary_df.head() 

プロットを比較する

とともに compare_plot() メソッドでは、SmartExplainerオブジェクトを使用すると、XNUMX人以上の個人が同じ予測値を持たない理由を理解できます。 最も決定的な基準は、プロットの上部に表示されます。

xpl.plot.compare_plot(row_num = [0、1、2、3、4]、max_features = 8) 

ShapashがAIへの信頼を築くのに役立つことを願っています。 フィードバックやアイデアを提供してくれるすべての人に事前に感謝します…Shapashはオープンソースです! この投稿にコメントするか、直接投稿してください。 GitHubのディスカッション.

元の。 許可を得て転載。

関連する

コインスマート。 BesteBitcoin-ヨーロッパのBörse
出典:https://www.kdnuggets.com/2021/04/shapash-machine-learning-models-understandable.html

続きを読む
エスポート17時間前

ドラマの中でチェスがChess.comからモデレーターとして削除されました

エスポート5日前

Dota2パッチ7.29は新しいヒーローを明らかにします

Fintech4日前

Novattiのリップルパートナーシップはフィリピンに住んでいます

エスポート5日前

最高のウォーゾーンガン:ブラックオプスコールドウォーシーズン2で使用する必要のある武器

Blockchain5日前

邪悪な天才が暗号通貨交換プラットフォームコインベースと提携

Blockchain4日前

暗号-ニュース総まとめ8. XNUMX月

エスポート2日前

Dota2ドーンブレイカーヒーローガイド

Blockchain4日前

DFB Bringt Digitale Sammelkarten auf die Blockchain

エスポート5日前

indiefoxxはTwitchから再び禁止されましたが、なぜですか?

サイバーセキュリティ5日前

フィンテックはランサムウェアの標的です。 これを防ぐための9つの方法があります。

Fintech4日前

TrueLayerは、世界で最も価値のあるオープンバンキングネットワークを構築するために70万米ドルを調達します

Blockchain4日前

WEF-Gipfel 2021:Zukunft der Wirtschaft ist tokenisiert

エスポート3日前

ダラス帝国はステージ2メジャーでミネソタに勝利して脱出

エスポート2日前

Twitchが「肥満」という言葉を予測から禁止したのはなぜですか?

エスポート2日前

Dota2のXNUMX年ぶりの新しいキャリーであるDawnbreakerの詳細

Blockchain4日前

Bitcoin Preis erholt sich nach Drop auf Support bei 55.500 USD

エスポート5日前

PUBG MobileEsportsは2021年に新しい地域などで拡大

エスポート5日前

ウォーゾーンのヴェルダンスクはゾンビに襲われている、アクティビジョン・トゥ・ヌケ・マップ

エスポート3日前

Dota 2の新しいヒーロー:容疑者のリスト

Fintech5日前

Zipは、Zip Business Trade Plusをローンチする新しいクレジットラインにより、中小企業のキャッシュフローを後押しします。

トレンド