私達と接続する

AI

AIワールドエグゼクティブサミット:適切な質問をすることが重要 

アバター

公開済み

on

ジョンP.デズモンド、AIトレンドエディター 

特にパンデミックによって引き起こされたAIの採用が加速していることを考えると、AIの活動について正しい質問をすることが重要です。 具体的には、どの質問に答えるかを考えることは、マッキンゼーの最近の調査によると、企業でAIを採用することで管理しているAIの専門家や実務家の焦点です。 

AIの高性能企業の回答者のうち、75人% によると、パンデミックのために、ビジネス機能全体でのAI支出が増加したと報告しています。 Aに関するグローバル調査私は2020年にマッキンゼーから来ました。これらの組織はAIを使用して価値を生み出しており、それはますます新しい収益の形でもたらされています。  

XNUMX人の専門家が、この成長の影響について、AIトレンドとのインタビューで話し合いました。 AIワールドエグゼクティブサミット:AIの未来、 事実上14年2021月XNUMX日に開催される予定です。  

デビッドブレイ、 博士号は、非営利団体の初代所長です アトランティックカウンシルジオテックセンター、およびイベントプログラムへの貢献者。 

アンソニー・スクリフィニャーノ  博士号は、上級副社長兼チーフデータサイエンティストです。 ダン&ブラッドストリート; 

 ジョアン・ロー、博士号は、のCEOです エリシアンラボ。 

AIワールドエグゼクティブサミットで何を強調したいですか? 

アトランティックカウンシルジオテックセンターの初代所長、デビッドブレイ博士

デイビッド: 「AIは、答えを求めるべき質問を特定するのに役立つときに最高の状態になります。 私たちは急速に変化する世界に住んでいますが、いくつかの点で、これらの変化の完全な範囲をまだ認識していません - 特にCOVID-19パンデミックの間。 尋ねるべき正しい質問を知ることは、私たちがより良い世界に向けて取り組むのに役立ちます。 AIは、企業、政府、社会としての私たちの運営方法にデジタルミラーを保持するのに役立ちます  -  自分たちのより良いバージョンになるように努力します。」  

彼は、AIシステムが偏った結果を生み出す場合、次のように述べています。 解決策の一部は、公開されるデータを変更することです。」  

ジョアン: 「探したいものがおおよそわかっている場合、AIは質問を絞り込んでそこにたどり着くのに役立ちます。 オートコンプリートのスマートバージョンのように考えてください。 しかし、文を完成させる代わりに、それはアイデア全体を完成させることです。」 

例として、明日ドライブに行きたいとデジタルアシスタントに伝えてください。 あなたが好きなもの、あなたの歴史、そしてあなたの年齢層を知っていると、それはあなたが明日ビーチに行くという提案とともに戻ってきます。 「それが何を意味するのかを自問する必要があります。 あなたの意思決定プロセスは機械とのコラボレーションですか? その上でマシンをどれだけ使用しても構わないと思いますか? いくらあきらめますか? 答えは非常に個人的で状況に依存します。」  

彼女は次のように付け加えています。「マシンに最適な休暇の場所を教えてもらいたいのですが、マシンに子供の名前を選ばせたくない場合があります。 または多分私はします。 それはあなた次第です。 決定は個人的なものです, whichは、あなたが尋ねるべき質問は、あなたがどれだけ諦めても構わないと思っているかということを意味します。 あなたの境界は何ですか?」  

また、AIに回答を求める質問は、Googleにとって十分に単純ではない質問である必要があります。 「Googleは、子供を学校、言語イマージョンプログラム、数学イマージョンプログラム、またはSTEM研究プログラムのどこに送るべきかという質問に答えることができないと確信しています。それはあなた次第です。" 

 

倫理的なAIの追求で学んだ教訓 

ティムニットゲブルと彼女の上司であるマーガレットミッチェル(Googleを利用しなくなったAI倫理学者)の経験から、これまでにどのような教訓を学びましたか? 

Anthony Scriffignano、PhD、Dun&Bradstreetの上級副社長兼チーフデータサイエンティスト

アンソニー: 「まあ、業界が何かをしようとして主導権を握らなければ、規制当局はそうするでしょう。 業界が規制当局とうまく連携する方法は、自己規制することです。 倫理は取り組むべき巨大な分野であり、多くの定義が必要です。  

「OECD [アンソニーがAIの専門家を務める経済協力開発機構]は、AIと倫理の原則に取り組んでいます。 世界中の専門家が本当にこれに傾倒しています。 誰もが作りたいほど簡単ではありません。 今日よりも簡単になることは決してないので、私たちはそれに傾倒するほうがよいでしょう。」 

Loの考えを反映して、彼は次のように述べています。 Outlookが会議に行くように指示すると、私は行きます。 問題は、どれだけ諦めても構わないと思っているかということです。 AIが私にとってより良い決定を下すことができる、または私を他のことをするために解放する、または私自身の悪い決定から私を守ることができると思うなら、私はそう言う傾向があります。」 しかし、彼が倫理と疎外について考えなければならない場合、それはより複雑になります。   

彼はさらに次のように付け加えました。「将来的には、コンピューターに何をすべきかを教えてもらうことはできなくなります。 私たちはそれを扱う必要があります。 AIは、私たちが取る可能性が高いアドバイスに収束します。」 

デイビッド: 認識 多くの場合、問題の本当の懸念やニュアンスは詳細にカバーされていません、 彼 Studio上ではサポートされていません。ですが、 「私たちは双方が伝えたいことを聞いています。」 今後は、社外の専門家によるある程度の参加や監視を期待しています。 「一般の人々がデータやAIにある程度参加していると感じない場合、人々は自分の偏見で空間を埋め、その周りに偽情報が存在することになります。 これは、企業がオンブズマンのような一般の人々をどのように巻き込むかについて最初から積極的に考える必要があることを示しています。 しゃっくりが起こったときに「カーテンの後ろで何が起こっているのかわからない」ではないように、人々とAIを行う方法を見つける必要があります。   

彼は次のようにアドバイスしています。 彼らをやる気にさせるインセンティブは、さまざまな場所にあるかもしれません。 誰もが自分たちが正しいことをしていると思うなら、データとAIを追跡するための構造的ソリューションをどのように作成し、構造システムの偏りが少なくなるという確信を人々に与えますか? データの信頼に向けて取り組むのは良いことです。 最初のステップは、データを選択して管理できる代​​理店があるように感じる必要があるということです。」  

「組織のビジネスが、所有するデータの排他性を中心に構築されている場合、「人と」対「人へ」のAIを行う未来をナビゲートするのが難しくなる可能性があります。 会社が言うなら、カーテンの後ろの魔法使いに注意を払わないでください、それは信頼を生み出すのを難しくします。」  

彼は、ヨーロッパ諸国がデータプライバシーやAIを含む他のデジタルトピックについてより厳しい基準を検討していると述べました。 「ヨーロッパの取り組みは意図されたものであり、バランスを取る必要があります。」 彼に助言されたヘルスケアデータに関するプライバシー基準を定義するヨーロッパの取り組みは、10年から15年の訴訟で解決され、それがヘルスケアの革新を抑制または阻止する可能性があるかどうかについて疑問が投げかけられます。 同時に、「中国のモデルは、あなたのデータが政府に属しているというものであり、それは米国もヨーロッパも追求したい未来ではありません。」   

「信頼を生み出す運用の一般原則を見つける必要があります。XNUMXつの方法は、人間の陪審員がAI活動をレビューすることかもしれません。」 

 

必要なAIの過誤を確認する方法 

AIの不正行為をレビューするための「AI審査員」のアイデアについて:  

Joanne Lo、PhDは、ElysianLabsのCEOです。

ジョアン: 「私にとって最も重要な教訓[from 最近のGoogleの倫理経験から学べることは、政府と政策立案が技術開発に遅れをとっているということです。 数十年とまではいかなくても数年。 私は規制を通過させることについて話しているのではなく、その前の一歩についてです。それは、テクノロジーが社会、具体的にはアメリカの民主主義にどのように影響するか、そして政府がそれについて何を言わなければならないかを理解することです。 その点に到達すれば、政策について話すことができます。」   

彼女は詳しく説明し、次のように述べています。「政府は、私たちの社会にテクノロジーがどのようなものであるかについての決心に遅れをとっています。 政府の理解のこの遅れは、国家安全保障の問題に発展しました。 Facebookとすべてのソーシャルメディアプラットフォームが政府の介入なしに開発した方法で開発されたときに何が起こるかは、最終的には敵対する郡が民主主義の基盤そのものを利用して攻撃できるプラットフォームになることです。」   

「政府はそれについて何をするつもりですか? 政府は、これは大丈夫ではない、政府に介入してもらいたい、内部告発者を保護するためのより良い法律、そして倫理をサポートするためのより良い組織を望んでいると言うエンジニアに立ち向かうつもりですか? 政府は実際に何かをするつもりですか?」 

アンソニー: "それは面白い。 特定の原則に同意することができ、AIがそれらの原則に違反していないことを証明するために、AIを監査可能にする必要があります。 AIが偏っていると非難すれば、それを証明または反証できるはずです - 人種的偏見なのか確証バイアスなのか, または経済的に別のグループよりもXNUMXつのグループを支持します。 AIには偏りがなかったと結論付けるかもしれませんが、データには偏りがありました。」 

「これは非常に微妙な違いです。 それが12人のピアの審査員だった場合、「ピア」は重要です。 彼らは同様に指示され、同様に経験されなければならないでしょう。 本当の陪審員はすべての人生の歩みから来ています。」  

詳細については、 AIワールドエグゼクティブサミット:AIの未来、これらの議論や他の人が続くところ。 

コインスマート。 BesteBitcoin-ヨーロッパのBörse
出典:https://www.aitrends.com/ai-world/ai-world-executive-summit-important-to-ask-the-right-questions/

AI

ディープフェイクの検出器とデータセットは人種や性別の偏見を示している、USCの調査によると

アバター

公開済み

on

今年の2021月12〜16日にTransformXNUMXに参加してください。 登録するr 今年のAIイベント.


一部の専門家は、機械学習ツールを使用してディープフェイク、または既存のビデオに人を連れて行き、他の人の肖像に置き換えるビデオを作成できるのではないかと懸念を表明しています。 恐れは、これらの偽物が選挙中に意見を揺さぶるようなことをしたり、人を犯罪に巻き込んだりするために使われるかもしれないということです。 すでに、ディープフェイクは悪用されて生成されています ポルノ素材 俳優のそして主要なエネルギーをだまします プロデューサー.

幸いなことに、ディープフェイクを検出する自動化された方法を開発するための取り組みが進行中です。 Facebookは、とりわけAmazonやMicrosoftとともに、 ディープフェイク検出チャレンジ、昨年XNUMX月に終了しました。 チャレンジの開始は、のリリース後に行われました 視覚的なディープフェイクの大きなコーパス Googleの内部テクノロジーインキュベーターであるJigsawと共同で作成されました。このインキュベーターは、合成ビデオ検出システムの開発のために研究者が自由に利用できるベンチマークに組み込まれました。 最近、マイクロソフトはVideo Authenticatorで独自のディープフェイク戦闘ソリューションを発表しました。これは、静止画またはビデオを分析して、メディアが人為的に操作されていないという信頼度のスコアを提供できるシステムです。

しかし、南カリフォルニア大学の研究者によると、ディープフェイク検出システムのトレーニングに使用されるデータセットの一部は、特定の性別または特定の肌の色の人々を過小評価している可能性があります。 共著者によると、このバイアスはディープフェイク検出器で増幅される可能性があり、一部の検出器では人種グループに応じてエラー率に最大10.7%の違いが見られます。

バイアスされたディープフェイク検出器

結果は驚くべきことですが、コンピュータビジョンモデルが有害で広範囲にわたる偏見の影響を受けやすいことを示した以前の研究と一致しています。 昨秋の論文 コロラド大学によると、ボルダーの研究者は、Amazon、Clarifai、MicrosoftなどのAIが、シスジェンダーの男性と女性で95%を超える精度を維持しているが、トランス男性を女性と誤認していることが38%あることを示しました。 による主要ベンダーのシステムの独立したベンチマーク ジェンダーシェード プロジェクトと 米国国立標準技術研究所(NIST) 顔認識技術が人種的および性別の偏見を示すことを実証し、現在の顔認識プログラムは非常に不正確であり、人々を上向きに誤分類する可能性があることを示唆しています 時間の96%.

南カリフォルニア大学のグループは、「ディープフェイク動画の検出に成功したことが証明された」1.0つのディープフェイク検出モデルを検討しました。 すべては、ディープフェイク検出器に一般的に使用されるFaceForensics ++データセットと、GoogleのDeepfakeDetection、CelebDF、DeeperForensics-XNUMXなどのコーパスでトレーニングされました。

ベンチマークテストで、研究者は、すべての検出器が、より暗い黒い顔、特に男性の黒い顔のビデオで最悪のパフォーマンスを示したことを発見しました。 女性のアジア人の顔を含むビデオの精度が最も高かったが、データセットによっては、検出器は白人(特に男性)とインド人の顔でも良好に機能した。 。

研究者によると、ディープフェイク検出データセットは、性別と人種グループに関して「非常に」不均衡であり、FaceForensics ++のサンプルビデオでは、男性58%に対して41.7%以上(主に白人)の女性が表示されています。 実際の動画の5%未満が黒人またはインド人を示しており、データセットには「不規則な交換」が含まれていました。この交換では、ある人の顔が別の人種または性別の別の人に交換されました。

これらの不規則なスワップは、 軽減する バイアスは、実際には、検出器のバイアスの少なくとも一部のせいである、と共著者は仮説を立てています。 データセットでトレーニングされた検出器は、偽物と、たとえばアジアの顔の特徴との相関関係を学習しました。 あるコーパスは、前景の顔を白人の女性の顔とヒスパニックの女性の顔に交換するためにアジアの顔を使用していました。

「現実のシナリオでは、アジア人女性またはアフリカ人女性の顔のプロファイルは、白人男性のプロファイルよりも誤って偽物としてラベル付けされる可能性が1.5〜3倍高くなります…偽物として誤って識別された実際の被験者の割合は、男性の被験者よりも女性の被験者」と研究者らは書いている。

現実のリスク

この調査結果は、「最高の」AIシステムでさえ必ずしも完璧であるとは限らないことをはっきりと思い出させます。 共著者が指摘しているように、この研究の少なくとも90.1つのディープフェイク検出器は、テストデータセットでXNUMX%の精度を達成しました。これは、内部のバイアスを隠す指標です。

「…データセット全体の検出精度などの単一のパフォーマンスメトリックを使用するだけでは、ディープフェイク検出器の大規模な商用展開を正当化するのに十分ではありません」と研究者は書いています。 「ディープフェイクが普及するにつれ、ディープフェイクと戦うための自動システムへの依存度が高まっています。 開業医は、これらの影響の大きいシステムのすべての社会的側面と結果を調査する必要があると私たちは主張します。」

この調査は、商用のディープフェイクビデオ検出市場の成長に照らして特にタイムリーです。 アムステルダムを拠点とする Deeptrace Labs ソーシャルメディア、ビデオホスティングプラットフォーム、偽情報ネットワークにアップロードされたディープフェイクを分類することを目的とした一連の監視製品を提供しています。 これらの は、操作されたビデオのデータセットでトレーニングされたディープフェイク検出器を改善するための手法を提案しています。 そしてTruepic 8年2018月にXNUMX万ドルの資金調達ラウンドを調達 そのビデオと写真のディープフェイク検出サービスのために。 2018年XNUMX月、同社は別のディープフェイクの「サービスとしての検出」スタートアップであるFourandsixを買収しました。このスタートアップは、DARPAからライセンスを受けた偽の画像検出器です。

VentureBeatの

VentureBeatの使命は、技術的な意思決定者が革新的なテクノロジーと取引についての知識を習得するためのデジタルタウンスクエアになることです。 私たちのサイトは、あなたが組織を率いるときにあなたを導くためのデータ技術と戦略に関する重要な情報を提供します。 以下にアクセスして、コミュニティのメンバーになることをお勧めします。

  • あなたが興味を持っている主題に関する最新情報
  • ニュースレター
  • ゲート付きのソートリーダーコンテンツと、次のような貴重なイベントへの割引アクセス 変換2021: もっと詳しく知る
  • ネットワーク機能など

会員になる

コインスマート。 BesteBitcoin-ヨーロッパのBörse
出典:https://venturebeat.com/2021/05/06/deepfake-detectors-and-datasets-exhibit-racial-and-gender-bias-usc-study-shows/

続きを読む

AI

AIは大規模なヘルスケアの課題に取り組む準備ができています

アバター

公開済み

on

どの病気が発生しますか 年間の最高の総経済的負担で? 糖尿病、癌、心臓病、さらには肥満を推測した場合、あなたは間違った推測をしました。 の巨大な財政的負担に達する $ 966億 2019年には、希少疾患の費用が糖尿病(327億ドル)、癌(174億ドル)、心臓病(214億ドル)、その他の慢性疾患をはるかに上回りました。

コグニティブインテリジェンス、またはコグニティブコンピューティングソリューションは、ニューラルネットワーク、機械学習、自然言語処理などの人工知能テクノロジーを融合し、人間の知能を模倣することができます。

まれな病気が思い浮かばなかったのは当然のことです。 定義上、まれな病気は200,000万人未満に影響を及ぼします。 しかし、全体として、数千の希少疾患があり、それらは世界中で約400億人に影響を及ぼしています。 希少疾患患者の約半数は子供であり、典型的な患者は、老若男女を問わず、XNUMX年以上続く診断オデッセイを乗り越え、その間に数え切れないほどの検査を受け、最終的に診断を受ける前に多数の専門家に診てもらいます。

ムーンショットチャレンジではなくなりました

その診断オデッセイを短縮し、関連するコストを削減することは、最近まで、ムーンショットの課題でしたが、現在は手の届くところにあります。 希少疾患の約80%は遺伝性であり、技術とAIの進歩が組み合わさって、遺伝子検査に広くアクセスできるようになっています。

全ゲノムシーケンスは、ヒトDNA全体を検査できる高度な遺伝子検査であり、現在は1,000ドル未満で、市場リーダーのイルミナは近い将来100ドルのゲノムをターゲットにしています。

残りの課題は、人間の健康のコンテキストでそのデータを解釈することですが、これは簡単な課題ではありません。 典型的な人間には5万のユニークな遺伝的変異があり、そのうちのXNUMXつの病気の原因となる変異を特定する必要があります。 認知AIの最近の進歩により、人の全ゲノム配列を調べ、病気の原因となるメカニズムを自動的に特定して、人間の能力を高めることができます。

ナローAIからコグニティブAIへの移行

広く使用可能なAIソリューションへの道のりには、狭い機械学習モデルから広い機械学習モデルへのパラダイムシフトが必要でした。 ゲノムデータを解釈する科学者は、さまざまなソースからさまざまな形式で収集された何千ものデータポイントを確認します。

ヒトゲノムの分析には100時間もかかることがあり、資格のある科学者は世界中に数千人しかいません。 XNUMXドルのゲノムに到達すると、アナリストは期待しています 50万〜60万人 毎年DNAの配列が決定されます。 彼らの健康状態の文脈で生成されたデータをどのように分析しますか? そこで、コグニティブインテリジェンスが登場します。

コインスマート。 BesteBitcoin-ヨーロッパのBörse
出典:https://techcrunch.com/2021/05/06/ai-is-ready-to-take-on-a-massive-healthcare-challenge/

続きを読む

AI

サーバーレスパイプラインを作成して、AmazonTranslateで大きなドキュメントを翻訳します

アバター

公開済み

on

 以前の投稿、を使用してドキュメントを翻訳する方法を説明しました リアルタイム翻訳API from Amazon翻訳   AWSラムダ。 ただし、この方法は、大きすぎるファイルでは機能しない場合があります。 時間がかかりすぎて、 15分のタイムアウト制限 ラムダ関数の。 使用できます バッチAPI、ただし、これはXNUMXつのAWSリージョンでのみ利用可能です(このブログの公開時点)。 バッチ翻訳がサポートされていない地域で大きなファイルの翻訳を有効にするために、次のソリューションを作成しました。

この投稿では、大きなドキュメントの翻訳を実行する手順を説明します。

アーキテクチャの概要

投稿で取り上げられているアーキテクチャと比較して Amazon Translate、AWS Lambda、および新しいBatch Translate APIを使用してドキュメントを翻訳する、私たちのアーキテクチャにはXNUMXつの重要な違いがあります。 AWSステップ関数、Lambda関数と複数のサービスをビジネスクリティカルなアプリケーションに簡単にシーケンスできるサーバーレス関数オーケストレーター。 ステップ関数を使用すると、翻訳の実行を追跡し、エラーやタイムアウトが発生した場合の再試行を管理し、イベント駆動型ワークフローを調整できます。

次の図は、ソリューションアーキテクチャを示しています。

このイベント駆動型アーキテクチャは、新しいドキュメントが入力に到達したときのアクションのフローを示しています Amazon Simple Storage Service (Amazon S3)バケット。 このイベントは、最初のLambda関数をトリガーします。これは、StepFunctionsワークフローの開始点として機能します。

次の図は、ステートマシンとアクションのフローを示しています。

Process Document Lambda関数は、ステートマシンの起動時にトリガーされます。 この関数は、ドキュメントの翻訳に必要なすべてのアクティビティを実行します。 S3バケットからファイルにアクセスし、関数が実行されている環境でローカルにダウンロードし、ファイルの内容を読み取り、リアルタイム翻訳APIを通過できるドキュメントから短いセグメントを抽出し、APIの出力を使用します。翻訳されたドキュメントを作成します。

他のメカニズムは、失敗を回避するためにコード内に実装されています。たとえば、アクションを実行し、関数がタイムアウトする30秒前に進行状況を/ tempフォルダーに保存することで、AmazonTranslateスロットルエラーやLambda関数のタイムアウトを処理します。 これらのメカニズムは、大きなテキストドキュメントを処理するために重要です。

関数が正常に処理を完了すると、翻訳されたテキストドキュメントを、英語の場合はenなどのターゲット言語コードのフォルダー内の出力S3バケットにアップロードします。 ステップ関数ワークフローは、Lambda関数が入力ファイルを/ dropフォルダーから入力S3バケット内の/ processedフォルダーに移動すると終了します。

これで、これを実際に試すためのすべての要素が整いました。

AWSCloudFormationを使用してソリューションをデプロイする

提供されているを起動することで、このソリューションをAWSアカウントにデプロイできます AWS CloudFormation スタック。 CloudFormationテンプレートは、ソリューションに必要なリソースをプロビジョニングします。 テンプレートはus-east-1リージョンのスタックを作成しますが、テンプレートを使用して、AmazonTranslateが利用可能な任意のリージョンにスタックを作成できます。 この記事の執筆時点で、AmazonTranslateは16の商用リージョンとAWSGovCloud(US-West)で利用できます。 地域の最新リストについては、 AWSリージョナルサービスリスト.

アプリケーションをデプロイするには、以下の手順を実行します。

  1. を選択してCloudFormationテンプレートを起動します 発射スタック:

  1. 選択する .

または、AWS CloudFormationコンソールで、 新しいリソースでスタックを作成する(標準)、選択する Amazon S3 URL テンプレートソースとして、次のように入力します https://s3.amazonaws.com/aws-ml-blog/artifacts/create-a-serverless-pipeline-to-translate-large-docs-amazon-translate/translate.yml、選択して .

  1. COVID-XNUMX スタック名、このアカウントの一意のスタック名を入力します。 たとえば、serverless-document-translationです。
  2. COVID-XNUMX InputBucketName、スタックが作成するS3バケットの一意の名前を入力します。 たとえば、serverless-translation-input-bucketです。

ドキュメントは、翻訳される前にこのバケットにアップロードされます。 入力S3バケットの名前を指定するときは、小文字のみを使用し、スペースは使用しないでください。 この操作により新しいバケットが作成されるため、既存のバケットの名前は使用しないでください。 詳細については、を参照してください。 バケットの命名規則.

  1. COVID-XNUMX OutputBucketName、出力S3バケットの一意の名前を入力します。 たとえば、serverless-translation-output-bucketです。

このバケットには、翻訳後にドキュメントが保存されます。 入力バケットと同じ命名規則に従います。

  1. COVID-XNUMX SourceLanguageCode、入力ドキュメントが含まれている言語コードを入力します。 この投稿では、autoと入力して主要言語を検出します。
  2. COVID-XNUMX TargetLanguageCode、翻訳されたドキュメントを使用する言語コードを入力します。 たとえば、英語の場合はenです。

サポートされている言語コードの詳細については、を参照してください。 サポートされている言語と言語コード.

  1. 選択する .

  1. 上の スタックオプションを構成する ページで、タグを含むスタックの追加パラメータを設定します。
  2. 選択する .
  3. 次の項目を選択します。: AWS CloudFormationがカスタム名でIAMリソースを作成する可能性があることを認めます.
  4. 選択する スタックを作成.

スタックの作成は、完了するまでに約XNUMX分かかります。

ドキュメントを翻訳する

これで、入力S3バケットに翻訳するテキストドキュメントをdrop /フォルダーの下にアップロードできます。

次のスクリーンショットは、ギリシャ語の文を含むサンプルドキュメントを示しています。

このアクションによりワークフローが開始され、翻訳されたドキュメントが出力S3バケットのターゲット言語(この例ではen)のフォルダーに自動的に表示されます。 ファイルが表示される時間の長さは、入力ドキュメントのサイズによって異なります。

翻訳されたファイルは次のスクリーンショットのようになります。

ステップ関数コンソールで、または関連するAPI呼び出しを使用して、ステートマシンの進行状況を追跡することもできます。

より大きなファイルで解決策を試してみましょう。 test_large.txtファイルには、複数のAWSブログ投稿のコンテンツとドイツ語で書かれたその他のコンテンツが含まれています(たとえば、投稿のすべてのテキストを使用します) AWS DeepLens(バージョン2019)kommt nach DeutschlandundinweitereLänder).

このファイルは、前のテストのファイルよりもはるかに大きくなっています。 入力バケットのdrop /フォルダーにファイルをアップロードします。

ステップ関数コンソールで、ステートマシンのステータスを確認することにより、パイプラインが実行されていることを確認できます。

上の グラフインスペクター このページでは、任意の時点でのステートマシンのステータスに関するより多くの洞察を得ることができます。 ステップを選択すると、 ステップ出力 タブには完了率が表示されます。

ステートマシンが完成したら、翻訳されたファイルを出力バケットから取得できます。

次のスクリーンショットは、ファイルが英語に翻訳されていることを示しています。

トラブルシューティング

翻訳されたドキュメントが出力S3バケットに表示されない場合は、チェックしてください Amazon CloudWatchログ 対応するLambda関数を探し、潜在的なエラーを探します。 コストを最適化するために、デフォルトでは、ソリューションはProcess DocumentLambda関数に256MBのメモリを使用します。 大きなドキュメントの処理中に、CloudWatch Logsに関数のRuntime.ExitErrorが表示された場合は、関数のメモリを増やしてください。

その他の考慮事項

の力を強調する価値があります 自動言語検出機能 CloudFormationスタックをデプロイするときに指定したSourceLanguageCodeフィールドでautoとしてキャプチャされたAmazonTranslateの。 前の例では、ギリシャ語のテキストを含むファイルとドイツ語の別のファイルを送信しましたが、どちらも英語に正常に翻訳されました。 私たちのソリューションでは、別の言語でソースファイルをアップロードするたびに、スタックを再デプロイする(またはLambda関数でソース言語コードを手動で変更する)必要はありません。 Amazon Translateはソース言語を検出し、翻訳プロセスを開始します。 デプロイ後、ターゲット言語コードを変更する必要がある場合は、新しいCloudFormationスタックをデプロイするか、既存のスタックを更新できます。

このソリューションは、AmazonTranslate同期リアルタイムAPIを使用します。 ドキュメントを段落(改行文字で終わる)に分割することにより、ドキュメントの最大サイズ制限(5,000バイト)を処理します。 必要に応じて、各段落をさらに文に分割します(ピリオドで終わります)。 これらの区切り文字は、ソーステキストに基づいて変更できます。 このソリューションは、5,000つの文で最大8バイトをサポートでき、.txtまたは.textファイル拡張子を持つUTF-XNUMX形式のテキストドキュメントのみを処理します。 Process Document Lambda関数のPythonコードを変更して、さまざまなファイル形式を処理できます。

このソリューションでは、Amazon S3のコストに加えて、Amazon Translate、Lambda、およびStepFunctionsからの使用コストが発生します。 詳細については、を参照してください。 Amazon翻訳の価格, AmazonS3の価格, AWSLambdaの価格AWS StepFunctionsの価格.

結論

この投稿では、を使用してドキュメントをリアルタイムで翻訳できるサーバーレスパイプラインの実装を示しました。 リアルタイム翻訳 Amazon Translateの機能と、個々のLambda関数のオーケストレーターとしてのStepFunctionsの機能。 このソリューションにより、より詳細な制御が可能になり、アプリケーションに高度な機能を追加できます。 Amazon Translateを使用して、高度なドキュメント翻訳パイプラインを構築してください。

詳細については、以下を参照してください Amazon翻訳開発者ガイド Amazon翻訳リソース。 Amazon Translateを初めて使用する場合は、最初の翻訳リクエストから最初の2か月間、月額12万文字を無料で提供する無料利用枠を使用して試してみてください。


著者について

ジェイ・ラオ AWSのシニアソリューションアーキテクトです。 彼は、お客様に技術的なガイダンスを提供し、お客様がAWSでソリューションを設計および実装するのを支援することを楽しんでいます。

 Seb Kasprzak AWSのソリューションアーキテクトです。 彼はAmazonで日々を過ごし、Amazonテクノロジーを使用して顧客が複雑なビジネス上の問題を解決するのを支援しています。

ニキフォロスボティス AWSのソリューションアーキテクトです。 彼は、顧客がクラウドジャーニーで成功するのを支援することを楽しんでおり、特にAI / MLテクノロジーに興味を持っています。

ボビー・クーボール AWSのデジタルイノベーションのシニアソリューションアーキテクトであり、機械学習、ロボット工学、IoTなどの新しいテクノロジーに関する困難な問題の解決を支援しています。

コインスマート。 BesteBitcoin-ヨーロッパのBörse
ソース:https://aws.amazon.com/blogs/machine-learning/create-a-serverless-pipeline-to-translate-large-documents-with-amazon-translate/

続きを読む

AI

GenworthがAmazonSageMakerとAWSGlueを使用してAWSでサーバーレスMLパイプラインを構築した方法

アバター

公開済み

on

この投稿は、Genworth Mortgage Insurance AustraliaLimitedのデータサイエンティストであるLiamPearsonと共同で執筆しています。

ゲンワース Mortgage Insurance Australia Limitedは、オーストラリアの貸し手住宅ローン保険(LMI)の大手プロバイダーです。 彼らの株式はオーストラリア証券取引所でASX:GMAとして取引されています。

Genworth Mortgage Insurance Australia Limitedは、50年以上の経験と、住宅ローンの返済パターンと保険金請求の依存関係に関するデータを含む大量のデータを収集した貸し手住宅ローン保険会社です。 Genworthは、この履歴情報を使用して、損失軽減(PALM)機械学習(ML)モデルの予測分析をトレーニングしたいと考えていました。 MLモデルを使用すると、Genworthは各保険契約の最近の返済パターンを分析して、可能性(請求の可能性)と影響(保険金額)の降順で優先順位を付けることができます。 Genworthは、ソリューションの構築と運用にかかる労力を最小限に抑えながら、MLモデルでバッチ推論を並行してスケジュールどおりに実行したいと考えていました。 したがって、GenworthとAWSは Amazon SageMaker データの取り込みと変換、ML推論の実行、分析結果の処理と公開を行うためのバッチ変換ジョブとサーバーレスビルディングブロック。

GenworthのAdvancedAnalyticsチームは AWSデータラボ データラボのエンジニアとソリューションアーキテクトが主導するプログラム。 ラボ前のフェーズでは、金融サービス業界の性質を考慮して、Genworthが特にセキュリティ制御に関して持っていた特定の要件に適合するソリューションアーキテクチャを作成しました。 アーキテクチャが承認され、すべてのAWSビルディングブロックが特定された後、トレーニングのニーズが決定されました。 AWS Solutions Architectsは、Genworthのビルダーに新しいソリューションの構築に必要なスキルを提供するために、一連のハンズオンワークショップを実施しました。 ビルドフェーズと呼ばれる4日間の集中的なコラボレーションでは、Genworth Advanced Analyticsチームはアーキテクチャと学習を使用して、機能要件に適合するMLパイプラインを構築しました。 パイプラインは完全に自動化されており、サーバーレスです。つまり、メンテナンス、スケーリングの問題、またはダウンタイムはありません。 ラボ後の活動は、パイプラインの製品化と、他のMLユースケースの青写真としての採用に重点が置かれていました。

この投稿では、私たち(GenworthとAWS Architectsの共同チーム)が、ソリューションの設計と実装にどのように取り組んだか、従ったベストプラクティス、使用したAWSサービス、およびソリューションアーキテクチャの主要コンポーネントについて説明します。

ソリューションの概要

最新のMLパイプラインパターンに従って、GenworthのPALMソリューションを実装しました。 このパターンでは、さまざまなソースからのデータの取り込み、データの変換、強化、クリーニング、ML予測ステップが可能であり、出力のデータラングリングの有無にかかわらず、結果を利用できるようになります。

つまり、実装されたソリューションにはXNUMXつのコンポーネントがあります。

  • データの取り込みと準備
  • XNUMXつのカスタム開発されたMLモデルを使用したMLバッチ推論
  • 消費のためのデータ後処理と公開

以下は、実装されたソリューションのアーキテクチャ図です。

XNUMXつのコンポーネントについて詳しく説明しましょう。

コンポーネント1:データの取り込みと準備

Genworthのソースデータは、Oracleオンプレミスデータベースのステージングテーブルに毎週公開されます。 MLパイプラインは AWSグルー Oracleデータベースに接続するジョブ(図のステップ1、データの取り込み) AWSダイレクトコネクト VPNで保護された接続により、生データを取り込み、暗号化されたデータに保存します Amazon Simple Storage Service (Amazon S3)バケット。 次に、AWS Glue(ステップ2、データ準備)を使用してPythonシェルジョブを実行し、ML推論ステップの後半で使用される機能を選択、クリーンアップ、変換します。 結果は、MLで使用する準備ができているキュレートされたデータセットに使用される別の暗号化されたS3バケットに保存されます。

コンポーネント2:MLバッチ推論

GenworthのAdvancedAnalyticsチームは、すでにオンプレミスでMLを使用しています。 彼らは、事前にトレーニングされたモデルアーティファクトを再利用して、AWSに完全に自動化されたML推論パイプラインを実装したいと考えていました。 さらに、チームは、将来のMLの実験と実装のためのアーキテクチャパターンを確立し、制御された環境でアイデアをすばやく反復してテストできるようにしたいと考えていました。

PALMモデルを形成するXNUMXつの既存のMLアーティファクトは、Kerasを使用して階層型TensorFlowニューラルネットワークモデルとして実装されました。 モデルは、保険証券が保険金請求を提出する確率、保険金が支払われる確率の推定値、およびその可能性のある保険金請求の規模を予測しようとします。

各MLモデルは異なるデータでトレーニングされるため、入力データはそれに応じて標準化する必要があります。 個々のAWSGlue Pythonシェルジョブは、各モデルに固有のこのデータ標準化を実行します。 XNUMXつのMLモデルは、を使用して並行して呼び出されます SageMakerバッチ変換 ML推論を実行し、予測結果をモデル出力S3バケットに保存するジョブ(ステップ3、MLバッチ予測)。 SageMakerバッチ変換は、コンピューティングリソースを管理し、MLモデルをインストールし、Amazon S3とMLモデル間のデータ転送を処理し、データセット全体で推論を実行するために簡単にスケールアウトします。

コンポーネント3:データの後処理と公開

4つのMLモデルからの予測結果を使用する準備が整う前に、AWS GluePythonシェルジョブを使用して実行された一連の後処理ステップが必要です。 結果は集計およびスコアリングされ(ステップ5、PALMスコアリング)、適用されたビジネスルール(ステップ6、ビジネスルール)、生成されたファイル(ステップ7、ユーザーファイルの生成)、および検証されたファイル内のデータ(ステップ8、検証)これらのステップの出力をオンプレミスのOracleデータベースのテーブルに公開します(ステップXNUMX、結果の配信)。 ソリューションは使用します Amazon Simple Notification Service (Amazon SNS)と Amazon CloudWatchイベント 新しいデータが利用可能になったとき、または問題が発生したときに電子メールでユーザーに通知します(ステップ10、アラートと通知)。

MLパイプラインのすべてのステップは、を使用して分離および調整されます AWSステップ関数、Genworthに実装の容易さ、足場の代わりにビジネスロジックに集中する能力、および将来の実験やその他のMLユースケースに必要な柔軟性を提供します。 次の図は、StepFunctionsステートマシンを使用したMLパイプラインオーケストレーションを示しています。

ビジネス上のメリットと次のステップ

Genworthは、最新のMLプラットフォームを構築することで、エンドツーエンドのML推論プロセスを自動化できました。このプロセスは、オンプレミスのOracleデータベースからデータを取り込み、ML操作を実行し、ビジネスがデータ主導の意思決定を行うのに役立ちます。 機械学習は、Genworthが損失軽減チームによって実行される高価値の手作業を簡素化するのに役立ちます。

このデータラボの取り組みは、組織内のチームが最新のMLおよび分析ツールを利用できるようにすることの重要性を示しています。 アイデアをいかに迅速にパイロットし、成功すれば生産できるかを目の当たりにすることは、驚くべき経験でした。

この投稿では、AWS DataAnalyticsとMLサービスを使用してサーバーレスMLパイプラインを大規模に構築することがいかに簡単であるかを示しました。 すでに説明したように、サーバーレスのマネージドETL処理ジョブにはAWS Glueを使用し、MLのすべてのニーズにSageMakerを使用できます。 あなたのビルドで最高です!

Genworth、Genworth Financial、およびGenworthのロゴは、Genworth Financial、Inc。の登録サービスマークであり、ライセンスに従って使用されます。


著者について

 リアム・ピアソン Genworth Mortgage Insurance Australia Limitedのデータサイエンティストであり、ビジネス内のさまざまなチームのMLモデルを構築および展開しています。 余暇には、リアムはライブ音楽を見たり、水泳を楽しんだり、真のミレニアル世代のように、砕いたアボカドを楽しんだりしています。

マリア・ソコロバ アマゾンウェブサービスのソリューションアーキテクトです。 彼女は、企業顧客がレガシーシステムを最新化するのを支援し、最も必要とされる場所に技術的な専門知識と変革のガイダンスを提供することにより、重要なプロジェクトを加速します。

Vamshiクリシュナエナボタラ AWSのデータラボソリューションアーキテクトです。 Vamshiは、お客様のユースケースで協力し、ビジネス上の問題を解決するソリューションを設計し、スケーラブルなプロトタイプの構築を支援します。 仕事以外では、VamshiはRC愛好家であり、RC機器(車、ボート、ドローン)を組み立てて遊んでおり、ガーデニングも楽しんでいます。

コインスマート。 BesteBitcoin-ヨーロッパのBörse
ソース:https://aws.amazon.com/blogs/machine-learning/how-genworth-built-a-serverless-ml-pipeline-on-aws-using-amazon-sagemaker-and-aws-glue/

続きを読む
Blockchain4日前

イーサリアムは初めて$ 3,000に達し、バンクオブアメリカよりも大きくなりました

Blockchain4日前

暗号産業に向けたMunger「Anti-Bitcoin」とBuffett「Annoyance」

Blockchain2日前

Changpeng Zhaoによると、イーサリアムが最近ATHに集結した理由

Blockchain18時間前

Chiliz価格予測2021-2025:1.76年末までに2025ドル

賭博5日前

New Pokemon Snap:すべての場所のロックを解除する方法| 完了ガイド

航空2日前

アメリカン航空の乗客が乗組員の攻撃の疑いで逮捕された

Blockchain4日前

BNYメロンはビットコインに投資している企業の株式を所有していないことを後悔している

Blockchain2日前

ビットコインのマイニング:ビットコインをマイニングする方法

自動車産業4日前

Ford Mach-ECo-Pilot360ドライバー監視システムはできるだけ早く更新する必要があります

Blockchain2日前

ビットコインのマイニング:ビットコインをマイニングする方法

Fintech5日前

Telcoinがオーストラリアで送金業務を開始する予定

Blockchain5日前

ビットコインのマイニング:ビットコインをマイニングする方法

Blockchain5日前

ティエルキャピタルディレクター:「ビットコインの短期的な損失がビットコインであなたを苦しめないようにしてください」

航空4日前

ブリティッシュ・エアウェイズで無秩序に行動した後に罰金を科されたテレビスター

Blockchain4日前

トレーダーが知っておく必要のあるイーサリアムの長期的なROIの可能性は次のとおりです

Fintech3日前

フィンテックの話:カスタマーエクスペリエンスと生産性革命

Blockchain5日前

CoinbaseがCryptoAnalytics CompanySkewを買収

Blockchain4日前

トルコの刑務所6人のCEO兄弟を含むThodex詐欺に関係するXNUMX人の容疑者

AR / VR5日前

VRを探求するクリックベイト記事の危険性

Blockchain5日前

XNUMX年後:ウズベキスタンは暗号通貨の禁止を解除する計画

トレンド