私達と接続する

AI

新時代の幕開けと見られる言語ベースのAIタスクの進歩 

アバター

公開済み

on

一部の専門家が新しい時代をマークすると見なしている言語ベースのAIアプリケーションには、トピックモデリングや感情分析などの機能が含まれています。 (クレジット:ゲッティイメージズ) 

AIトレンドスタッフ別  

アクセンチュアの研究者は、デジタルテクノロジーの早期採用者の10%が下位25%のXNUMX倍の割合で成長しており、採用を可能にするためにレガシーシステムではなくクラウドシステムを使用していることを発見しました。  

アクセンチュア、マネージングディレクター、H。ジェームズウィルソン

「今後XNUMX年間で、業界のリーダーの間でこの傾向が加速すると予想しています」と、著者のH. JamesWilsonとPaulR.Daughertyは次のように述べています。 ハーバード·ビジネス·レビュー。 より具体的には、Open AIからGPT-3ラージ言語モデルがリリースされた後、「T2020年代は大きな進歩についてです 言語ベースで AIタスク」と著者は示唆しています。 

ジェネレーティブプレトレーニングトランスフォーマー(GPT)は、トランスフォーマーに依存しています。トランスフォーマーは、テキスト内の単語間のコンテキスト関係を学習するメカニズムであり、本の共著者である著者は次のように述べています。 人間+機械:AI時代の仕事を再考する (ハーバードビジネスレビュープレス)。 

ナンセンスまたは偏った応答の生成や、もっともらしいが誤ったコンテンツの生成など、GPT-3の欠陥にもかかわらず、「AIの新時代が到来しました」と著者は述べています。 

Microsoft、Google、Alibaba、Facebookはすべて、独自のバージョンの「高度なトランスフォーマー」に取り組んでいます。 ツールはクラウドでトレーニングされ、APIを介してアクセスできます。 「次世代AIのパワーを活用したい企業は、コンピューティングワークロードをレガシーからGPT-3のようなクラウドAIサービスにシフトします」と著者は示唆しています。  

これにより、新しいクラスのエンタープライズアプリケーションが可能になり、言語で単語や情報を合成するプロセスが安価になります。 GPT-50の3以上のビジネス関連の概念実証アプリケーションの分析に基づいて、著者は、言語理解に関連するXNUMXつの広いカテゴリー、つまり、ライティング、コーディング、および分野固有の推論を確認します。  

たとえば、GPT-3は自然言語をプログラミング言語に変換することができます。 口頭での説明に基づいてグラフをプロットできます。 あるベータテスターは、会計スキルのない人が生成できるようにするGPT-3ボットを作成しました 財務諸表.  

「クラウド駆動の変圧器の使用は、経営科学、データサイエンス、物理学および生命科学全体に適用できるメタ分野になる可能性があります」と著者は楽観的に示唆しています。  

著者は使用しました 職業情報ネットワーク(O * NET)、 労働者を職業カテゴリーに分類するために使用される米国政府の基準に基づいて、73のキャリアクラスターで16の職種を分析します。 「すべてのクラスターがGPT-3の影響を受けることがわかりました」と彼らは述べ、主な機会は人間の生産性と創意工夫を増強および増幅することであり、存在しない仕事を自動化することではないと述べました。  

NLPアプリは、パンデミック時に公衆衛生当局が情報を広めるのに役立ちます   

ショーン・マクファーソン、リサーチサイエンティスト/マネージャー、インテル

パンデミックの年に危機対応に従事した公衆衛生当局は、NLPを使用してコミュニティの感情に対応することができます。 最初のステップは、「トピックモデリング」に取り組むことです。このモデリングでは、AIシステムに、最も一般的なキーワードまたはトピックを表示する大量のドキュメントが提供されます。 GCN、IntelのディープラーニングデータサイエンティストであるSeanMcPhersonによって作成されました。 学術研究者は、トピックモデリングを使用して、物理的な距離やマスクの着用など、Twitterの人々がウイルスについて何を言っているかを評価しました。 「「この情報は、公務員が特定の危機の際に市民が最も懸念していることを理解するために重要です」とマクファーソン氏は述べています。  

XNUMX番目のステップは、テキストに基づいて感情を解釈する感情分析モデルを構築することです。 「これは、実施された措置について国民がどのように感じているかを示しているため、危機対応に特に役立ちます」と彼は述べました。  

アスペクトベースの感情分析は、無関係なトピックのノイズを乗り越えるのに役立ちます。 テキストをコンポーネントに分割し、関連する名詞、動詞、形容詞をグループ化して、各グループの感情を分析します。 これは、たとえば、非医薬品介入が否定的な反応を引き起こすことを公衆衛生当局が知ることができる場合に役立ちます。  

XNUMX番目のステップは結果を解釈することですが、ソーシャルメディアサイトのテキストを解釈することになると簡単ではありません。 「先週自宅で仕事をしていたことを公言するためにログオンする人はほとんどいません」とマクファーソン氏は述べ、バランスの取れた結果を得るには直接調査が必要だと彼は示唆しています。  

NLPは強力なテクノロジーです - そして、近年、驚異的な進歩を遂げたものです。 危機の真っ只中に、この技術は科学者と公衆衛生当局に彼らの対応と一般大衆への勧告を位置付けるための有用な参照点を提供することができます」と彼は述べました。   

NLPの実装を支援するコンテンツ作成会社の位置付け  

GPT-3が登場する前は、AIを組み込んだ自然言語処理が進んでおり、リスクも伴います。 「M過度の希望とすべての間違った場所への近視眼的な注意のために、初期の投資は失敗します」と、ブログのアカウントの作成者は述べています。 クリエイティブマインド、特にWordPressを含むコンテンツ作成サービスを提供する会社。  

企業が今日追求できる自然言語処理を適用するアプリケーションには、フォームへの自動入力、サポートチケットのテキストなどの非構造化データの分析の実行が含まれます。 CreativeMindsは、データ分析と自然言語処理の専門家を提供して、企業が潜在的なメリットを特定するのを支援します。  

NLPには、感情分析モデルを強化する機能もあります。たとえば、ソーシャルメディアの投稿にある非構造化データを分析することで、企業がどのように見られているかを理解できます。 WhaTech。 モデルは、ソーシャルメディア上の感情や意見を分析し、褒め言葉と侮辱を区別するのに効果的です。  

NLPと音声認識を組み合わせたチャットボットはより効果的になっています。 Insider Intelligenceの市場調査員は、チャットボットを介した消費者の小売支出は、142年の2024億ドルから、2.8年までに2019億ドルに達すると予測しています。 ビジネスインサイダー. 

需要は、銀行、金融、健康、ウェルネスにおけるXNUMX時間体制のサービスに対する消費者の期待によって推進されています。  

ニューヨーク州中部にある145年の歴史を持つLincolnDavies Building Supplyは、 MobileMonkey そのウェブサイトでFAQに答え、販売とプロモーションを提供します。 その結果、オンラインサポートコストが25%削減され、顧客リストが100%以上増加しました。 MobileMonkey サイト。 

リンカーンデイビスは、内外装の建設および建築資材の幅広い選択肢を提供しています。 同社はデジタルマーケティングエージェンシーのC&D Advertisingと協力して、モバイルフレンドリーな製品カタログと100ドルの割引オファーで顧客を迎えるためのMobileMonkeyチャットボットを設計しました。 「このキャンペーンにより、私のスタッフは、より教育を受けた顧客からの潜在的な顧客の関心に集中できるようになりました。 成長するビジネスにとって、これは非常に重要です」とリンカーンデイビスのオーナーであるエドジョーンズは述べています。  

2017年に設立されたMobileMonkeyは、マーケティング、販売、カスタマーサポートのためのチャットボットプラットフォームを提供します。 

のソース記事を読む ハーバード·ビジネス·レビュー, in GCN、またはn個 のブログ クリエイティブマインドで WhaTechで ビジネスインサイダー そして、上 MobileMonkey ウェブサイト。 

コインスマート。 BesteBitcoin-ヨーロッパのBörse
出典:https://www.aitrends.com/natural-language/advances-in-language-based-ai-tasks-seen-as-dawn-of-new-era/

AI

サーバーレスパイプラインを作成して、AmazonTranslateで大きなドキュメントを翻訳します

アバター

公開済み

on

 以前の投稿、を使用してドキュメントを翻訳する方法を説明しました リアルタイム翻訳API from Amazon翻訳   AWSラムダ。 ただし、この方法は、大きすぎるファイルでは機能しない場合があります。 時間がかかりすぎて、 15分のタイムアウト制限 ラムダ関数の。 使用できます バッチAPI、ただし、これはXNUMXつのAWSリージョンでのみ利用可能です(このブログの公開時点)。 バッチ翻訳がサポートされていない地域で大きなファイルの翻訳を有効にするために、次のソリューションを作成しました。

この投稿では、大きなドキュメントの翻訳を実行する手順を説明します。

アーキテクチャの概要

投稿で取り上げられているアーキテクチャと比較して Amazon Translate、AWS Lambda、および新しいBatch Translate APIを使用してドキュメントを翻訳する、私たちのアーキテクチャにはXNUMXつの重要な違いがあります。 AWSステップ関数、Lambda関数と複数のサービスをビジネスクリティカルなアプリケーションに簡単にシーケンスできるサーバーレス関数オーケストレーター。 ステップ関数を使用すると、翻訳の実行を追跡し、エラーやタイムアウトが発生した場合の再試行を管理し、イベント駆動型ワークフローを調整できます。

次の図は、ソリューションアーキテクチャを示しています。

このイベント駆動型アーキテクチャは、新しいドキュメントが入力に到達したときのアクションのフローを示しています Amazon Simple Storage Service (Amazon S3)バケット。 このイベントは、最初のLambda関数をトリガーします。これは、StepFunctionsワークフローの開始点として機能します。

次の図は、ステートマシンとアクションのフローを示しています。

Process Document Lambda関数は、ステートマシンの起動時にトリガーされます。 この関数は、ドキュメントの翻訳に必要なすべてのアクティビティを実行します。 S3バケットからファイルにアクセスし、関数が実行されている環境でローカルにダウンロードし、ファイルの内容を読み取り、リアルタイム翻訳APIを通過できるドキュメントから短いセグメントを抽出し、APIの出力を使用します。翻訳されたドキュメントを作成します。

他のメカニズムは、失敗を回避するためにコード内に実装されています。たとえば、アクションを実行し、関数がタイムアウトする30秒前に進行状況を/ tempフォルダーに保存することで、AmazonTranslateスロットルエラーやLambda関数のタイムアウトを処理します。 これらのメカニズムは、大きなテキストドキュメントを処理するために重要です。

関数が正常に処理を完了すると、翻訳されたテキストドキュメントを、英語の場合はenなどのターゲット言語コードのフォルダー内の出力S3バケットにアップロードします。 ステップ関数ワークフローは、Lambda関数が入力ファイルを/ dropフォルダーから入力S3バケット内の/ processedフォルダーに移動すると終了します。

これで、これを実際に試すためのすべての要素が整いました。

AWSCloudFormationを使用してソリューションをデプロイする

提供されているを起動することで、このソリューションをAWSアカウントにデプロイできます AWS CloudFormation スタック。 CloudFormationテンプレートは、ソリューションに必要なリソースをプロビジョニングします。 テンプレートはus-east-1リージョンのスタックを作成しますが、テンプレートを使用して、AmazonTranslateが利用可能な任意のリージョンにスタックを作成できます。 この記事の執筆時点で、AmazonTranslateは16の商用リージョンとAWSGovCloud(US-West)で利用できます。 地域の最新リストについては、 AWSリージョナルサービスリスト.

アプリケーションをデプロイするには、以下の手順を実行します。

  1. を選択してCloudFormationテンプレートを起動します 発射スタック:

  1. 選択する .

または、AWS CloudFormationコンソールで、 新しいリソースでスタックを作成する(標準)、選択する Amazon S3 URL テンプレートソースとして、次のように入力します https://s3.amazonaws.com/aws-ml-blog/artifacts/create-a-serverless-pipeline-to-translate-large-docs-amazon-translate/translate.yml、選択して .

  1. COVID-XNUMX スタック名、このアカウントの一意のスタック名を入力します。 たとえば、serverless-document-translationです。
  2. COVID-XNUMX InputBucketName、スタックが作成するS3バケットの一意の名前を入力します。 たとえば、serverless-translation-input-bucketです。

ドキュメントは、翻訳される前にこのバケットにアップロードされます。 入力S3バケットの名前を指定するときは、小文字のみを使用し、スペースは使用しないでください。 この操作により新しいバケットが作成されるため、既存のバケットの名前は使用しないでください。 詳細については、を参照してください。 バケットの命名規則.

  1. COVID-XNUMX OutputBucketName、出力S3バケットの一意の名前を入力します。 たとえば、serverless-translation-output-bucketです。

このバケットには、翻訳後にドキュメントが保存されます。 入力バケットと同じ命名規則に従います。

  1. COVID-XNUMX SourceLanguageCode、入力ドキュメントが含まれている言語コードを入力します。 この投稿では、autoと入力して主要言語を検出します。
  2. COVID-XNUMX TargetLanguageCode、翻訳されたドキュメントを使用する言語コードを入力します。 たとえば、英語の場合はenです。

サポートされている言語コードの詳細については、を参照してください。 サポートされている言語と言語コード.

  1. 選択する .

  1. 上の スタックオプションを構成する ページで、タグを含むスタックの追加パラメータを設定します。
  2. 選択する .
  3. 次の項目を選択します。: AWS CloudFormationがカスタム名でIAMリソースを作成する可能性があることを認めます.
  4. 選択する スタックを作成.

スタックの作成は、完了するまでに約XNUMX分かかります。

ドキュメントを翻訳する

これで、入力S3バケットに翻訳するテキストドキュメントをdrop /フォルダーの下にアップロードできます。

次のスクリーンショットは、ギリシャ語の文を含むサンプルドキュメントを示しています。

このアクションによりワークフローが開始され、翻訳されたドキュメントが出力S3バケットのターゲット言語(この例ではen)のフォルダーに自動的に表示されます。 ファイルが表示される時間の長さは、入力ドキュメントのサイズによって異なります。

翻訳されたファイルは次のスクリーンショットのようになります。

ステップ関数コンソールで、または関連するAPI呼び出しを使用して、ステートマシンの進行状況を追跡することもできます。

より大きなファイルで解決策を試してみましょう。 test_large.txtファイルには、複数のAWSブログ投稿のコンテンツとドイツ語で書かれたその他のコンテンツが含まれています(たとえば、投稿のすべてのテキストを使用します) AWS DeepLens(バージョン2019)kommt nach DeutschlandundinweitereLänder).

このファイルは、前のテストのファイルよりもはるかに大きくなっています。 入力バケットのdrop /フォルダーにファイルをアップロードします。

ステップ関数コンソールで、ステートマシンのステータスを確認することにより、パイプラインが実行されていることを確認できます。

上の グラフインスペクター このページでは、任意の時点でのステートマシンのステータスに関するより多くの洞察を得ることができます。 ステップを選択すると、 ステップ出力 タブには完了率が表示されます。

ステートマシンが完成したら、翻訳されたファイルを出力バケットから取得できます。

次のスクリーンショットは、ファイルが英語に翻訳されていることを示しています。

トラブルシューティング

翻訳されたドキュメントが出力S3バケットに表示されない場合は、チェックしてください Amazon CloudWatchログ 対応するLambda関数を探し、潜在的なエラーを探します。 コストを最適化するために、デフォルトでは、ソリューションはProcess DocumentLambda関数に256MBのメモリを使用します。 大きなドキュメントの処理中に、CloudWatch Logsに関数のRuntime.ExitErrorが表示された場合は、関数のメモリを増やしてください。

その他の考慮事項

の力を強調する価値があります 自動言語検出機能 CloudFormationスタックをデプロイするときに指定したSourceLanguageCodeフィールドでautoとしてキャプチャされたAmazonTranslateの。 前の例では、ギリシャ語のテキストを含むファイルとドイツ語の別のファイルを送信しましたが、どちらも英語に正常に翻訳されました。 私たちのソリューションでは、別の言語でソースファイルをアップロードするたびに、スタックを再デプロイする(またはLambda関数でソース言語コードを手動で変更する)必要はありません。 Amazon Translateはソース言語を検出し、翻訳プロセスを開始します。 デプロイ後、ターゲット言語コードを変更する必要がある場合は、新しいCloudFormationスタックをデプロイするか、既存のスタックを更新できます。

このソリューションは、AmazonTranslate同期リアルタイムAPIを使用します。 ドキュメントを段落(改行文字で終わる)に分割することにより、ドキュメントの最大サイズ制限(5,000バイト)を処理します。 必要に応じて、各段落をさらに文に分割します(ピリオドで終わります)。 これらの区切り文字は、ソーステキストに基づいて変更できます。 このソリューションは、5,000つの文で最大8バイトをサポートでき、.txtまたは.textファイル拡張子を持つUTF-XNUMX形式のテキストドキュメントのみを処理します。 Process Document Lambda関数のPythonコードを変更して、さまざまなファイル形式を処理できます。

このソリューションでは、Amazon S3のコストに加えて、Amazon Translate、Lambda、およびStepFunctionsからの使用コストが発生します。 詳細については、を参照してください。 Amazon翻訳の価格, AmazonS3の価格, AWSLambdaの価格AWS StepFunctionsの価格.

結論

この投稿では、を使用してドキュメントをリアルタイムで翻訳できるサーバーレスパイプラインの実装を示しました。 リアルタイム翻訳 Amazon Translateの機能と、個々のLambda関数のオーケストレーターとしてのStepFunctionsの機能。 このソリューションにより、より詳細な制御が可能になり、アプリケーションに高度な機能を追加できます。 Amazon Translateを使用して、高度なドキュメント翻訳パイプラインを構築してください。

詳細については、以下を参照してください Amazon翻訳開発者ガイド Amazon翻訳リソース。 Amazon Translateを初めて使用する場合は、最初の翻訳リクエストから最初の2か月間、月額12万文字を無料で提供する無料利用枠を使用して試してみてください。


著者について

ジェイ・ラオ AWSのシニアソリューションアーキテクトです。 彼は、お客様に技術的なガイダンスを提供し、お客様がAWSでソリューションを設計および実装するのを支援することを楽しんでいます。

 Seb Kasprzak AWSのソリューションアーキテクトです。 彼はAmazonで日々を過ごし、Amazonテクノロジーを使用して顧客が複雑なビジネス上の問題を解決するのを支援しています。

ニキフォロスボティス AWSのソリューションアーキテクトです。 彼は、顧客がクラウドジャーニーで成功するのを支援することを楽しんでおり、特にAI / MLテクノロジーに興味を持っています。

ボビー・クーボール AWSのデジタルイノベーションのシニアソリューションアーキテクトであり、機械学習、ロボット工学、IoTなどの新しいテクノロジーに関する困難な問題の解決を支援しています。

コインスマート。 BesteBitcoin-ヨーロッパのBörse
ソース:https://aws.amazon.com/blogs/machine-learning/create-a-serverless-pipeline-to-translate-large-documents-with-amazon-translate/

続きを読む

AI

GenworthがAmazonSageMakerとAWSGlueを使用してAWSでサーバーレスMLパイプラインを構築した方法

アバター

公開済み

on

この投稿は、Genworth Mortgage Insurance AustraliaLimitedのデータサイエンティストであるLiamPearsonと共同で執筆しています。

ゲンワース Mortgage Insurance Australia Limitedは、オーストラリアの貸し手住宅ローン保険(LMI)の大手プロバイダーです。 彼らの株式はオーストラリア証券取引所でASX:GMAとして取引されています。

Genworth Mortgage Insurance Australia Limitedは、50年以上の経験と、住宅ローンの返済パターンと保険金請求の依存関係に関するデータを含む大量のデータを収集した貸し手住宅ローン保険会社です。 Genworthは、この履歴情報を使用して、損失軽減(PALM)機械学習(ML)モデルの予測分析をトレーニングしたいと考えていました。 MLモデルを使用すると、Genworthは各保険契約の最近の返済パターンを分析して、可能性(請求の可能性)と影響(保険金額)の降順で優先順位を付けることができます。 Genworthは、ソリューションの構築と運用にかかる労力を最小限に抑えながら、MLモデルでバッチ推論を並行してスケジュールどおりに実行したいと考えていました。 したがって、GenworthとAWSは Amazon SageMaker データの取り込みと変換、ML推論の実行、分析結果の処理と公開を行うためのバッチ変換ジョブとサーバーレスビルディングブロック。

GenworthのAdvancedAnalyticsチームは AWSデータラボ データラボのエンジニアとソリューションアーキテクトが主導するプログラム。 ラボ前のフェーズでは、金融サービス業界の性質を考慮して、Genworthが特にセキュリティ制御に関して持っていた特定の要件に適合するソリューションアーキテクチャを作成しました。 アーキテクチャが承認され、すべてのAWSビルディングブロックが特定された後、トレーニングのニーズが決定されました。 AWS Solutions Architectsは、Genworthのビルダーに新しいソリューションの構築に必要なスキルを提供するために、一連のハンズオンワークショップを実施しました。 ビルドフェーズと呼ばれる4日間の集中的なコラボレーションでは、Genworth Advanced Analyticsチームはアーキテクチャと学習を使用して、機能要件に適合するMLパイプラインを構築しました。 パイプラインは完全に自動化されており、サーバーレスです。つまり、メンテナンス、スケーリングの問題、またはダウンタイムはありません。 ラボ後の活動は、パイプラインの製品化と、他のMLユースケースの青写真としての採用に重点が置かれていました。

この投稿では、私たち(GenworthとAWS Architectsの共同チーム)が、ソリューションの設計と実装にどのように取り組んだか、従ったベストプラクティス、使用したAWSサービス、およびソリューションアーキテクチャの主要コンポーネントについて説明します。

ソリューションの概要

最新のMLパイプラインパターンに従って、GenworthのPALMソリューションを実装しました。 このパターンでは、さまざまなソースからのデータの取り込み、データの変換、強化、クリーニング、ML予測ステップが可能であり、出力のデータラングリングの有無にかかわらず、結果を利用できるようになります。

つまり、実装されたソリューションにはXNUMXつのコンポーネントがあります。

  • データの取り込みと準備
  • XNUMXつのカスタム開発されたMLモデルを使用したMLバッチ推論
  • 消費のためのデータ後処理と公開

以下は、実装されたソリューションのアーキテクチャ図です。

XNUMXつのコンポーネントについて詳しく説明しましょう。

コンポーネント1:データの取り込みと準備

Genworthのソースデータは、Oracleオンプレミスデータベースのステージングテーブルに毎週公開されます。 MLパイプラインは AWSグルー Oracleデータベースに接続するジョブ(図のステップ1、データの取り込み) AWSダイレクトコネクト VPNで保護された接続により、生データを取り込み、暗号化されたデータに保存します Amazon Simple Storage Service (Amazon S3)バケット。 次に、AWS Glue(ステップ2、データ準備)を使用してPythonシェルジョブを実行し、ML推論ステップの後半で使用される機能を選択、クリーンアップ、変換します。 結果は、MLで使用する準備ができているキュレートされたデータセットに使用される別の暗号化されたS3バケットに保存されます。

コンポーネント2:MLバッチ推論

GenworthのAdvancedAnalyticsチームは、すでにオンプレミスでMLを使用しています。 彼らは、事前にトレーニングされたモデルアーティファクトを再利用して、AWSに完全に自動化されたML推論パイプラインを実装したいと考えていました。 さらに、チームは、将来のMLの実験と実装のためのアーキテクチャパターンを確立し、制御された環境でアイデアをすばやく反復してテストできるようにしたいと考えていました。

PALMモデルを形成するXNUMXつの既存のMLアーティファクトは、Kerasを使用して階層型TensorFlowニューラルネットワークモデルとして実装されました。 モデルは、保険証券が保険金請求を提出する確率、保険金が支払われる確率の推定値、およびその可能性のある保険金請求の規模を予測しようとします。

各MLモデルは異なるデータでトレーニングされるため、入力データはそれに応じて標準化する必要があります。 個々のAWSGlue Pythonシェルジョブは、各モデルに固有のこのデータ標準化を実行します。 XNUMXつのMLモデルは、を使用して並行して呼び出されます SageMakerバッチ変換 ML推論を実行し、予測結果をモデル出力S3バケットに保存するジョブ(ステップ3、MLバッチ予測)。 SageMakerバッチ変換は、コンピューティングリソースを管理し、MLモデルをインストールし、Amazon S3とMLモデル間のデータ転送を処理し、データセット全体で推論を実行するために簡単にスケールアウトします。

コンポーネント3:データの後処理と公開

4つのMLモデルからの予測結果を使用する準備が整う前に、AWS GluePythonシェルジョブを使用して実行された一連の後処理ステップが必要です。 結果は集計およびスコアリングされ(ステップ5、PALMスコアリング)、適用されたビジネスルール(ステップ6、ビジネスルール)、生成されたファイル(ステップ7、ユーザーファイルの生成)、および検証されたファイル内のデータ(ステップ8、検証)これらのステップの出力をオンプレミスのOracleデータベースのテーブルに公開します(ステップXNUMX、結果の配信)。 ソリューションは使用します Amazon Simple Notification Service (Amazon SNS)と Amazon CloudWatchイベント 新しいデータが利用可能になったとき、または問題が発生したときに電子メールでユーザーに通知します(ステップ10、アラートと通知)。

MLパイプラインのすべてのステップは、を使用して分離および調整されます AWSステップ関数、Genworthに実装の容易さ、足場の代わりにビジネスロジックに集中する能力、および将来の実験やその他のMLユースケースに必要な柔軟性を提供します。 次の図は、StepFunctionsステートマシンを使用したMLパイプラインオーケストレーションを示しています。

ビジネス上のメリットと次のステップ

Genworthは、最新のMLプラットフォームを構築することで、エンドツーエンドのML推論プロセスを自動化できました。このプロセスは、オンプレミスのOracleデータベースからデータを取り込み、ML操作を実行し、ビジネスがデータ主導の意思決定を行うのに役立ちます。 機械学習は、Genworthが損失軽減チームによって実行される高価値の手作業を簡素化するのに役立ちます。

このデータラボの取り組みは、組織内のチームが最新のMLおよび分析ツールを利用できるようにすることの重要性を示しています。 アイデアをいかに迅速にパイロットし、成功すれば生産できるかを目の当たりにすることは、驚くべき経験でした。

この投稿では、AWS DataAnalyticsとMLサービスを使用してサーバーレスMLパイプラインを大規模に構築することがいかに簡単であるかを示しました。 すでに説明したように、サーバーレスのマネージドETL処理ジョブにはAWS Glueを使用し、MLのすべてのニーズにSageMakerを使用できます。 あなたのビルドで最高です!

Genworth、Genworth Financial、およびGenworthのロゴは、Genworth Financial、Inc。の登録サービスマークであり、ライセンスに従って使用されます。


著者について

 リアム・ピアソン Genworth Mortgage Insurance Australia Limitedのデータサイエンティストであり、ビジネス内のさまざまなチームのMLモデルを構築および展開しています。 余暇には、リアムはライブ音楽を見たり、水泳を楽しんだり、真のミレニアル世代のように、砕いたアボカドを楽しんだりしています。

マリア・ソコロバ アマゾンウェブサービスのソリューションアーキテクトです。 彼女は、企業顧客がレガシーシステムを最新化するのを支援し、最も必要とされる場所に技術的な専門知識と変革のガイダンスを提供することにより、重要なプロジェクトを加速します。

Vamshiクリシュナエナボタラ AWSのデータラボソリューションアーキテクトです。 Vamshiは、お客様のユースケースで協力し、ビジネス上の問題を解決するソリューションを設計し、スケーラブルなプロトタイプの構築を支援します。 仕事以外では、VamshiはRC愛好家であり、RC機器(車、ボート、ドローン)を組み立てて遊んでおり、ガーデニングも楽しんでいます。

コインスマート。 BesteBitcoin-ヨーロッパのBörse
ソース:https://aws.amazon.com/blogs/machine-learning/how-genworth-built-a-serverless-ml-pipeline-on-aws-using-amazon-sagemaker-and-aws-glue/

続きを読む

AI

コードを記述したりAPIを統合したりせずに、Amazon FraudDetectorを使用してバッチ詐欺予測を実行します

アバター

公開済み

on

アマゾン詐欺検出器 はフルマネージドサービスであり、偽のアカウントの作成やオンライン支払い詐欺など、潜在的に不正なオンライン活動を簡単に特定できます。 汎用の機械学習(ML)パッケージとは異なり、Amazon FraudDetectorは不正を検出するように特別に設計されています。 Amazon Fraud Detectorは、最新のMLサイエンスであるデータと、Amazon.comとAWSでの20年以上の不正検出の経験を組み合わせて、ビジネスの不正を検出するようにカスタマイズされたMLモデルを構築します。

ビジネスに合わせてカスタマイズされた不正検出モデルをトレーニングした後、モデルの出力を解釈するルールを作成し、モデルとルールの両方を含む検出器を作成します。 次に、を介して検出器を呼び出すことにより、詐欺のオンライン活動をリアルタイムで評価できます。 GetEventPrediction APIと、各リクエストのXNUMXつのイベントに関する詳細の受け渡し。 しかし、APIを統合するためのエンジニアリングサポートがない場合、または一度に多くのイベントをすばやく評価したい場合はどうでしょうか。 以前は、 カスタムソリューションを作成する 使用して AWSラムダ Amazon Simple Storage Service (Amazon S3)。 これには、コードを記述して維持する必要があり、一度に評価できるのは最大4,000のイベントのみでした。 これで、Amazon Fraud Detectorでバッチ予測を生成して、多数のイベントの不正をすばやく簡単に評価できます。

ソリューションの概要

バッチ予測機能を使用するには、次の高レベルの手順を完了する必要があります。

  1. 不正予測モデルとルール、または単にルールセットを含む検出器を作成して公開します。
  2. ファイルをアップロードするための入力S3バケットを作成し、オプションで、結果を保存するための出力バケットを作成します。
  3. 評価するすべてのイベントを含むCSVファイルを作成します。
  4. Amazon FraudDetectorコンソールからバッチ予測ジョブを実行します。
  5. 生成されてAmazonS3に保存されるCSVファイルで結果を確認します。

検出器を作成して公開する

Amazon Fraud DetectorコンソールまたはAPIを使用して、検出器バージョンを作成および公開できます。 コンソールの手順については、を参照してください。 はじめに(コンソール).

入力および出力S3バケットを作成します

CSVファイルをアップロードするAmazonS3コンソールでS3バケットを作成します。 これが入力バケットです。 オプションで、Amazon FraudDetectorがバッチ予測の結果をCSVファイルとして保存するXNUMX番目の出力バケットを作成できます。 出力バケットを指定しない場合、Amazon FraudDetectorは入力ファイルと出力ファイルの両方を同じバケットに保存します。

検出器と同じリージョンにバケットを作成してください。 詳細については、を参照してください。 バケットを作成する.

イベントレコードのサンプルCSVファイルを作成します

評価するイベントを含むCSVファイルを準備します。 このファイルには、検出器に関連付けられているイベントタイプの各変数の列を含めます。 さらに、次の列を含めます。

  • EVENT_ID –トランザクション番号などのイベントの識別子。 フィールド値は、次の正規表現パターンを満たす必要があります:^ [0-9a-z _-] + $。
  • ENTITY_ID –アカウント番号など、イベントを実行するエンティティの識別子。 フィールド値は、次の正規表現パターンも満たす必要があります:^ [0-9a-z _-] + $。
  • EVENT_TIMESTAMP –イベントが発生したときのISO8601形式のタイムスタンプ。
  • ENTITY_TYPE –顧客や商人など、イベントを実行するエンティティ。

列ヘッダー名は、対応するAmazon FraudDetector変数名と正確に一致する必要があります。 上記のXNUMXつの必須の列ヘッダー名は大文字である必要があり、イベントタイプに関連付けられている変数の列ヘッダー名は小文字である必要があります。 値が欠落しているファイル内のイベントに対してエラーを受け取ります。

CSVファイルでは、各行は予測を生成する50つのイベントに対応します。 CSVファイルは最大50,000MBにすることができ、イベントサイズに応じて約100,000〜XNUMXのイベントを許可します。 次のスクリーンショットは、入力CSVファイルの例を示しています。

Amazon Fraud Detectorの変数データ型とフォーマットの詳細については、を参照してください。 変数を作成します。

バッチ予測を実行する

CSVファイルを入力バケットにアップロードします。 次に、バッチ予測ジョブを開始します。

  1. Amazon Fraud Detectorコンソールで、 バッチ予測 ナビゲーションペインに表示されます。

このページには、過去のバッチ予測ジョブの要約が含まれています。

  1. 選択する 新しいバッチ予測.

  1. COVID-XNUMX 職種名¸ジョブの名前を入力するか、Amazon FraudDetectorにランダムな名前を割り当てさせることができます。
  2. COVID-XNUMX 検出器 検出器バージョン、バッチ予測に使用する検出器とバージョンを選択します。
  3. COVID-XNUMX IAMの役割、すでにお持ちの場合 AWS IDおよびアクセス管理 (IAM)ロール、ドロップダウンメニューから選択できます。 または、を選択して作成することもできます IAMロールを作成する.

新しいIAMロールを作成するときに、入力ファイルと出力ファイルに異なるバケットを指定するか、両方に同じバケット名を入力できます。

モデルトレーニング用のデータセットへのアクセスに使用するような既存のIAMロールを使用する場合は、ロールに s3:PutObject バッチ予測ジョブを開始する前に添付された権限。

  1. IAMの役割を選択した後、 データの場所、入力ファイルのS3URIを入力します。
  2. 選択する 開始.

あなたはに戻ります バッチ予測 作成したばかりのジョブを確認できるページ。 バッチ予測ジョブの処理時間は、評価するイベントの数によって異なります。 たとえば、20 MBのファイル(約20,000イベント)には約12分かかります。 Amazon Fraud Detectorコンソールで、いつでもジョブのステータスを表示できます。 ジョブ名を選択すると、入力データと出力データの場所などの追加情報を含むジョブ詳細ページが開きます。

バッチ予測結果を確認します

ジョブが完了したら、指定したS3バケットから出力ファイルをダウンロードできます。 ファイルをすばやく見つけるには、下のリンクを選択してください 出力データの場所 ジョブの詳細ページ。

出力ファイルには、入力ファイルで指定したすべての列に加えて、次のXNUMXつの追加の列があります。

  • ステータス –ショー Success イベントが正常に評価された場合、またはイベントを評価できなかった場合はエラーコード
  • 成果 –ルールセットによって返された結果を示します
  • MODEL_SCORES –ルールセットによって呼び出されたモデルによって返されたリスクスコアを示します

次のスクリーンショットは、出力CSVファイルの例を示しています。

結論

おめでとうございます! 不正予測のバッチを正常に実行しました。 バッチ予測機能を使用して、新しいモデルバージョンや更新されたルールなど、不正検出ロジックへの変更をテストできます。 バッチ予測を使用して、過去24時間に作成されたすべてのアカウントを毎日チェックするなど、非同期の不正評価を実行することもできます。

ユースケースによっては、予測結果を他のAWSサービスで使用することをお勧めします。 たとえば、次のように予測結果を分析できます。 Amazon QuickSight またはリスクの高い結果を Amazon拡張AI (Amazon A2I)予測の人間によるレビュー。 あなたも使用したいかもしれません Amazon CloudWatch 定期的なバッチ予測をスケジュールします。

Amazon Fraud Detectorには、月額2件の予測を含む30,000か月間の無料トライアルがあります。 その後、価格設定は、ルールのみの予測の場合は予測ごとに0.005ドルから、MLベースの予測の場合は0.03ドルから始まります。 詳細については、を参照してください。 Amazon FraudDetectorの価格。 追加のブログ投稿、サンプルノートブック、ユーザーガイド、APIドキュメントへのリンクなど、Amazon Fraud Detectorの詳細については、を参照してください。 アマゾン詐欺検出器.

ご質問やご意見がございましたら、コメント欄でお知らせください!


著者について

ビラルアリ は、Amazon FraudDetectorに取り組んでいるシニアプロダクトマネージャーです。 彼は顧客の問題に耳を傾け、顧客が詐欺や虐待とよりよく戦うのを助ける方法を見つけます。 彼は自由な時間をジェパディの古いエピソードを見たり、テキサス州オースティンで最高のタコスを探したりしています。

コインスマート。 BesteBitcoin-ヨーロッパのBörse
ソース:https://aws.amazon.com/blogs/machine-learning/perform-b​​atch-fraud-predictions-with-amazon-fraud-detector-without-writing-code-or-integrating-an-api/

続きを読む

AI

あなたのウェブサイトの読み込み速度を改善するための4つのツール

アバター

公開済み

on

今日、ウェブサイトの読み込みが速く、顧客を獲得して維持するための完璧なユーザーエクスペリエンスを提供することが重要です。

毎時 Googleの調査、ページの読み込み時間が1秒から3秒に変わると、バウンス率は32%急上昇します。 そして90秒で、バウンス率はXNUMX%急上昇します。

これは、高速積載サイトの需要が急速に拡大しており、速度が導入の重要な要素であることを証明しています。 より多くのコンバージョン.

「サイトの読み込みが速いほど、ユーザーエクスペリエンスが向上し、Google検索結果で上位にランク付けされる可能性が高くなります。」 

したがって、ロード時間を最適化することは、 ウェブサイトを構築する.

ウェブサイトの読み込み速度を向上させるためのツール

わずかな労力で読み込み速度を簡単に上げることができるさまざまな速度ツールがあります。 ウェブサイトのパフォーマンスと SEOランキング.

Pingdomの

Pingdomの は、ウェブサイトを分析し、ウェブサイトの読み込み速度に影響を与える可能性のあるパフォーマンスの問題を見つけるフリーミアムツールです。 無料版と有料版の両方を提供しています。

Pingdomの無料速度テストツールを使用するには、WebサイトのURLをコピーして貼り付けます。 次に、対象読者に最も近いテスト場所を選択し、「テストの開始」ボタンを押します。

結果は、Webサイトの読み込み時間、パフォーマンスグレード、ページサイズ、および行われたHTTP要求の数を示すレポートです。

ただし、Webサイトの構成によっては、完全な100スコアを期待することが常に現実的であるとは限らないことに注意してください。 これは、eコマースサイトを運営し、ピクセルインストールをマーケティングしている人にとってはさらに困難です。 

アイデアは、特定のスコアを追跡するのではなく、Webサイトの速度を可能な限り向上させることを目的としています。

スコアの概要の下には、Webサイトのパフォーマンス要因と改善すべき推奨事項を強調した別の包括的なレポートがあります。

Pingdomは、サイト上のすべてのHTTPリクエストのウォーターフォール分析も提供します。 これは、サイトがどのように読み込まれるか、および読み込み時間が遅くなる原因を視覚的に理解するのに役立ちます。

プレミアムバージョンは14日間の無料トライアルを提供し、ページ速度の監視、稼働時間の監視、クラウドパフォーマンスの監視、訪問者の洞察(RUM)などの機能を提供します。

TinyPNG

ビジュアルはあなたのウェブサイトのコンテンツをより多くします ユーザーを引き付ける。 ただし、ウェブサイトの読み込み速度が遅い主な理由のXNUMXつは、画像ファイルが重いことです。 

"による HTTPアーカイブ、画像はページ全体の重量の75%以上を占めています。」

さらに、デジタル専門家の最近の調査では、画像の最適化が 最も戦術に依存した ウェブサイトをスピードアップするため。 言うまでもなく、ページのパフォーマンスを最適化する場合、最初に画像の圧縮を開始する必要があります。

TinyPNG は、画質を損なうことなく画像を圧縮するのに役立つ無料のツールです。 これは、画像の色数を選択的に減らす「不可逆」圧縮技術を使用して、ファイルサイズを縮小することによって行われます。  

TinyPNGで圧縮すると、PNGファイルは透明性を維持し、すべてのブラウザーとデバイスで問題なくレンダリングできます。 

TinyPNGのもう5つの注目すべき機能は、一括圧縮です。 圧縮する画像が複数ある場合、各画像がXNUMX MB未満である限り、ユーザーは一度に最大XNUMX枚の画像をアップロードできます。

さらに、TinyPNGは、WebサイトにアップロードされたPNGおよびJPG画像を自動的に圧縮するWordPressプラグインを提供します。

運営している方へ eコマースウェブサイト、TinyPNGを使用することの追加の利点は、WooCommerceとの互換性です。 

HTTP圧縮テスト

HTTP圧縮とも呼ばれるコンテンツの圧縮は、Webサイトを高速化するためのもうXNUMXつの重要なステップです。 

HTTP圧縮は、サーバー上のコンテンツをブラウザに配信する前に圧縮する方法です。 コンテンツを圧縮すると、帯域幅が節約され、サーバーの負荷が軽減されます。 

「より小さく圧縮されたファイルを使用すると、サーバーはより多くのデータのためにより多くのスペースを持つことができます。 さらに、サーバーはデータを迅速に転送することもできます。」 

ウェブサイトがデータを転送するのにかかる時間を短縮することにより、圧縮はウェブサイトの読み込み時間を短縮します。

HTTP圧縮では、サーバーで追加の処理が必要になる場合がありますが、それでも、サーバーが非圧縮ファイルの処理に費やしたであろうかなりの電力を節約することになります。 

これを念頭に置いて、 HTTP圧縮 テストツールは、WebサイトサーバーがHTTP圧縮用に構成されているかどうかを確認するのに役立ちます。 

サイトで圧縮が有効になっているかどうかを確認するには、WebサイトのURLを入力し、[テスト]ボタンをクリックします。 

このツールは、ユーザーに配信する前にWebサイトのコンテンツが圧縮されているかどうか、および圧縮されていないページサイズと圧縮されているページサイズを表示します。 

IcoMoonアプリ

ウェブサイトの読み込み速度を妨げる可能性のあるもうXNUMXつのことは、使用されているフォントとアイコンです。 これらは微妙な要因のように見えるかもしれません。 ただし、すべての小さなことが重要であり、合計するとWebサイトの読み込みが速くなります。 

IcoMoon この目的に役立つ優れたツールです。 独自のフォントまたはパックのXNUMXつから選択したフォントをコンパイルするのに役立ちます。 IcoMoonアプリにアクセスし、必要なアイコンを選択します。 

選択が完了したら、[フォントの生成]をクリックします。 次の画面で、アイコン名をカスタマイズしたり、選択したアイコンのパック全体をそのままダウンロードしたりできます。 

この圧縮フォルダをWebサイトのファイルディレクトリにアップロードすると、以前使用していたアイコンの代わりに軽量アイコンの使用を開始できるため、読み込み時間が短縮されます。 

ウェブサイトをスピードアップ

ウェブサイトの速度の最適化は設定されておらず、プロセスを忘れています。 それは常に進化しています。 これらのツールを使い続け、必要なカスタマイズを行うと、Webサイトのエンゲージメントメトリックと検索エンジンランキングの改善に気付くようになります。 

ウェブサイトの読み込み時間を毎週確認し、読み込みの遅延の原因となるボトルネックを修正してください。 

これらのツールをウェブサイトのすべてのページで一貫して使用することで、一貫性のある信頼性の高いユーザーエクスペリエンスを確保できます。これにより、トラフィック、リード、売上が増加します。

コインスマート。 BesteBitcoin-ヨーロッパのBörse
ソース:https://www.aiiottalk.com/tools-to-improve-your-website-loading-speed/

続きを読む
Blockchain4日前

イーサリアムは初めて$ 3,000に達し、バンクオブアメリカよりも大きくなりました

Blockchain4日前

暗号産業に向けたMunger「Anti-Bitcoin」とBuffett「Annoyance」

Blockchain2日前

Changpeng Zhaoによると、イーサリアムが最近ATHに集結した理由

Blockchain17時間前

Chiliz価格予測2021-2025:1.76年末までに2025ドル

賭博5日前

New Pokemon Snap:すべての場所のロックを解除する方法| 完了ガイド

Blockchain4日前

BNYメロンはビットコインに投資している企業の株式を所有していないことを後悔している

航空2日前

アメリカン航空の乗客が乗組員の攻撃の疑いで逮捕された

Blockchain2日前

ビットコインのマイニング:ビットコインをマイニングする方法

自動車産業4日前

Ford Mach-ECo-Pilot360ドライバー監視システムはできるだけ早く更新する必要があります

Blockchain2日前

ビットコインのマイニング:ビットコインをマイニングする方法

Fintech5日前

Telcoinがオーストラリアで送金業務を開始する予定

Blockchain5日前

ビットコインのマイニング:ビットコインをマイニングする方法

Blockchain5日前

ティエルキャピタルディレクター:「ビットコインの短期的な損失がビットコインであなたを苦しめないようにしてください」

航空4日前

ブリティッシュ・エアウェイズで無秩序に行動した後に罰金を科されたテレビスター

Blockchain4日前

トレーダーが知っておく必要のあるイーサリアムの長期的なROIの可能性は次のとおりです

Fintech3日前

フィンテックの話:カスタマーエクスペリエンスと生産性革命

Blockchain5日前

CoinbaseがCryptoAnalytics CompanySkewを買収

Blockchain4日前

トルコの刑務所6人のCEO兄弟を含むThodex詐欺に関係するXNUMX人の容疑者

AR / VR5日前

VRを探求するクリックベイト記事の危険性

Blockchain5日前

XNUMX年後:ウズベキスタンは暗号通貨の禁止を解除する計画

トレンド