最近休暇をとっていたとき、読んでいた電子ブックからメモを取りたいと思いました。 しかし、音声メモを取ったり、ノートに書き留めたりする代わりに、Lens を使用して本のセクションを選択し、それをコピーしてドキュメントに貼り付けました。 それは私に興味をそそらせました:私の電話で起こったすべてのことはどのように起こったのですか? カメラは、すべてのフォントと言語の単語をどのように認識しますか?
私は質問の根源に迫り、画像をテキストに変換する最前線にいる Google 社員の XNUMX 人である、チューリッヒを拠点とするソフトウェア エンジニアである Ana Manasovska に話を聞くことにしました。
アナ、レンズでの仕事について教えてください。
私はテキストの側面に関わっているので、アプリがテキストを識別し、検索用にコピーしたり、翻訳したりできるようにする必要があります。入力する必要はありません。 たとえば、携帯電話のカメラを外国語のポスターに向けると、アプリはそのテキストを翻訳できます。 また、目の不自由な方やロービジョンの方は、テキストを読み上げることができます。 それはかなり印象的です。
そのため、私のチームは、Lens にテキストだけでなく、テキストの構造も認識させることを行っています。 私たち人間は、文と段落、またはブロックと列に区切られた文章を自動的に理解し、何が組み合わされるかを知っています。 ただし、機械がそれを区別するのは非常に困難です。
これは機械学習ですか?
はい。 つまり、画像内の文字と構造を識別するように訓練されたシステム (モデルと呼びます) を使用します。 従来のコンピューティング システムでは、これを行う能力が限られていました。 しかし、私たちの機械学習モデルは、膨大なデータセットで「自分自身を教える」ように構築されており、人間と同じようにテキスト構造を区別することを学習しています。
システムは異なる言語で動作しますか?
はい、キリル文字、デーバナーガリー文字、中国語、アラビア語を含む 30 のスクリプトを認識できます。 現時点では、ラテン アルファベット言語で最も正確ですが、そこでも、さまざまな種類のフォントが課題を提示します。 日本語や中国語は文字のニュアンスが多くて難しいです。 訓練されていない目には小さな違いのように見えるものでも、意味が完全に変わる可能性があります。
あなたの仕事で最もやりがいのある部分は何ですか?
やりがいのある複雑さと曖昧さがたくさんあるので、私はそれをナビゲートすることを学ばなければなりませんでした. そして、それは非常に速いペースです。 物事は絶えず動いており、必要な答えを得るには、多くの質問をしたり、多くの人に話しかけたりする必要があります。
実際のコーディングに関して言えば、それには何が含まれますか?
ほとんどの場合、C++ と呼ばれるプログラミング言語を使用します。これにより、画像から単語や構造の表現に至るまでに必要な処理手順を実行できます。
うーん、なんとなくわかります。 それはどのように見えますか?
これが C++ の外観です。
上記のコードは、テキストのセクションからドイツ語のみを抽出する処理を示しています。 たとえば、画像にドイツ語、フランス語、イタリア語が表示されているとします。ドイツ語のみが翻訳用に抽出されます。 それは理にかなっていますか?
すこし! 仕事の好きなところを教えてください。
それは、問題を解決することに対する私の生涯にわたる愛に要約されます。 でも、日常生活で使えるものを作っていることもとても気に入っています。 私はチューリッヒに拠点を置いていますが、ドイツ語を上手に話せないので、Lens を使用して英語に翻訳しています。
これらの特許には、SaaSと、Platform-as-a-Service、Data-as-a-Service、Blockchain-as-a-Serviceなどの同様のテクノロジーが含まれます。 このリストには、ビジネスインテリジェンス、データマイニング、クラウドコンピューティング、クラウドサービスなど、SaaSや同様のテクノロジーを支援、連携、または改善するテクノロジーも含まれる場合があります。 #1米国特許番号US 11,269,596(IBM)タイトル:ユーザーの相互作用に基づく自動マイクロサービスの作成発明者/譲受人:[…]
ポスト 今週のトップ10SaaS特許– 3/11/22 最初に登場した ラパック法律グループ.
この記事は、データサイエンスブログの一部として公開されました。 はじめにニューラルネットワークがどのように機能するかを学ぶことに興味があるソフトウェア開発者なら、あなたは完璧な場所に来ました。 初心者がニューラルネットワークとは何か、ニューラルネットワークモデルとは何か、そして知識を他の人に拡張する方法を理解するのを支援します[…]
ポスト ニューラルネットワークモデル、用語集、およびバックプロパゲーションの概要 最初に登場した 分析Vidhya.
航空会社のカスタマーサービスの話、Cranky Flierとの会話、主導的な航空燃料の提案、次世代のlav、幼児の安全機内、Learjets、地上停止、FedExのレーザー、破壊されたTFR。
ポスト 687航空会社のカスタマーサービス 最初に登場した 飛行機オタクポッドキャスト.