AIは、ほとんどのチップに一般的に見られるテクノロジーの数が増えており、初期の結果では、電力とパフォーマンスの両方が劇的に向上していることが示されています。
知名度の高いとは異なり AI 自動運転車や自然言語処理などの実装では、この作業の多くはほとんどの人にとってレーダーの下でうまくいきます。 それは一般的に、既存のテクノロジーを構築または改善することで、混乱を最小限に抑える道をたどります。 しかし、これらの開発は、大きな影響を与えることに加えて、AIがうまくできることとできないこと、時間の経過とともにさまざまな環境や動作条件下でどのように動作するか、他のシステムとどのように相互作用するかを理解するためのベースラインを設計チームに提供します。
最近まで、AI /機械学習の大部分は、データセンターまたは特殊なmil / aeroアプリケーションに限定されていました。 それ以来、データ量の増加とそのデータをソースの近くで処理する必要性に駆り立てられて、それ自体が形になり始めたばかりのエッジへの移行を開始しました。
メモリの改善 データの移動を最適化することは、これらすべての市場における明らかな目標です。 非常に多くのデータが生成されているため、従来のデータを圧倒しています フォン・ノイマン アプローチ。 企業は、実績のあるアーキテクチャを廃棄するのではなく、メモリとプロセッサ間を行き来するデータの流れを減らす方法を模索しています。 インメモリコンピューティングとニアメモリコンピューティングは、注目を集めているXNUMXつのソリューションですが、これらのアプローチにAIを追加すると、大幅な増分の影響が生じる可能性があります。
機械学習をに追加するというSamsungの発表 広帯域メモリ (HBM)スタックはその好例です。
「最も困難な部分は、コンピューティングエコシステムに影響を与えることなく、既存のDRAMのドロップイン代替品としてこれを作成する方法でした」とSamsungのメモリビジネスユニットのシニアバイスプレジデントであるNam SungKimは述べています。 「私たちはまだ既存の機械学習アルゴリズムを使用していますが、このテクノロジーはそれらをより効率的に実行することを目的としています。 過去には、必要なメモリ帯域幅が多すぎるために機械学習モデルを実行できなかったことがありました。 しかし、メモリ内のコンピューティングユニットにより、より多くの帯域幅を探索できるようになりました。」
キム氏は、このアプローチにより、追加の最適化なしでシステムの総エネルギーを70%削減できると述べました。 これを非常に価値のあるものにしているのは、データの移動方法に「インテリジェンス」のレベルを追加することです。 これを他のテクノロジーの改善と組み合わせて、さらに優れた電力/パフォーマンス効率を実現できます。 キムは、これは桁違いになる可能性があると見積もっていますが、他のテクノロジーがこれをさらに押し上げる可能性があります。
図1:メモリソフトウェアスタックでの処理。 出典:Samsung
「業界として、私たちはいくつかの異なる場所に目を向ける必要があります」と、 ラムバス 。 「そのうちの25つはアーキテクチャです。 実際のアルゴリズムをよりターゲットにするために、チップを構築する正しい方法を考える必要があります。 私たちは過去40、2年の間それが起こるのを見てきました。 人々は、シストリックアレイやよりターゲットを絞った実装など、いくつかの非常に優れたアーキテクチャを実装しています。 他にもいくつかあります。 私たちは確かに、メモリシステムが全体的なエネルギー消費において非常に重要であることを知っています。 発生しなければならないことのXNUMXつは、メモリアクセスをよりエネルギー効率の高いものにすることに取り組む必要があるということです。 PHYをより効果的に活用することは重要な要素です。 SoC自体は電力バジェットのXNUMX%からXNUMX%をPHYだけに費やしており、SoCとPHYの間でデータをやり取りする行為—使用されている電力の約XNUMX分のXNUMXは、実際にはデータの移動にのみ使用されます。 。 そしてそれはHBMXNUMXのためだけです。 GDDRの場合、データレートが高いため、データの移動にさらに多くの電力が費やされます。 同等の帯域幅の場合、はるかに高速な信号であるという理由だけで、より多くの電力を消費します。」
図2:データ移動コストの内訳。 出典:ラムバス
ネットワーク最適化 この種のアプローチが利用されているもうXNUMXつの場所は、ネットワークの構成と最適化です。 これまでとは異なり、コンピューターやスマートフォンが多くの標準ベースのプロトコルやネットワークのいずれかを利用できる場合、エッジはアプリケーション固有の最適化と独自の実装に重点を置いています。 データフロー内のすべてのコンポーネントを最適化する必要があります。場合によっては、相互に接続されているさまざまなシステム間で最適化する必要があります。
これは、エッジシステムを統合する必要があるユーザーだけでなく、多くの垂直市場で機能する水平テクノロジーの販売を検討しているベンダーにとっても頭痛の種です。 また、ネットワーク上またはパッケージ内で構成できる、よりインテリジェントなデバイスやコンポーネント、およびそれらの市場で使用されるアルゴリズムの変更に適応できる構成可能なデバイスへの扉を開いています。
「最初はソフトウェア定義のハードウェアとして始まりますが、AI対応の自己修復、自己調整デバイスに進化します」と、データセンターマーケティングのディレクターであるKartikSrinivasanは述べています。 ザイリンクス 。 「「特定のトラフィックフローに対してこのレベルの処理を実行する」と言うことができ、必要なAIに応じて多数のオフロードを実行します。」
AI / MLは、データを最適に利用できる場所の動作パターンと確率に基づいて、データに優先順位を付けて分割する方法を非常によく理解していることが証明されています。 すべてのデータをすぐに処理する必要はなく、その多くはローカルで破棄される可能性があります。
「私たちは機械学習を最適化問題と見なし始めています」と、戦略および事業開発のシニアマネージャーであるAnoopSahaは述べています。 シーメンスEDA 。 "機械学習 歴史的に、教師あり学習、教師なし学習、強化学習のいずれであっても、パターン認識に使用されてきました。 アイデアは、あなたが持っているデータからいくつかのパターンを認識し、それを使用して物事を分類し、予測を行ったり、猫と犬の識別を行ったりすることです。 ただし、スマートNICカードなど、SDN(ソフトウェア定義ネットワーク)ネットワークを最大化する方法を特定するネットワークトポロジが見つからなかった場合など、他の使用例もあります。 これらは純粋なパターン認識の問題ではなく、幅広い業界にとって非常に興味深いものです。 人々はこれをさまざまなタスクに使用し始めています。」
実装は非常に具体的ですが、一般的な概念が複数の市場で注目され始めています。 「現在の市場セグメントによって多少異なります」と、のCEOであるGeoffTateは述べています。 Flex Logix 。 「私たちは、医用画像処理などのエンタープライズエッジと呼んでいるものに取り組んでいます。 お客様は、高スループット、高精度、低コスト、および低電力を必要としています。 したがって、GPUよりも優れたアーキテクチャが本当に必要であり、ベンチマークでは3〜10倍優れています。 これをより細かい粒度で行い、大きな行列乗数ではなく、XNUMX次元テンソルプロセッサを使用します。 これらはモジュール式であるため、さまざまな方法で組み合わせて、さまざまな畳み込みおよび行列アプリケーションを実行できます。 それには、私たちが開発したプログラム可能な相互接続も必要です。 そして最後に行うことは、コンピューティングをメモリに非常に近づけることです。これにより、レイテンシと電力が最小限に抑えられます。 すべての計算はSRAMで行われ、DRAMは重みを格納するために使用されます。」
エッジのAI このモジュール式でプログラム可能な種類のアプローチは、これらの設計の多くに隠されていることがよくありますが、設計と実装の柔軟性を重視することが重要です。 センサーの増加、データの洪水、スケーリングのメリットの低下により、チップメーカーは、パフォーマンスを向上させながらレイテンシと電力を削減できる、より複雑なアーキテクチャに移行することを余儀なくされています。
これは、一部のデバイスがバッテリーをベースにしているエッジや、速度が重要な要素であるオンプレミスおよびニアプレミスのデータセンターで特に当てはまります。 ソリューションは高度にカスタマイズされ、異種である傾向があり、多くの場合、パッケージに複数のチップが含まれます。 そのため、すべてがXNUMXつ以上の巨大なデータセンターに配置されているハイパースケールクラウドの代わりに、データの処理速度と処理量に基づいて処理のレイヤーがあります。
その結果、非常に複雑なデータ分割の問題が発生します。これは、データを異なるサーバー間、さらには異なるシステム間でインテリジェントに解析する必要があるためです。 「特にエッジノードが増えるにつれて、その傾向は確実に見られます」と、メモリソリューションのマーケティングおよびアプリケーションのシニアディレクターであるSandeepKrishnegowdaは述べています。 インフィニオン 。 「より多くのデータが入ってくると、加速しようとしているものを分割する必要があります。 生の情報をクラウドに送信するだけでは不十分です。 意味のあるデータである必要があります。 同時に、エッジ上のリアルタイムコントローラーが実際にその場で推論の決定を行う必要があります。 これらすべてがアーキテクチャの変更を明確に浮き彫りにし、トラフィックの管理をより効率的にしています。 しかし、最も重要なことは、これの多くがデータとデータの管理方法に帰着することです。 そして、常にその多くはあなたのメモリとメモリアーキテクチャのサブシステムにまでさかのぼります。」
さらに、すべてが接続され、データが前後に流れているため、これはルーティングの問題になります。
「データセンターチップを使用している場合は、レチクルの限界で設計していることになります」と、ソリューションマーケティングのシニアグループディレクターであるFrankSchirrmeister氏は述べています。 ケイデンス 。 「そこには加速器があり、さまざまな熱的側面があり、3D-ICの問題があります。 ウェアラブルに移行しても、同じように関連する火力レベルを処理していることになり、車にはAIコンポーネントがあります。 したがって、これはあらゆる方向に進んでおり、全体的なアプローチが必要です。 エッジの場所に関係なく、低電力/熱/エネルギー活動を最適化する必要があり、人々はワークロードに合わせてシステムを適応させる必要があります。 次に、これらをどのように組み合わせるかが重要になります。」
これにより、さらに別のレベルの複雑さが追加されます。 「当初は、「できるだけ多くのアクティベーションとウェイトをチップに収めるために、入手できる最高密度のSRAMが必要です」とIPの戦略的マーケティングマネージャーであるRonLowmanは述べています。 シノプシス 。 「他の企業は、可能な限り低電力にする必要があると言っていました。 以前はそのようなタイプのソリューションがありましたが、特にAIに関する新しいリクエストがたくさんありました。 そして、次のステップに進み、「最高密度または最低リークを超えたカスタマイズが必要です」と言いました。これは、メモリやコンピューティングタイプのテクノロジーなどの特殊な処理コンポーネントと組み合わせているためです。 したがって、プリミティブ数学ブロック、DSPプロセッサ、RISCプロセッサ、そして特別なニューラルネットワークエンジンなどのビルディングブロックがあります。 これらのコンポーネントはすべて、スカラー、ベクトル、行列の乗算、およびそれに接続されているメモリアーキテクチャを含む処理ソリューションを構成します。 これらのプロセッサを最初に実行したとき、何らかの外部メモリインターフェイス(おそらくLPDDRまたはDDR)があると想定されていたため、多くのシステムがこれらの想定に基づいて構築されました。 しかし、高帯域幅のメモリを備えた独自のアーキテクチャがあり、それによって、これらの外部メモリインターフェイスからのロードとストアの取得方法とサイズが変わります。 次に、顧客は特別なソースを追加します。 より多くのニッチが見つかるにつれて、それは成長し続けるでしょう。」
これらのニッチは、より多くの種類のハードウェアの需要を増加させますが、特定のユースケースにフォームフィットできるこれらの基本レベルのテクノロジーの継続的な拡張に対する需要も促進します。
ザイリンクスの製品ラインマネージャーであるJaysonBethuremは、次のように述べています。「当社のFPGAには、デバイス全体にメモリが散在しているため、メモリをアクセラレータに直接ローカライズできます。アクセラレータは、ディープラーニング処理ユニットになります。 「また、アーキテクチャは固定されていないため、CNNなどを使用して、さまざまな特性評価や分類トポロジに適合させることができます。 これがアプリケーションの成長の大部分であり、反応する前に何かを分類したいと考える人々がいます。」
エンドデバイスにおけるAIの限界 AI自体は固定技術ではありません。 テクノロジーが適応して最適化するにつれて、AIソリューションのさまざまな部分が動いているため、処理結果は通常、分布と受け入れ可能性の確率の形で提供されます。
AIの精度と信頼性を定義することは特に困難です。これは、実装とユースケースごとにメトリックが異なるためです。これが、チップ業界がこのテクノロジーを慎重に検討している理由のXNUMXつです。 たとえば、補助運転のある車のAI / MLについて考えてみます。 データの入力と決定はリアルタイムで行う必要がありますが、AIシステムはそのデータの値に重みを付ける必要があります。これは、他の車両がそのデータに重みを付ける方法とは異なる場合があります。 XNUMX台の車両が相互作用しないと仮定すると、それは問題ではありません。 しかし、彼らが情報を共有している場合、結果は大きく異なる可能性があります。
「それはやや未解決の問題です」と、フェロー兼テクノロジーディレクターのロブ・エイトケンは述べています。 腕の 研究開発グループ。 「特定の精度のシステムと異なる精度のシステムがある場合、累積的にそれらの精度は、それらが互いにどれだけ独立しているかに依存します。 ただし、XNUMXつを組み合わせるために使用するメカニズムにも依存します。 これは、画像認識などではかなりよく理解されているようですが、レーダーデータとカメラデータがある自動車アプリケーションを見ると、より難しくなります。 それらは互いに事実上独立していますが、それらの精度は、他のすべてに加えて、あなたが知る必要がある外部要因に依存しています。 したがって、レーダーは「これは猫です」と言うかもしれませんが、カメラはそこに何もないと言います。 暗い場合は、レーダーはおそらく正しいでしょう。 雨が降っている場合は、レーダーも間違っている可能性があります。 これらの外部ビットは非常に迅速に機能し、経験則を圧倒し始める可能性があります。」
これらの相互作用はすべて、詳細に理解する必要があります。 「自動車の多くの設計は高度に構成可能であり、センサーから取得したデータに基づいてオンザフライでも構成可能です」と、のマーケティング責任者であるSimonRanceは述べています。 クリオソフト 。 「データはこれらのセンサーからプロセッサーに戻されます。 車両からデータセンターへ、そして車両へ戻るまでの膨大な量のデータを追跡する必要があります。 何かがうまくいかない場合、彼らはそれを追跡し、根本的な原因が何であるかを理解する必要があります。 それが満たされる必要があるところです。」
もうXNUMXつの問題は、関連するデータとそうでないデータを知ることです。 「AIをエッジにシフトするときは、モデルのようなものをシフトします。つまり、情報の関連部分とそうでない部分がすでにわかっているということです」と、分散データ処理および制御部門の責任者であるダークメイヤーは述べています。に フラウンホーファーIIS 適応システム部門のエンジニアリング。 「ローパスフィルタリング、ハイパスフィルタリング、平均化のようなことをするだけでも、次のようなことを念頭に置いています。 'さて、これはローパスフィルターを適用する場合、またはデータが必要な場合に関係します。 100Hz程度まで。」
課題は、AIの複数の実装にわたってそれを活用できるようにすることです。 「フライス盤のような基本的なものを見ても、プロセスは同じですが、機械はまったく異なる場合があります」とメイヤー氏は述べています。 「プロセス材料、粉砕される材料、プロセス速度などが異なります。 あるマシンから別のマシンに適応する人工知能を発明することは非常に困難です。 新しいデータを収集するには、常に再トレーニングの段階と時間が必要です。 これは、AIのビルディングブロックのようなものを発明するための非常に興味深い研究分野であり、アルゴリズムは業界で広く受け入れられており、このマシンからそのマシンに移動して事前にトレーニングすることができます。 そのため、ドメインの専門知識といくつかの基本的なプロセスパラメータを追加し、アルゴリズムをパラメータ化して、学習を高速化することができます。」
結論 しかし、それは今日のチップ業界が存在する場所ではありません。 AIとそのサブグループである機械学習とディープラーニングは、ボリュームと大量の再現性に基づいて構築された業界に独自の機能を追加します。 AIは、データトラフィックの最適化や使用パターンに基づくパーティション分割など、特定のことに効果的であることが証明されていますが、予測可能な結果ではるかに大きな決定を下せるようになるまでには長い道のりがあります。
電力削減とパフォーマンス改善の初期の結果は有望です。 しかし、それらは、はるかに広範なシステムセット、複数の市場セグメントの急速な進化、および異種統合、ドメイン固有の設計、サプライチェーン全体でのデータ共有の制限などのさまざまなアプローチのコンテキストで設定する必要もあります。
コインスマート。 BesteBitcoin-ヨーロッパのBörse
ソース:https://semiengineering.com/new-uses-for-ai/