私達と接続する

半導体

パワー/パフォーマンスビット:2月XNUMX日

アバター

公開済み

on

急速充電EVバッテリー
電気自動車の採用は、消費者の範囲の不安と車のバッテリーの充電に必要な長い時間の問題に直面しています。 ペンシルバニア州立大学の研究者は、開発することによってこれに対処しようとしています リン酸鉄リチウムEVバッテリー 航続距離は250マイルで、10分で充電できます。 また、寿命は2万マイルになると予想されています。

「私たちは、燃焼エンジン車と同等のコストで、大量市場の電気自動車用にかなり賢いバッテリーを開発しました」と、機械工学の議長、化学工学の教授、材料科学と工学の教授、および電気化学のディレクターであるChao-YangWangは述べています。ペンシルベニア州立大学のエンジンセンター。 「範囲の心配はもうありません、そしてこのバッテリーは手頃な価格です。」

バッテリーの急速充電の鍵は、その自己発熱能力です。 バッテリーは、一端がマイナス端子に取り付けられ、他端がセルの外側に伸びている薄いニッケル箔を使用して、140番目の端子を作成します。 電子が流れると、抵抗加熱によってニッケル箔が急速に加熱され、バッテリーの内部が暖められます。 バッテリーの内部温度が華氏XNUMX度になると、スイッチが開き、バッテリーは急速充電または急速放電の準備が整います。

急速充電のため、エネルギー密度はそれほど重要ではなく、低コストの材料を使用できました。 カソードは高価なコバルトを含まないリン酸鉄リチウムであり、アノードは非常に大きな粒子のグラファイトです。 低電圧電解液も使用されました。 研究者たちはまた、リチウムのスパイクやバッテリーの故障を引き起こす可能性のある、アノードへのリチウムの不均一な堆積を心配することなく、より安全であると期待しています。

「このバッテリーは、重量、体積、コストを削減しました」とWang氏は述べています。 「主流の消費者マスマーケットに利益をもたらすバッテリーがついに見つかったことを非常に嬉しく思います。」

DNAオリガミナノワイヤー
Bar-Ilan大学、Ludwig-Maximilians-UniversitätMünchen、コロンビア大学、およびブルックヘブン国立研究所の研究者が使用しています DNA折り紙、超伝導ナノ構造を作成する方法として、DNAを任意の形状に折りたたむことができる技術。

DNAオリガミのナノ構造は、足場としての円形の一本鎖DNAと、構造の形状を決定するステープルとして機能する相補的な短鎖の混合物のXNUMXつの主要なコンポーネントで構成されています。

「私たちの場合、構造は長さ約220ナノメートル、幅15ナノメートルのDNAオリガミワイヤーです」とBar-Ilan大学のLiorShani氏は述べています。 「DNAナノワイヤーをチャネル付きの基板にドロップキャストし、超伝導窒化ニオブでコーティングします。 次に、電気測定中にナノワイヤを基板から分離するために、チャネル上にナノワイヤを吊るします。」

チームは、DNA折り紙技術を使用して、さまざまなアーキテクチャに組み込むことができ、従来の製造技術では構築できない超伝導コンポーネントを製造できると述べました。

「超伝導体は、散逸することなく電流を流すことで知られています」とシャニは言いました。 「しかし、ナノメートル寸法の超電導線は、超電導状態を破壊する量子ゆらぎを引き起こし、その結果、低温で抵抗が発生します。」

しかし、グループはこれらの変動を抑制し、抵抗の約90%を減らすために高磁場を使用することができました。

「これは、3D磁力計などの3D超伝導アーキテクチャの製造におけるDNA折り紙の柔軟性の活用に基づく、ナノエレクトロニクスや新しいデバイスの相互接続などのアプリケーションで私たちの仕事を使用できることを意味します」とシャニは続けました。

ナノシートのタイル張り
ナノシートは、透明で柔軟な電子機器、オプトエレクトロニクス、および電力収穫装置を作る可能性を秘めています。 しかし、二酸化チタンなどのナノ材料をタイリングする現在の方法は、時間と費用がかかり、無駄になる可能性があります。 名古屋大学と物質・材料研究機構の研究者は、より簡単なワンドロップアプローチを提案しています。 ナノシートのタイル張り 単層で。

「ドロップキャスティングは、固体表面にナノ材料を堆積させるための最も用途が広く費用効果の高い方法のXNUMXつです」と、名古屋大学の材料科学者である長田実氏は述べています。 「しかし、これには重大な欠点があります。XNUMXつは、いわゆるコーヒーリング効果です。粒子が入っている液体が蒸発すると、粒子によって残されるパターンです。 驚いたことに、ピペットとホットプレートによる制御された対流により、リング状のパターンではなく均一な堆積が発生し、ドロップキャスティングの新しい可能性が示唆されました。」

チームのプロセスでは、2Dナノシートを含む溶液を単純なピペットでホットプレート上で約100°Cの温度に加熱された基板に滴下し、続いて溶液を除去します。 これにより、ナノシートは約30秒で一緒になり、タイルのような層を形成します。

彼らは、ナノシートが基板全体に均一に分布し、ギャップが限られていることを発見しました。 研究者らは、これは粒子がどのように分散するかを駆動する表面張力の結果である可能性が高く、溶液が蒸発するにつれて堆積した液滴の形状が変化することを指摘しました。

このプロセスは、二酸化チタン、ニオブ酸カルシウム、酸化ルテニウム、および酸化グラフェンの粒子溶液を堆積させるために使用されました。 さまざまなサイズと形状のシリコン、二酸化ケイ素、石英ガラス、ポリエチレンテレフタレート(PET)など、さまざまな基板が使用されました。 溶液に少量のエタノールを加えることにより、表面張力と蒸発速度を制御することができます。

この方法は、タイル状のナノシートの複数の層を堆積するためにも使用され、導電性、半導体性、絶縁性、磁気性、またはフォトクロミック機能を備えた機能的なナノコーティングを作成しました。 「2Dナノシートを使用したソリューションベースのプロセスは、環境に優しい製造と酸化物エレクトロニクスに大きな影響を与えると期待しています」と長田氏は述べています。

ポスト パワー/パフォーマンスビット:2月XNUMX日 最初に登場した 半導体エンジニアリング.

PrimeXBTをチェックアウト
ACミランの公式CFDパートナーとの取引
出典:https://semiengineering.com/power-performance-bits-march-2/

AI

エッジAIパフォーマンスの最大化

アバター

公開済み

on

畳み込みニューラルネットワークモデルの推論はアルゴリズム的に簡単ですが、アプリケーションで最速のパフォーマンスを得るには、展開時に留意すべきいくつかの落とし穴があります。 多くの要因が効率的な推論を困難にします。それぞれに対処して解決するための特定のソリューションに飛び込む前に、最初にステップスルーします。 この記事の終わりまでに、システムを構築する前に使用できるXNUMXつのツールが用意されています。

なぜ畳み込み層を加速するのですか?

大まかに言えば、畳み込みとは、関数を他の何かの上にスライドさせることです。 画像データのコンテキストでは、XNUMXつのチャネル(RGB)を持つピクセル上でウィンドウをスライドさせ、各ウィンドウに同じ機能を適用します。


図1:画像上でウィンドウを畳み込む。

CNNの畳み込み層では、すべてのウィンドウで実行される関数は、実際には、フィルターと呼ばれる固定値の行列(必然的に同じサイズ)との要素ごとの乗算です。 複数のフィルターのセットは、畳み込みカーネルとも呼ばれます。 このカーネルのフィルターの数は、最終的にはレイヤーが出力するチャネルの数になります。


図2:畳み込み層では、畳み込みを行う実際の関数は、さまざまなフィルターを使用した一連の要素ごとの行列乗算です。 注:各数学演算は、実際には「テンソル演算」とも呼ばれる積和演算(FMA)の融合です。

高速行列乗算アルゴリズムを使用する

CNN推論の最初の最大の課題は、前述のように、各レイヤーが大量の行列乗算を必要とすることです。 操作の数は、画像のサイズ、および各レイヤーのフィルターの数に応じて変化します。 これらの計算を回避する方法はありませんが、特殊な推論ソリューションには、Winograd変換などの高速行列乗算アルゴリズム用のハードウェアがあります。 一般的な3×3畳み込みカーネルでは、このような変換により、必要な操作の数が2.25倍削減される可能性があります。 したがって、実行できる最初の最も一般的な最適化は、展開ソリューションがWinogradのような高速行列乗算アルゴリズムが提供できる利点を活用できるようにすることです。 たとえば、FlexLogixのInferXX1などの専用SoCには、Winograd乗算に必要な変換を動的に実行できる回路が組み込まれています。

低精度のデータ型に量子化する

乗算の数がレイヤー間で大幅に異なる可能性があるのと同様に、レイヤー間で渡される必要のあるデータの量も大幅に異なります。 このデータは、活性化エネルギーまたは活性化として知られています。 本質的にニューラルネットワークは近似であり、関数がFP32またはFP16でトレーニングされると、これらのデータ型が提供する追加の精度は推論に不要です。 CNNのデータ型を変更するプロセスは、量子化として知られています。 PyTorchやTensorflowLiteなどの一般的なフレームワークでは、INT8への量子化は、トレーニングに必要なデータのごく一部と数行の追加コードでトレーニング後に実行できます。 推論のために量子化することの利点は、FP2でも推論よりもレイテンシーを即座に16倍改善することができます!

柔軟性のあるハードウェアを選択する

次に、推論がCNNを介して進行すると、各レイヤーは前のレイヤーとは異なる畳み込みを行います。 カーネルのウィンドウサイズを変更する場合でも、異なる数のフィルターを使用する場合でも、アクティベーションを形成および形成する操作では、計算に対するメモリアクセスの比率が異なります。 初期層は、必要なメモリ量に比べてはるかに多くの計算を行う可能性がありますが、中間層は非常に大きなアクティベーションデータを操作しますが、計算の一部しか実行しません。 したがって、本質的に、これらの変化するメモリおよび計算アクセスパターンに適応できるアーキテクチャには、そうでないアーキテクチャよりも利点があります。 たとえば、InferX X1は、Flex LogixのeFPGAテクノロジーを活用して、レイヤー間で動的に再構成し、推論全体で最適なデータパスを維持します。 したがって、展開を検討するときは、適応できるアーキテクチャを選択してください。

ストリーミングデータ

最後に、モデルをトレーニングする場合、後方伝播と呼ばれるプロセスで、各トレーニングデータに基づいてモデルの重みを更新するために多くの情報が生成されます。 必要なメモリ帯域幅の量を削減する1つの方法は、データを「バッチ処理」し、そのデータセット全体でこれらの重みに対するさまざまな変更を合計することです。 推論のコンテキストでは、複数の推論を並行してバッチ処理および計算し、レイヤーごとに実行するアプローチもスループットを向上させることができますが、レイテンシーが犠牲になります。 たとえば、リアルタイムアプリケーションでは、開始する前に十分なデータが届くのを待つ必要があります。一部のハードウェアでは、単一のジョブですべての処理要素を使用する代わりに、リソースを分割して複数の推論を並行して処理することになります。 。 可能な限り最速の推論がアプリケーションの懸念事項である場合は、バッチサイズXNUMXで推論することを忘れないでください。

結論

リアルタイムアプリケーションのより高速な推論は、新しい設計の可能性を開き、最終的には時間だけでなくお金も節約できます。 この記事で強調しているように、これで、医用画像処理、ファクトリオートメーション、ADAS、またはその他の完全なアプリケーションであるかどうかにかかわらず、エンドアプリケーションの推論パフォーマンスを向上させるために適用できるテンプレートができました。 次の1つの主要なツールを覚えておいてください:2)高速行列乗算アルゴリズムを利用していることを確認し、8)INT3に量子化し、4)柔軟なハードウェアにデプロイし、1)リアルタイムアプリケーションにbatch = XNUMXを使用します。 これらのツールを活用することで、アプリケーションで可能な限り最速の推論を確実に得ることができます。

Vinay Mehta

  (すべての投稿)
Vinay Mehtaは、FlexLogixの推論テクニカルマーケティングマネージャーです。

コインスマート。 BesteBitcoin-ヨーロッパのBörse
ソース:https://semiengineering.com/maximizing-edge-ai-performance/

続きを読む

半導体

データセンターでPCIeおよびCXLを介してデータを保護

アバター

公開済み

on

より多くのデバイスが市場に参入し、クラウド内のデータの指数関数的成長を促進するにつれて、クラウドコンピューティングは大幅な見直しを行っています。 ビッグデータと分析のための「ハイパースケール」クラウドプロバイダー、高速IoT接続のための5G、自然なデータ処理と洞察の抽出のためのAIの幅広い使用の増加は、接続されたデータの量とデータの脆弱性の両方を悪化させています。

急速なデータの増加に対応するために、設計者はインターフェイスとストレージテクノロジーの革新を推進して、容量とパフォーマンスの向上、さらに高速化と新しいコンピューティングアーキテクチャをサポートしています。 PCI Express(PCIe)5.0 /6.0やComputeExpress Link(CXL)2.0などの高速インターフェイスが急増しています。

  • クラウドベースのコンピューティングシステムのデータレートの高速化により、PCIe5.0インターフェイスに取って代わるPCIe6.0およびPCIe4.0の準備が整いました。
  • ストレージ/ SSDはPCIe5.0 /6.0インターフェイスに移行しています
  • 通常、帯域幅を大量に消費する多くのデバイスと膨大な共有メモリプールを処理するデータセンターは、CXL2.0インターフェイスに移行しています

システムアーキテクトは、悪意のある攻撃者によって破損、置換、変更、または盗まれる可能性のある機密情報、機密情報、または重要な情報を含むクラウドデータをどのように保護できますか? I / O相互接続は、設計の最初からセキュリティを実装する必要があります。 セキュリティが制限されているため、攻撃者は学んだ秘密から利益を得たり、標的となる企業の運営を妨害したり、政府機関を妨害したりすることを目的とする可能性があります。 ハッキングの種類は性質が異なり、PCIeリンクを介して配信される悪意のある周辺機器からの攻撃や、他のプロセスのメモリにアクセスして秘密を取得したりコードの実行を変更したりするルートアクセス攻撃など、進化を続けています。

さらに、業界は次のような法規制の増加に直面しています。

  • 個人ユーザーのデータが侵害された場合に企業に高額の罰金を科すヨーロッパのGDPR(グローバルデータ保護規則)
  • 米国の医療保険の相互運用性と説明責任に関する法律(HIPAA)は、医療および医療保険業界によって維持されている個人情報(PII)を詐欺や盗難から保護する方法を規定しています。
  • ペイメントカード業界のデータセキュリティ標準、および他の多く

攻撃がより高度になるにつれて、セキュリティ標準は、機密データと通信をより適切に保護し、最終的には接続された世界を保護するために継続的に適応する必要があります。 この目的のために、PCI-SIGおよびCXL標準化団体は、5.0年後半にPCIe2.0およびCXL2020仕様に整合性やデータ暗号化などのセキュリティ要件を追加しました。セキュリティは、次世代のPCIe6.0およびCXL3.0相互接続に引き続き採用される予定です。上手。

PCIeおよびCXLセキュリティシステムコンポーネント

PCIおよびCXLインターフェイスのセキュリティには、図1に示すように、2)認証とキー管理、および1)整合性とデータ暗号化(IDE)のXNUMXつの主要コンポーネントがあります。

認証とキー管理
認証とキー管理には、認証、認証、測定、識別、キー交換などの機能が含まれ、すべて信頼できる実行環境/安全なモジュールで実行されます。

認証とキー管理の主な参照標準は、Distributed Management Task Force(DMTF)によって管理されるSecurity Protocol and Data Module(SPDM)です。 SPDMは、さまざまなトランスポートおよび物理メディアを介してデバイス間でメッセージ交換を実行するためのメッセージ、データオブジェクト、およびシーケンスを定義し、セキュリティ機能と操作への効率的なアクセスを可能にします。 メッセージ交換の説明には、ハードウェアの認証とファームウェアIDの測定が含まれます。

PCI-SIGは、認証とキー管理のためにXNUMXつのエンジニアリング変更通知(ECN)を導入しました。

  • コンポーネント測定および認証(CMA)は、SPDMをPCIe / CXLシステムに適用する方法を定義します
  • データオブジェクト交換(DOE)は、さまざまな相互接続を介したデータオブジェクト転送をサポートします

整合性とデータ暗号化(IDE)
IDEは、PCIeのトランザクションレイヤーパケット(TLP)とCXLのフロー制御UnIT(FLIT)に機密性、整合性、および再生保護を提供し、ネットワーク上のデータがパケットの監視、改ざん、削除、挿入、および再生から保護されるようにします。 IDEはAES-GCM暗号化アルゴリズムに基づいており、Authentication&KeyManagementセキュリティコンポーネントからキーを受け取ります。

  • 参照標準
    • PCI-SIG:PCIe IDE ECN
    • CXL 2.0:CXL.cache / memプロトコル用のIDE。 CXL.ioプロトコルはPCIeIDEECNを指します。


図1:PCIeおよびCXLセキュリティシステムレベルのビュー。

PCIeおよびCXLIDEIPソリューション

セキュリティを備えたPCIeおよびCXLソリューションを探す場合、考慮すべきトレードオフは、パフォーマンス、遅延、および面積です。 もちろん、これらすべてが最新の標準に準拠し、専門家の支援を受ける必要があります。

探すべきものは次のとおりです。

  • 受信機と送信機の方向のスループット全二重
  • 柔軟なデータバス幅とコントローラーと同じクロック構成との統合
  • 256ビットのキーサイズのAES-GCM暗号化アルゴリズムに基づく、PCIeのTLPおよびCXLのFLITの暗号化、復号化、および認証
  • エリアおよびレイテンシーに最適化されたソリューションの暗号化およびハッシュアルゴリズムの構成可能な幅
  • システム内のキーをシームレスに変更するための機内キーの更新
  • 保護されていないトラフィック用の低遅延インオーダーバイパスモード


図2:PCIeIDEセキュリティモジュールのブロック図とPCIeコントローラーとの統合。

図3は、事前検証を行ったCXL 2.0IDEセキュリティモジュールを示しています。


図3:DesignWare CXLIDEセキュリティモジュールのブロック図とDesignWareCXLコントローラーとの統合。

結論

接続された世界でデータが大幅に増加しているため、PCIeやCXLなどの高性能相互接続を介して、システム間で転送されるデータ内の個人情報や機密情報を保護するには、セキュリティが不可欠です。

シノプシスは最近、PCIe5.0またはCXL2.0プロトコルを使用する高性能コンピューティングSoCのデータを保護するための業界初のセキュリティモジュールを発表しました。 ザ・ PCIe5.0用のDesignWareIDEセキュリティモジュールIP or CXL 2.0 ハイパースケーラークラウドプロバイダーですでに展開されています。 堅牢なIDEセキュリティモジュールは、PCIeまたはCXL用のコントローラーIPで事前検証されているため、設計者は、相互接続プロトコルの最新バージョンに準拠しながら、データの改ざんやリンクへの物理的な攻撃から保護することがより迅速かつ簡単になります。 シノプシスのセキュリティIPソリューションは、盗難、改ざん、サイドチャネル攻撃、マルウェア、データ侵害など、接続されたデバイスで進化するさまざまな脅威を防ぐのに役立ちます。

ダナ・ノイシュタッター

ダナ・ノイシュタッター

  (すべての投稿)
Dana Neustadterは、SynopsysのセキュリティIPの製品マーケティングのシニアマネージャーです。 彼女はM.Engを保持しています。 およびB.Sc。 クルージュナポカ工科大学で電気工学の博士号を取得。

コインスマート。 BesteBitcoin-ヨーロッパのBörse
ソース:https://semiengineering.com/safeguarding-data-over-pcie-cxl-in-data-centers/

続きを読む

AI

AIの新しい用途

アバター

公開済み

on

AIは、ほとんどのチップに一般的に見られるテクノロジーの数が増えており、初期の結果では、電力とパフォーマンスの両方が劇的に向上していることが示されています。

知名度の高いとは異なり AI 自動運転車や自然言語処理などの実装では、この作業の多くはほとんどの人にとってレーダーの下でうまくいきます。 それは一般的に、既存のテクノロジーを構築または改善することで、混乱を最小限に抑える道をたどります。 しかし、これらの開発は、大きな影響を与えることに加えて、AIがうまくできることとできないこと、時間の経過とともにさまざまな環境や動作条件下でどのように動作するか、他のシステムとどのように相互作用するかを理解するためのベースラインを設計チームに提供します。

最近まで、AI /機械学習の大部分は、データセンターまたは特殊なmil / aeroアプリケーションに限定されていました。 それ以来、データ量の増加とそのデータをソースの近くで処理する必要性に駆り立てられて、それ自体が形になり始めたばかりのエッジへの移行を開始しました。

メモリの改善
データの移動を最適化することは、これらすべての市場における明らかな目標です。 非常に多くのデータが生成されているため、従来のデータを圧倒しています フォン・ノイマン アプローチ。 企業は、実績のあるアーキテクチャを廃棄するのではなく、メモリとプロセッサ間を行き来するデータの流れを減らす方法を模索しています。 インメモリコンピューティングとニアメモリコンピューティングは、注目を集めているXNUMXつのソリューションですが、これらのアプローチにAIを追加すると、大幅な増分の影響が生じる可能性があります。

機械学習をに追加するというSamsungの発表 広帯域メモリ (HBM)スタックはその好例です。

「最も困難な部分は、コンピューティングエコシステムに影響を与えることなく、既存のDRAMのドロップイン代替品としてこれを作成する方法でした」とSamsungのメモリビジネスユニットのシニアバイスプレジデントであるNam SungKimは述べています。 「私たちはまだ既存の機械学習アルゴリズムを使用していますが、このテクノロジーはそれらをより効率的に実行することを目的としています。 過去には、必要なメモリ帯域幅が多すぎるために機械学習モデルを実行できなかったことがありました。 しかし、メモリ内のコンピューティングユニットにより、より多くの帯域幅を探索できるようになりました。」

キム氏は、このアプローチにより、追加の最適化なしでシステムの総エネルギーを70%削減できると述べました。 これを非常に価値のあるものにしているのは、データの移動方法に「インテリジェンス」のレベルを追加することです。 これを他のテクノロジーの改善と組み合わせて、さらに優れた電力/パフォーマンス効率を実現できます。 キムは、これは桁違いになる可能性があると見積もっていますが、他のテクノロジーがこれをさらに押し上げる可能性があります。


図1:メモリソフトウェアスタックでの処理。 出典:Samsung

「業界として、私たちはいくつかの異なる場所に目を向ける必要があります」と、 ラムバス。 「そのうちの25つはアーキテクチャです。 実際のアルゴリズムをよりターゲットにするために、チップを構築する正しい方法を考える必要があります。 私たちは過去40、2年の間それが起こるのを見てきました。 人々は、シストリックアレイやよりターゲットを絞った実装など、いくつかの非常に優れたアーキテクチャを実装しています。 他にもいくつかあります。 私たちは確かに、メモリシステムが全体的なエネルギー消費において非常に重要であることを知っています。 発生しなければならないことのXNUMXつは、メモリアクセスをよりエネルギー効率の高いものにすることに取り組む必要があるということです。 PHYをより効果的に活用することは重要な要素です。 SoC自体は電力バジェットのXNUMX%からXNUMX%をPHYだけに費やしており、SoCとPHYの間でデータをやり取りする行為—使用されている電力の約XNUMX分のXNUMXは、実際にはデータの移動にのみ使用されます。 。 そしてそれはHBMXNUMXのためだけです。 GDDRの場合、データレートが高いため、データの移動にさらに多くの電力が費やされます。 同等の帯域幅の場合、はるかに高速な信号であるという理由だけで、より多くの電力を消費します。」

図2:データ移動コストの内訳。 出典:ラムバス

図2:データ移動コストの内訳。 出典:ラムバス

ネットワーク最適化
この種のアプローチが利用されているもうXNUMXつの場所は、ネットワークの構成と最適化です。 これまでとは異なり、コンピューターやスマートフォンが多くの標準ベースのプロトコルやネットワークのいずれかを利用できる場合、エッジはアプリケーション固有の最適化と独自の実装に重点を置いています。 データフロー内のすべてのコンポーネントを最適化する必要があります。場合によっては、相互に接続されているさまざまなシステム間で最適化する必要があります。

これは、エッジシステムを統合する必要があるユーザーだけでなく、多くの垂直市場で機能する水平テクノロジーの販売を検討しているベンダーにとっても頭痛の種です。 また、ネットワーク上またはパッケージ内で構成できる、よりインテリジェントなデバイスやコンポーネント、およびそれらの市場で使用されるアルゴリズムの変更に適応できる構成可能なデバイスへの扉を開いています。

「最初はソフトウェア定義のハードウェアとして始まりますが、AI対応の自己修復、自己調整デバイスに進化します」と、データセンターマーケティングのディレクターであるKartikSrinivasanは述べています。 ザイリンクス。 「「特定のトラフィックフローに対してこのレベルの処理を実行する」と言うことができ、必要なAIに応じて多数のオフロードを実行します。」

AI / MLは、データを最適に利用できる場所の動作パターンと確率に基づいて、データに優先順位を付けて分割する方法を非常によく理解していることが証明されています。 すべてのデータをすぐに処理する必要はなく、その多くはローカルで破棄される可能性があります。

「私たちは機械学習を最適化問題と見なし始めています」と、戦略および事業開発のシニアマネージャーであるAnoopSahaは述べています。 シーメンスEDA。 "機械学習 歴史的に、教師あり学習、教師なし学習、強化学習のいずれであっても、パターン認識に使用されてきました。 アイデアは、あなたが持っているデータからいくつかのパターンを認識し、それを使用して物事を分類し、予測を行ったり、猫と犬の識別を行ったりすることです。 ただし、スマートNICカードなど、SDN(ソフトウェア定義ネットワーク)ネットワークを最大化する方法を特定するネットワークトポロジが見つからなかった場合など、他の使用例もあります。 これらは純粋なパターン認識の問題ではなく、幅広い業界にとって非常に興味深いものです。 人々はこれをさまざまなタスクに使用し始めています。」

実装は非常に具体的ですが、一般的な概念が複数の市場で注目され始めています。 「現在の市場セグメントによって多少異なります」と、のCEOであるGeoffTateは述べています。 Flex Logix。 「私たちは、医用画像処理などのエンタープライズエッジと呼んでいるものに取り組んでいます。 お客様は、高スループット、高精度、低コスト、および低電力を必要としています。 したがって、GPUよりも優れたアーキテクチャが本当に必要であり、ベンチマークでは3〜10倍優れています。 これをより細かい粒度で行い、大きな行列乗数ではなく、XNUMX次元テンソルプロセッサを使用します。 これらはモジュール式であるため、さまざまな方法で組み合わせて、さまざまな畳み込みおよび行列アプリケーションを実行できます。 それには、私たちが開発したプログラム可能な相互接続も必要です。 そして最後に行うことは、コンピューティングをメモリに非常に近づけることです。これにより、レイテンシと電力が最小限に抑えられます。 すべての計算はSRAMで行われ、DRAMは重みを格納するために使用されます。」

エッジのAI
このモジュール式でプログラム可能な種類のアプローチは、これらの設計の多くに隠されていることがよくありますが、設計と実装の柔軟性を重視することが重要です。 センサーの増加、データの洪水、スケーリングのメリットの低下により、チップメーカーは、パフォーマンスを向上させながらレイテンシと電力を削減できる、より複雑なアーキテクチャに移行することを余儀なくされています。

これは、一部のデバイスがバッテリーをベースにしているエッジや、速度が重要な要素であるオンプレミスおよびニアプレミスのデータセンターで特に当てはまります。 ソリューションは高度にカスタマイズされ、異種である傾向があり、多くの場合、パッケージに複数のチップが含まれます。 そのため、すべてがXNUMXつ以上の巨大なデータセンターに配置されているハイパースケールクラウドの代わりに、データの処理速度と処理量に基づいて処理のレイヤーがあります。

その結果、非常に複雑なデータ分割の問題が発生します。これは、データを異なるサーバー間、さらには異なるシステム間でインテリジェントに解析する必要があるためです。 「特にエッジノードが増えるにつれて、その傾向は確実に見られます」と、メモリソリューションのマーケティングおよびアプリケーションのシニアディレクターであるSandeepKrishnegowdaは述べています。 インフィニオン。 「より多くのデータが入ってくると、加速しようとしているものを分割する必要があります。 生の情報をクラウドに送信するだけでは不十分です。 意味のあるデータである必要があります。 同時に、エッジ上のリアルタイムコントローラーが実際にその場で推論の決定を行う必要があります。 これらすべてがアーキテクチャの変更を明確に浮き彫りにし、トラフィックの管理をより効率的にしています。 しかし、最も重要なことは、これの多くがデータとデータの管理方法に帰着することです。 そして、常にその多くはあなたのメモリとメモリアーキテクチャのサブシステムにまでさかのぼります。」

さらに、すべてが接続され、データが前後に流れているため、これはルーティングの問題になります。

「データセンターチップを使用している場合は、レチクルの限界で設計していることになります」と、ソリューションマーケティングのシニアグループディレクターであるFrankSchirrmeister氏は述べています。 ケイデンス。 「そこには加速器があり、さまざまな熱的側面があり、3D-ICの問題があります。 ウェアラブルに移行しても、同じように関連する火力レベルを処理していることになり、車にはAIコンポーネントがあります。 したがって、これはあらゆる方向に進んでおり、全体的なアプローチが必要です。 エッジの場所に関係なく、低電力/熱/エネルギー活動を最適化する必要があり、人々はワークロードに合わせてシステムを適応させる必要があります。 次に、これらをどのように組み合わせるかが重要になります。」

これにより、さらに別のレベルの複雑さが追加されます。 「当初は、「できるだけ多くのアクティベーションとウェイトをチップに収めるために、入手できる最高密度のSRAMが必要です」とIPの戦略的マーケティングマネージャーであるRonLowmanは述べています。 シノプシス。 「他の企業は、可能な限り低電力にする必要があると言っていました。 以前はそのようなタイプのソリューションがありましたが、特にAIに関する新しいリクエストがたくさんありました。 そして、次のステップに進み、「最高密度または最低リークを超えたカスタマイズが必要です」と言いました。これは、メモリやコンピューティングタイプのテクノロジーなどの特殊な処理コンポーネントと組み合わせているためです。 したがって、プリミティブ数学ブロック、DSPプロセッサ、RISCプロセッサ、そして特別なニューラルネットワークエンジンなどのビルディングブロックがあります。 これらのコンポーネントはすべて、スカラー、ベクトル、行列の乗算、およびそれに接続されているメモリアーキテクチャを含む処理ソリューションを構成します。 これらのプロセッサを最初に実行したとき、何らかの外部メモリインターフェイス(おそらくLPDDRまたはDDR)があると想定されていたため、多くのシステムがこれらの想定に基づいて構築されました。 しかし、高帯域幅のメモリを備えた独自のアーキテクチャがあり、それによって、これらの外部メモリインターフェイスからのロードとストアの取得方法とサイズが変わります。 次に、顧客は特別なソースを追加します。 より多くのニッチが見つかるにつれて、それは成長し続けるでしょう。」

これらのニッチは、より多くの種類のハードウェアの需要を増加させますが、特定のユースケースにフォームフィットできるこれらの基本レベルのテクノロジーの継続的な拡張に対する需要も促進します。

ザイリンクスの製品ラインマネージャーであるJaysonBethuremは、次のように述べています。「当社のFPGAには、デバイス全体にメモリが散在しているため、メモリをアクセラレータに直接ローカライズできます。アクセラレータは、ディープラーニング処理ユニットになります。 「また、アーキテクチャは固定されていないため、CNNなどを使用して、さまざまな特性評価や分類トポロジに適合させることができます。 これがアプリケーションの成長の大部分であり、反応する前に何かを分類したいと考える人々がいます。」

エンドデバイスにおけるAIの限界
AI自体は固定技術ではありません。 テクノロジーが適応して最適化するにつれて、AIソリューションのさまざまな部分が動いているため、処理結果は通常、分布と受け入れ可能性の確率の形で提供されます。

AIの精度と信頼性を定義することは特に困難です。これは、実装とユースケースごとにメトリックが異なるためです。これが、チップ業界がこのテクノロジーを慎重に検討している理由のXNUMXつです。 たとえば、補助運転のある車のAI / MLについて考えてみます。 データの入力と決定はリアルタイムで行う必要がありますが、AIシステムはそのデータの値に重みを付ける必要があります。これは、他の車両がそのデータに重みを付ける方法とは異なる場合があります。 XNUMX台の車両が相互作用しないと仮定すると、それは問題ではありません。 しかし、彼らが情報を共有している場合、結果は大きく異なる可能性があります。

「それはやや未解決の問題です」と、フェロー兼テクノロジーディレクターのロブ・エイトケンは述べています。 腕の 研究開発グループ。 「特定の精度のシステムと異なる精度のシステムがある場合、累積的にそれらの精度は、それらが互いにどれだけ独立しているかに依存します。 ただし、XNUMXつを組み合わせるために使用するメカニズムにも依存します。 これは、画像認識などではかなりよく理解されているようですが、レーダーデータとカメラデータがある自動車アプリケーションを見ると、より難しくなります。 それらは互いに事実上独立していますが、それらの精度は、他のすべてに加えて、あなたが知る必要がある外部要因に依存しています。 したがって、レーダーは「これは猫です」と言うかもしれませんが、カメラはそこに何もないと言います。 暗い場合は、レーダーはおそらく正しいでしょう。 雨が降っている場合は、レーダーも間違っている可能性があります。 これらの外部ビットは非常に迅速に機能し、経験則を圧倒し始める可能性があります。」

これらの相互作用はすべて、詳細に理解する必要があります。 「自動車の多くの設計は高度に構成可能であり、センサーから取得したデータに基づいてオンザフライでも構成可能です」と、のマーケティング責任者であるSimonRanceは述べています。 クリオソフト。 「データはこれらのセンサーからプロセッサーに戻されます。 車両からデータセンターへ、そして車両へ戻るまでの膨大な量のデータを追跡する必要があります。 何かがうまくいかない場合、彼らはそれを追跡し、根本的な原因が何であるかを理解する必要があります。 それが満たされる必要があるところです。」

もうXNUMXつの問題は、関連するデータとそうでないデータを知ることです。 「AIをエッジにシフトするときは、モデルのようなものをシフトします。つまり、情報の関連部分とそうでない部分がすでにわかっているということです」と、分散データ処理および制御部門の責任者であるダークメイヤーは述べています。に フラウンホーファーIIS 適応システム部門のエンジニアリング。 「ローパスフィルタリング、ハイパスフィルタリング、平均化のようなことをするだけでも、次のようなことを念頭に置いています。 'さて、これはローパスフィルターを適用する場合、またはデータが必要な場合に関係します。 100Hz程度まで。」

課題は、AIの複数の実装にわたってそれを活用できるようにすることです。 「フライス盤のような基本的なものを見ても、プロセスは同じですが、機械はまったく異なる場合があります」とメイヤー氏は述べています。 「プロセス材料、粉砕される材料、プロセス速度などが異なります。 あるマシンから別のマシンに適応する人工知能を発明することは非常に困難です。 新しいデータを収集するには、常に再トレーニングの段階と時間が必要です。 これは、AIのビルディングブロックのようなものを発明するための非常に興味深い研究分野であり、アルゴリズムは業界で広く受け入れられており、このマシンからそのマシンに移動して事前にトレーニングすることができます。 そのため、ドメインの専門知識といくつかの基本的なプロセスパラメータを追加し、アルゴリズムをパラメータ化して、学習を高速化することができます。」

結論
しかし、それは今日のチップ業界が存在する場所ではありません。 AIとそのサブグループである機械学習とディープラーニングは、ボリュームと大量の再現性に基づいて構築された業界に独自の機能を追加します。 AIは、データトラフィックの最適化や使用パターンに基づくパーティション分割など、特定のことに効果的であることが証明されていますが、予測可能な結果ではるかに大きな決定を下せるようになるまでには長い道のりがあります。

電力削減とパフォーマンス改善の初期の結果は有望です。 しかし、それらは、はるかに広範なシステムセット、複数の市場セグメントの急速な進化、および異種統合、ドメイン固有の設計、サプライチェーン全体でのデータ共有の制限などのさまざまなアプローチのコンテキストで設定する必要もあります。

コインスマート。 BesteBitcoin-ヨーロッパのBörse
ソース:https://semiengineering.com/new-uses-for-ai/

続きを読む

IOT

SoC統合の複雑さ:サイズは(常に)重要ではありません

アバター

公開済み

on

システムオンチップ(SoC)の複雑さについて話すとき、モンスターの例(アプリケーションプロセッサ、巨大なAIチップなど)を引き出すのはよくあることです。 その伝統を打ち破り、モノのインターネット(IoT)の設計を検討してください。これでも、アーキテクチャと統合が非常に複雑なエンジニアに挑戦することができます。 この複雑さは、XNUMXつの要因から生じます。バッテリーの代わりに収集されたMEMS電力を使用する場合でも、非常に低い消費電力と、開発とユニットコストを厳密に制御しながら、共通のSoCプラットフォームに基づいて製品の巨大なファミリを構築するための迅速なターンアラウンドです。


図1:低電力TICC26xxプロセッサのブロック図。 (出典:Linley Group、「NoCテクノロジーを使用した低電力設計」; TI)

これらのタイプの常時接続IoTチップの場合、システムを定期的にウェイクアップするためにリアルタイムクロックが必要です。つまり、検知、計算、通信してからスリープ状態に戻ります。 制御、処理、およびセキュリティ機能のためのマイクロコントローラ(MCU)。 ソフトウェアを保存するためのローカルメモリとフラッシュ。 I / Oは、プロビジョニング、デバッグ、および複数の外部センサー/アクチュエーターへのインターフェースに必要です。 また、Bluetooth Low Energyなどのワイヤレスインターフェイスも必要です。これは、最初にウェアハウスアプリケーションを目的としており、そのアプリケーションでは比較的短距離のリンクで問題がないためです。

これはすでに複雑なSoCであり、設計者はさらに機能を追加することを考え始めていません。 このチップを中心に構築された製品をコイン電池やソーラーパネルで何年も動作させるには、ほとんどの場合、この機能のほとんどすべての電源を切る必要があります。 ほとんどのデバイスは、動的電圧および周波数スケーリング(DVFS)をサポートするために、切り替え可能な電力ドメインと、おそらく切り替え可能な電圧ドメインにある必要があります。 この電力と電圧のスイッチングを制御するには、電力マネージャーが必要です。このスイッチングは、このSoC用に構築/生成する必要があります。 その電源状態コントローラーは、制御レジスターとステータスレジスター(CSR)を追加して、最終的に組み込みソフトウェアスタックに接続します。


図2:TI CC26xxSoCにはXNUMX個の電源ドメインがあります。 プロセッサには、常時オンのロジック(*でマーク)に加えて、XNUMXつの電圧ドメインがあります。 (出典:Linley Group、「NoCテクノロジーを使用した低電力設計」; TI)

このSoCを介して実行されるのは、これらすべてのデバイス、インターフェイス、およびCSRを接続する相互接続、オンチップ通信バックボーンです。 相互接続は、クロックの切り替えや静止時のリーク電力によっても、パッシブでも電力を消費することを忘れないでください。 それらはすべてを接続するため、従来のバスはすべてオンまたはすべてオフになります。これは、余分な年数のバッテリー寿命を引き出す場合には適していません。 設計者は、相互接続内のきめ細かい電源管理も必要です。これは、古いバステクノロジにはないもうXNUMXつの機能です。

設計チームは、このようなIoTチップでどのようにして非常に低い消費電力を達成できますか? 電力を大量に消費するバスをダンプし、ネットワークオンチップ(NoC)相互接続に切り替えることで!

実際のプロダクションチップの実装では、NoCに切り替えると、バスやクロスバーと比較して、全体の消費電力が0.55倍から2032倍低下することが示されています。 NoCの消費電力が少ない主な理由は、バスやクロスバーに比べてNoCのダイ面積が小さく、マルチレベルのクロックゲーティング(ローカル、ユニットレベル、ルート)により、複数の電力ドメインの高度な実装が可能になるためです。 これにより、XNUMXつのレベルのクロックゲーティングが提供されます。 TI IoTチップの場合、エンジニアリングチームは、アイドルモードでの消費電流をわずかXNUMXmAに制限しながら、可能な限り最小の電力を使用してユースケースを満たすために、複数の重複する電力ドメインとクロックドメインを実装しました。 NoCを使用して有効電力と待機電力を削減することで、チームは標準のCRXNUMXコイン電池を使用してXNUMX年以上実行できるIoTチップを作成できました。

IoTチップを成功させるには、低電力だけでは不十分です。 これらの市場は、ワイヤレス接続規格、センサー、ディスプレイ、およびアクチュエーターインターフェイスの絶えず変化する要件を満たしながら、低コストの必要性に気まぐれです。 ここで、エンジニアは、初期のIoTプラットフォームアーキテクチャに基づいて、バリアントまたは派生物について考える必要があります。 これらは、農業およびロジスティクス市場向けの狭帯域モノのインターネット(NB-IoT)ワイヤレスオプションから、オーディオインターフェイスアラームおよびAIベースの異常検出にまで及ぶ可能性があります。 共通のアーキテクチャSoCプラットフォームから複数の派生チップを作成することは完全に戦略的に理にかなっていますが、誰かがバスの選択を間違えた場合、これは実装にどのように影響しますか? 従来のバス構造は、フロアプランに不釣り合いな影響を及ぼします。 機能を少し変更すると、フロアプランを大幅に変更する必要が生じる可能性があり、その結果、チップアーキテクチャが事実上「再スピン」され、プラットフォーム戦略を立てるという目的が果たせなくなります。 エンジニアは、ベースライン製品に取り組んでいる間に、これらすべてを予測できますか? その最初の実装にフロアプランの再利用性を高める方法はありますか?

低電力SoCのプラットフォーム戦略は、相互接続IPだけではありません。 エンジニアがIPを追加、削除、または再構成し、相互接続構造と電力管理を最適化することによって各設計を微調整および強化すると、ハードウェアへのソフトウェアインターフェイスも変更されます。 そのインターフェースを正確に正しくすることはかなり重要です。 ここでの間違いはデバイスを動作不能にする可能性がありますが、少なくとも誰かがすぐにそれを理解するでしょう。 収益にさらに損害を与えるのは、電源ドメインが停止するはずだったときに電源ドメインに残る可能性のある小さなバグです。 予想される1年のバッテリー寿命はXNUMXか月に低下します。 誰にでもできるメモリマップは、手動の更新と検証に依存する余裕はありません。 自動的に生成する必要があります。 IP-XACTベースのIP展開テクノロジは、トレーサビリティを維持し、製品ライフサイクル全体でこのタイプの設計データの正確性を保証する最先端の機能を提供します。

これらの設計はメガSoCに比べて小さいですが、それでも多くの複雑さがあり、それでもそれを間違える機会はたくさんあります。 Arteris IPでは、SoC統合の自動化と最適化を最大化することに焦点を当てており、ユーザーが常に「最初から正しく」利用できるようにしています。 電話をください。

カート・シュラー

カート・シュラー

  (すべての投稿)
カート・シュラーはArterisIPのマーケティング担当副社長です。 彼はISO 26262 / TC22 / SC3 / WG16ワーキンググループの米国技術諮問グループ(TAG)のメンバーであり、半導体および半導体IPの安全基準の作成を支援しています。 彼は、Intel、Texas Instruments、およびXNUMXつの新興企業で働いているモバイル、コンシューマー、自動車、およびエンタープライズセグメントで、広範なIP、半導体、およびソフトウェアマーケティングの経験があります。 テクノロジーに入る前は、米空軍特殊作戦部隊の空軍コマンドで飛行していました。 Shulerは、米国空軍士官学校で航空工学の学士号を、MITスローン経営大学院でMBAを取得しています。

コインスマート。 BesteBitcoin-ヨーロッパのBörse
ソース:https://semiengineering.com/soc-integration-complexity-size-doesnt-always-matter/

続きを読む
エスポート4日前

Dota2パッチ7.29は新しいヒーローを明らかにします

エスポート4日前

最高のウォーゾーンガン:ブラックオプスコールドウォーシーズン2で使用する必要のある武器

Fintech3日前

Novattiのリップルパートナーシップはフィリピンに住んでいます

Fintech5日前

スタンダードチャータード銀行は、投資とCurrencyFairとAssemblyPaymentsの合併によりデジタル決済の提案を促進します

Blockchain5日前

邪悪な天才が暗号通貨交換プラットフォームコインベースと提携

Blockchain5日前

UnternehmengründenCryptoCouncil:Fidelity und Coinbase mit dabei

エスポート5日前

オーバーウォッチアーカイブイベント2021:新しいチャレンジ、スキンなど

サイバーセキュリティ4日前

フィンテックはランサムウェアの標的です。 これを防ぐための9つの方法があります。

Blockchain5日前

ビットコインプライスアップデート:BTCfälltunter59.500USD

エスポート5日前

indiefoxxはTwitchから再び禁止されましたが、なぜですか?

Blockchain4日前

暗号-ニュース総まとめ8. XNUMX月

Blockchain4日前

DFB Bringt Digitale Sammelkarten auf die Blockchain

エスポート2日前

Dota2ドーンブレイカーヒーローガイド

Blockchain5日前

Ripple Klage:CEOzeigtsichnachAnhörungpositiv

エスポート5日前

Astralis vs Gambit Esports:ESLプロリーグの賭け分析

エスポート2日前

ダラス帝国はステージ2メジャーでミネソタに勝利して脱出

Blockchain5日前

クリプトニュース総まとめ7. 2021年XNUMX月

Blockchain4日前

WEF-Gipfel 2021:Zukunft der Wirtschaft ist tokenisiert

Fintech3日前

TrueLayerは、世界で最も価値のあるオープンバンキングネットワークを構築するために70万米ドルを調達します

エスポート1日前

Twitchが「肥満」という言葉を予測から禁止したのはなぜですか?

トレンド