ゼファーネットのロゴ

AI の祖先を知る必要がある理由

日付:

解説

人工知能 (AI) は、私たちの働き方から情報の摂取方法、リーダーの決定方法まで、私たちの日常生活のほぼすべての側面を急速に変えています。他のテクノロジーと同様、AI は非道徳的ですが、社会を進歩させたり、 危害を与える.

データは AI アプリケーションを強化する遺伝子です。 DNAとRNAがひとつに包まれたものです。ソフトウェア システムを構築するときによく言われることですが、「ガベージ イン/ガベージ アウト」です。 AI テクノロジーの正確さ、安全性、機能性は、AI テクノロジーが依存するデータ ソースと同等になります。 AI がその約束を確実に果たし、その悪夢を回避するための鍵は、ゴミを排除し、何百万もの AI アプリケーション間での増殖や複製を防ぐ能力にあります。

これはデータ来歴と呼ばれるもので、AI の将来が巨大なゴミの山になるのを防ぐための制御を実装するには、もう一日待つことはできません。

不正なデータは、サイバーセキュリティの脆弱性、誤った情報、その他の攻撃を数秒で世界中に伝播させる可能性のある AI モデルにつながります。今日の generative AI (GenAI) モデルは非常に複雑ですが、基本的に、GenAI モデルは、既存の以前のデータのセットを考慮して、出力する最適な次のデータ チャンクを単純に予測しています。

精度の測定

ChatGPT タイプのモデルは、元の質問を構成する一連の単語と、これまでのモデル応答内のすべての単語を評価して、次に出力する最適な単語を計算します。十分な応答が得られたと判断するまで、これを繰り返し行います。話題に沿っており、会話に一般的に関連する、整形式で文法的に正しい文を構成する単語をつなぎ合わせるモデルの能力を評価するとします。その場合、今日のモデルは、精度の測定において驚くほど優れています。

さらに深く掘り下げる AIが生成した文章が常に「正しい」情報を伝えているかどうか 伝達された情報の信頼レベルを適切に示します。これにより、モデルが平均的には非常にうまく予測するが、エッジケースではあまりうまく予測できないことから生じる問題が明らかになり、これは堅牢性の問題を表しています。 AI モデルから出力された貧弱なデータがオンラインに保存され、これらのモデルや他のモデルの将来のトレーニング データとして使用されると、事態はさらに悪化する可能性があります。

貧弱な出力はこれまでに見たことのない規模で再現され、AI による下向きの破滅ループを引き起こす可能性があります。

悪意のある人物がこのプロセスを手助けしたい場合は、余分な悪質なデータの生成、保存、伝播を意図的に奨励することができ、チャットボットからさらに多くの誤った情報が流出したり、自動車の自動操縦モデルが必要と判断するのと同じくらい凶悪で恐ろしい情報が流出したりする可能性があります。特別に作られた画像が目の前に「見えた」場合は、障害物があっても車を素早く右に進路変更します(もちろん仮説ですが)。

数十年を経て、サイバーセキュリティインフラストラクチャセキュリティ庁が主導するソフトウェア開発業界は、ついに 設計による安全性 フレームワーク。 セキュア・バイ・デザイン サイバーセキュリティはソフトウェア開発プロセスの基礎であることが義務付けられており、その中心的な教義の 1 つは、すべてのソフトウェア開発コンポーネントのカタログ化を要求することです。 ソフトウェア部品表(SBOM) — セキュリティと回復力を強化します。最後に、市場投入の最も重要な要素として、セキュリティがスピードに取って代わりつつあります。

AI 設計の保護

AI にも同様のものが必要です。 AI フィードバック ループは、マルウェア シグネチャの追跡、ネットワーク リソースの周囲に境界線を構築する、人間が作成したコードの脆弱性のスキャンなど、過去の一般的なサイバーセキュリティ防御手法を防ぎます。パンドラの箱が開くずっと前に AI の安全性を確保できるように、テクノロジーの初期段階でセキュアな AI 設計を要件にする必要があります。

では、この問題をどのように解決すればよいでしょうか?私たちは学問の世界から一ページを取り上げるべきです。私たちは、高度に厳選されたトレーニング データを使用して生徒をトレーニングし、教師業界を通じて解釈され、生徒に伝えられます。私たちは成人を教えるためにこのアプローチを続けていますが、成人は自分自身でより多くのデータキュレーションを行うことが期待されています。

AI モデルのトレーニングでは、2 段階の厳選されたデータ アプローチを採用する必要があります。まず、ベースの AI モデルは、あまり厳選されていない大量のデータセットを使用する現在の方法論を使用してトレーニングされます。これらの基本的な大規模言語モデル (LLM) は、新生児にほぼ似ています。その後、基本レベルのモデルは、子供が大人になるまで教育され育てられる方法と同様に、高度に厳選されたデータセットを使用してトレーニングされます。

あらゆる種類の目標に向けて、厳選された大規模なトレーニング データ セットを構築する労力は少なくありません。これは、子どもたちが(できれば)社会​​に対して機能的で付加価値のある貢献者に成長するために、親、学校、社会が子どもたちに質の高い環境と質の高い情報を提供するために注ぐあらゆる努力に似ています。これは、高品質で適切に機能し、破損が最小限に抑えられた AI モデルをトレーニングするための高品質のデータセットを構築するために必要な労力のレベルであり、AI 業界全体と人間が協力して AI モデルに目的の仕事をうまく行えるように教えることになる可能性があります。 。

今日の AI トレーニング プロセスの状態は、この 2 段階のプロセスの兆候を示しています。しかし、GenAI テクノロジーと業界は初期段階にあるため、トレーニングが多すぎると、あまり精選されていない第 1 段階のアプローチが採用されます。

AI のセキュリティに関しては、23 年どころか XNUMX 時間も待つ余裕はありません。 AI には、「アルゴリズムの系譜」の完全なレビューを可能にする XNUMXandMe アプリケーションが必要です。これにより、開発者は AI の「ファミリー」の歴史を完全に理解して、慢性的な問題の再現、私たちが毎日依存している重要なシステムの感染、経済的および社会的損害の発生を防ぐことができます。それは取り返しのつかないことになるかもしれない。

私たちの国家安全保障はそれにかかっています。

スポット画像

最新のインテリジェンス

スポット画像