10 分以内に PC 上で LLM をローカルに実行する方法

ハンズオン大規模な機械学習トレーニングクラスターや AI PC についての話題が多いため、自宅でテキストとコードを生成する大規模言語モデル (LLM) を操作するには、ある種の特別なハードウェアが必要だと考えるのも無理はありません。

実際には、これを読んでいるデスクトップシステムは、有能以上の Mistral のようなチャットボットや Codellama のようなソースコードジェネレーターを含む、幅広い LLM を実行できます。

実際、Ollama、LM Suite、Llama.cpp などのオープンに利用可能なツールを使用すると、これらのモデルをシステム上で実行するのは比較的簡単です。

シンプルさとクロスプラットフォーム互換性を考慮して、次のことを検討します。オラマ、一度インストールすると、Windows、Linux、Mac でほぼ同じように動作します。

パフォーマンス、互換性、AMD GPU サポートについて一言:

一般に、Mistral や Llama 2 などの大規模な言語モデルは、専用のアクセラレータを使用した場合に最適に実行されます。必要なリソースはほんの一部であるにもかかわらず、データセンター事業者が GPU を購入して 10,000 以上のクラスターに導入しているのには理由があります。

Ollama は、Nvidia および Apple の M シリーズ GPU のネイティブサポートを提供します。少なくとも 4GB のメモリを搭載した Nvidia GPU が動作するはずです。 12GB RTX 3060 でテストしましたが、M シリーズ Mac には少なくとも 16GB のメモリを推奨します。

Linux ユーザーは、Nvidia の最新の独自ドライバーと、おそらく CUDA バイナリを最初にインストールする必要があるでしょう。その設定に関する詳細情報がありますこちら.

Radeon 7000 シリーズ以降の GPU を使用している場合は、システム上で LLM を実行するための完全なガイドが AMD から提供されています。こちら.

幸いなことに、サポートされているグラフィックカードがない場合でも、Ollama は AVX2 互換 CPU 上で動作しますが、サポートされている GPU を使用している場合よりもはるかに遅くなります。また、16 GB のメモリが推奨されていますが、量子化モデルを選択することでメモリを少なくできる場合があります。これについては後ほど詳しく説明します。

オラマのインストール

Ollama のインストールは、ベースのオペレーティングシステムに関係なく、非常に簡単です。オープンソースなのでチェックしてみてくださいこちら.

Windows または Mac OS を実行している場合は、次のページに進んでください。オラマ.com 他のアプリケーションと同様にダウンロードしてインストールします。

Linux を実行している場合は、さらに簡単です。この 1 つのライナーを実行するだけです。手動のインストール手順が見つかります。こちら必要であれば、レースに出かけましょう。

カール -fsSL https://ollama.com/install.sh |しー

最初のモデルをインストールする

オペレーティングシステムに関係なく、Ollama での作業はほぼ同じです。オラマは、以下から始めることをお勧めしますラマ2 7B、70 億パラメータのトランスフォーマーベースのニューラルネットワークですが、このガイドでは次のことを見ていきます。ミストラル 7B それは非常に有能であり、いくつかのソースでもあるため、論争ここ数週間インチ

まず、PowerShell またはターミナルエミュレーターを開いて次のコマンドを実行し、対話型チャットモードでモデルをダウンロードして開始します。

オラマ・ラン・ミストラル

ダウンロードすると、ChatGPT、Copilot、Google Gemini と同様に、モデルの操作を開始できるチャットプロンプトが表示されます。

Mistral 7B などの LLM は、この 2 年前の M1 Max MacBook Pro で驚くほどうまく動作します

Mistral 7B のような LLM は、この 2 年前の M1 Max MacBook Pro で驚くほどうまく動作します – クリックして拡大

何も表示されない場合は、まず Windows のスタートメニューまたは Mac のアプリケーションフォルダーから Ollama を起動する必要がある場合があります。

モデル、タグ、量子化

Mistal 7B は、モデルの他のバージョンを含む、Ollama を使用してアクセスできるいくつかの LLM の XNUMX つにすぎません。完全なリストとそれぞれの実行手順を確認できます。こちらですが、一般的な構文は次のようになります。

ollam run モデル名:モデルタグ

モデルタグは、ダウンロードするモデルのバージョンを指定するために使用されます。これをオフのままにすると、Ollama は最新バージョンが必要であるとみなします。私たちの経験では、これはモデルの 4 ビット量子化バージョンになる傾向があります。

たとえば、FP2 で Meta の Llama7 16B を実行したい場合は、次のようになります。

オラマ 実行 llama2:7b-chat-fp16

ただし、それを試す前に、システムに十分なメモリがあることを再確認してください。 Mistral を使用した前の例では 4 ビット量子化を使用しました。これは、モデルが 1 億のパラメーターごとに XNUMX ギガバイトのメモリを必要とすることを意味します。そして忘れないでください。これには XNUMX 億のパラメータがあります。

量子化は、モデルの重みとアクティベーションをより低い精度に変換することでモデルを圧縮するために使用される手法です。これにより、Mistral 7B は 4GB の GPU またはシステム RAM 内で実行でき、通常は出力品質の犠牲を最小限に抑えられますが、使用量は異なる場合があります。

上記で使用した Llama 2 7B の例は、半精度 (FP16) で実行されます。その結果、実際には 2 億パラメータごとに 14GB のメモリが必要となり、この場合は 16GB をわずかに超えることになります。 XNUMX GB 以上の vRAM を備えた新しい GPU がない限り、その精度でモデルを実行するのに十分なリソースがない可能性があります。

オラマの管理

Ollama を使用したインストール済みモデルの管理、更新、削除は、これまでに Docker CLI などを使用したことのある人にとっては馴染みやすいはずです。

このセクションでは、実行する必要がある一般的なタスクをいくつか説明します。

インストールされているモデルのリストを取得するには、次のコマンドを実行します。

オラマリスト

モデルを削除するには、次を実行します。

オラマ rm モデル名:モデルタグ

既存のモデルをプルまたは更新するには、次を実行します。

オラマ プル モデル名:モデルタグ

追加の Ollama コマンドは、次のコマンドを実行すると見つかります。

オラマ --ヘルプ

前に述べたように、Ollama は、ローカル LLM を実行およびテストするための多くのフレームワークの 1 つにすぎません。この問題でトラブルに遭遇した場合、他の問題でさらに幸運が訪れるかもしれません。いいえ、AI がこれを書いたわけではありません。

登録は、近い将来、LLM の活用についてさらに詳しくお届けすることを目指しています。そのため、AI PC に関する熱い質問をコメントセクションで共有してください。そして忘れないでくださいサプライチェーンのセキュリティ。 ®

SEO を活用したコンテンツと PR 配信。今日増幅されます。
PlatoData.Network 垂直生成 Ai。自分自身に力を与えましょう。こちらからアクセスしてください。
プラトアイストリーム。 Web3 インテリジェンス。知識増幅。こちらからアクセスしてください。
プラトンESG。カーボン、クリーンテック、エネルギー、環境、太陽、廃棄物管理。こちらからアクセスしてください。
プラトンヘルス。バイオテクノロジーと臨床試験のインテリジェンス。こちらからアクセスしてください。
情報源： https://go.theregister.com/feed/www.theregister.com/2024/03/17/ai_pc_local_llm/

生成的データインテリジェンス

10 分以内に PC 上で LLM をローカルに実行する方法

オラマのインストール

最初のモデルをインストールする

モデル、タグ、量子化

オラマの管理

2024 年の利益の最大化: ValueZone.AI の包括的な考察

英国国防長官、イタリアのウクライナへのストームシャドウミサイル供給を明らかに

最新のインテリジェンス

ライブ中継：SpaceX、ケープカナベラルからのFalcon 23便で9基のStarlink衛星を打ち上げる

アイランダーズが第5戦に勝つための3つの鍵

レイカーズがデンバーに対して悲願の勝利を収め、シリーズでは3勝1敗となった

Falcon 9がGalileoナビゲーション衛星を打ち上げる

元サーブエンジニアが設計したNEVSエミリーGTはイタリアで製造される可能性 – Autoblog

ドージコインとペペコインの愛好家が Wahoo 交換プラットフォームによって発売された新しい AI トークンを支持して結集 – CryptoInfoNet