ゼファーネットのロゴ

10 分以内に PC 上で LLM をローカルに実行する方法

日付:

ハンズオン 大規模な機械学習トレーニング クラスターや AI PC についての話題が多いため、自宅でテキストとコードを生成する大規模言語モデル (LLM) を操作するには、ある種の特別なハードウェアが必要だと考えるのも無理はありません。

実際には、これを読んでいるデスクトップ システムは、 有能以上の Mistral のようなチャット ボットや Codellama のようなソース コード ジェネレーターを含む、幅広い LLM を実行できます。

実際、Ollama、LM Suite、Llama.cpp などのオープンに利用可能なツールを使用すると、これらのモデルをシステム上で実行するのは比較的簡単です。

シンプルさとクロスプラットフォーム互換性を考慮して、次のことを検討します。 オラマ、一度インストールすると、Windows、Linux、Mac でほぼ同じように動作します。

パフォーマンス、互換性、AMD GPU サポートについて一言:

一般に、Mistral や Llama 2 などの大規模な言語モデルは、専用のアクセラレータを使用した場合に最適に実行されます。必要なリソースはほんの一部であるにもかかわらず、データセンター事業者が GPU を購入して 10,000 以上のクラスターに導入しているのには理由があります。

Ollama は、Nvidia および Apple の M シリーズ GPU のネイティブ サポートを提供します。少なくとも 4GB のメモリを搭載した Nvidia GPU が動作するはずです。 12GB RTX 3060 でテストしましたが、M シリーズ Mac には少なくとも 16GB のメモリを推奨します。

Linux ユーザーは、Nvidia の最新の独自ドライバーと、おそらく CUDA バイナリを最初にインストールする必要があるでしょう。その設定に関する詳細情報があります こちら.

Radeon 7000 シリーズ以降の GPU を使用している場合は、システム上で LLM を実行するための完全なガイドが AMD から提供されています。 こちら.

幸いなことに、サポートされているグラフィック カードがない場合でも、Ollama は AVX2 互換 CPU 上で動作しますが、サポートされている GPU を使用している場合よりもはるかに遅くなります。また、16 GB のメモリが推奨されていますが、量子化モデルを選択することでメモリを少なくできる場合があります。これについては後ほど詳しく説明します。

オラマのインストール

Ollama のインストールは、ベースのオペレーティング システムに関係なく、非常に簡単です。オープンソースなのでチェックしてみてください こちら.

Windows または Mac OS を実行している場合は、次のページに進んでください。 オラマ.com 他のアプリケーションと同様にダウンロードしてインストールします。

Linux を実行している場合は、さらに簡単です。この 1 つのライナーを実行するだけです。手動のインストール手順が見つかります。 こちら必要であれば、レースに出かけましょう。

カール -fsSL https://ollama.com/install.sh |しー

最初のモデルをインストールする

オペレーティング システムに関係なく、Ollama での作業はほぼ同じです。オラマは、以下から始めることをお勧めします ラマ2 7B、70 億パラメータのトランスフォーマーベースのニューラル ネットワークですが、このガイドでは次のことを見ていきます。 ミストラル 7B それは非常に有能であり、いくつかのソースでもあるため、 論争 ここ数週間インチ

まず、PowerShell またはターミナル エミュレーターを開いて次のコマンドを実行し、対話型チャット モードでモデルをダウンロードして開始します。

オラマ・ラン・ミストラル

ダウンロードすると、ChatGPT、Copilot、Google Gemini と同様に、モデルの操作を開始できるチャット プロンプトが表示されます。

Mistral 7B などの LLM は、この 2 年前の M1 Max MacBook Pro で驚くほどうまく動作します

Mistral 7B のような LLM は、この 2 年前の M1 Max MacBook Pro で驚くほどうまく動作します – クリックして拡大

何も表示されない場合は、まず Windows のスタート メニューまたは Mac のアプリケーション フォルダーから Ollama を起動する必要がある場合があります。

モデル、タグ、量子化

Mistal 7B は、モデルの他のバージョンを含む、Ollama を使用してアクセスできるいくつかの LLM の XNUMX つにすぎません。完全なリストとそれぞれの実行手順を確認できます。 こちらですが、一般的な構文は次のようになります。

ollam run モデル名:モデルタグ

モデルタグは、ダウンロードするモデルのバージョンを指定するために使用されます。これをオフのままにすると、Ollama は最新バージョンが必要であるとみなします。私たちの経験では、これはモデルの 4 ビット量子化バージョンになる傾向があります。

たとえば、FP2 で Meta の Llama7 16B を実行したい場合は、次のようになります。

オラマ 実行 llama2:7b-chat-fp16

ただし、それを試す前に、システムに十分なメモリがあることを再確認してください。 Mistral を使用した前の例では 4 ビット量子化を使用しました。これは、モデルが 1 億のパラメーターごとに XNUMX ギガバイトのメモリを必要とすることを意味します。そして忘れないでください。これには XNUMX 億のパラメータがあります。

量子化は、モデルの重みとアクティベーションをより低い精度に変換することでモデルを圧縮するために使用される手法です。これにより、Mistral 7B は 4GB の GPU またはシステム RAM 内で実行でき、通常は出力品質の犠牲を最小限に抑えられますが、使用量は異なる場合があります。

上記で使用した Llama 2 7B の例は、半精度 (FP16) で実行されます。その結果、実際には 2 億パラメータごとに 14GB のメモリが必要となり、この場合は 16GB をわずかに超えることになります。 XNUMX GB 以上の vRAM を備えた新しい GPU がない限り、その精度でモデルを実行するのに十分なリソースがない可能性があります。

オラマの管理

Ollama を使用したインストール済みモデルの管理、更新、削除は、これまでに Docker CLI などを使用したことのある人にとっては馴染みやすいはずです。

このセクションでは、実行する必要がある一般的なタスクをいくつか説明します。

インストールされているモデルのリストを取得するには、次のコマンドを実行します。

オラマリスト

モデルを削除するには、次を実行します。

オラマ rm モデル名:モデルタグ

既存のモデルをプルまたは更新するには、次を実行します。

オラマ プル モデル名:モデルタグ

追加の Ollama コマンドは、次のコマンドを実行すると見つかります。

オラマ --ヘルプ

前に述べたように、Ollama は、ローカル LLM を実行およびテストするための多くのフレームワークの 1 つにすぎません。この問題でトラブルに遭遇した場合、他の問題でさらに幸運が訪れるかもしれません。いいえ、AI がこれを書いたわけではありません。

登録 は、近い将来、LLM の活用についてさらに詳しくお届けすることを目指しています。そのため、AI PC に関する熱い質問をコメント セクションで共有してください。そして忘れないでください サプライチェーンのセキュリティ。 ®

スポット画像

最新のインテリジェンス

スポット画像