- WindowsでもOllamaをネイティブ環境で実行できるようになり、ローカルの大規模言語モデルを取得して実行・生成する流れが簡単になる
- Windows向けOllamaは、内蔵GPUアクセラレーション、全モデルライブラリへのアクセス、OpenAI互換のOllama APIをあわせて提供する
- モデル実行にはNVIDIA GPUとAVX、AVX2のような最新CPU命令セットを活用し、別途設定や仮想化は不要
- 全モデルライブラリとビジョンモデルをWindowsで利用でき、LLaVA 1.6では画像を
ollama runにドラッグ&ドロップしてメッセージに追加できる
- バックグラウンドで実行されるOllama APIにより、既存のOpenAI向けツールをローカルモデルと接続して使える
Windowsプレビューの提供
- OllamaがWindowsプレビューとして提供され、Windowsで大規模言語モデルを取得、実行、生成できる
- Windows向けOllamaは主要機能をまとめて含む
ハードウェアアクセラレーションと実行方式
- モデル実行時にNVIDIA GPUを使って高速化する
- 利用可能な場合は、AVX、AVX2のような最新のCPU命令セットも活用する
- 別途設定や仮想化なしに、Windows環境でそのまま利用できる
全モデルライブラリとビジョンモデル
バックグラウンドで動作するOllama API
- Ollama APIはバックグラウンドで自動実行され、
http://localhost:11434で提供される
- ツールやアプリケーションは追加設定なしでこのAPIに接続できる
- PowerShellからOllama APIを呼び出す例は次のとおり
(Invoke-WebRequest -method POST -Body '{"model":"llama2", "prompt":"Why is the sky blue?", "stream": false}' -uri http://localhost:11434/api/generate ).Content | ConvertFrom-json
- Windows向けOllamaも他のプラットフォームと同じOpenAI互換性をサポートする
- 既存のOpenAI向けツールを、Ollama経由のローカルモデルと一緒に利用できる
インストールとフィードバック
- Windows Previewを始めるには、OllamaSetup.exeをダウンロードする
- インストーラー
OllamaSetup.exeをダブルクリックしてインストールする
- インストール後、ターミナルを開き、次のコマンドでモデルを実行する
ollama run llama2
1件のコメント
Hacker News のコメント
デスクトップで Open-WebUI をフロントエンドとして組み合わせて使っている
Mistral のファインチューニング済みモデルを12個ほどと、ほかのモデルをいくつか集めてあり、チャットや情報抽出の作業には十分使える
Open-WebUI アプリは ChatGPT にかなり似た見た目で、会話の検索もできる
https://github.com/open-webui/open-webui
Ollama 用のフロントエンドとしてかなりしっかりしていると保証できる。本当によく動くし、開発スピードも驚くほど速い
数週間ごとに最新の Docker イメージを取得してみると、いつもどれだけ改善されているかに驚かされる
[0] https://github.com/open-webui/open-webui/discussions/764
いつものことながら AMD GPU サポートの話はない
今回 AMD を買ったことを後悔するほど残念な状況
まだ ROADMAP.md のような場所で適切に公開できていないのは残念で、近いうちにそうする予定
プロジェクトのメンテナー数人は ATI Technologies の元々の故郷であるトロント地域出身なので、個人的にも Ollama が AMD GPU でうまく動いてほしいと思っている :)
AMD サポート作業に使っているテストマシンの1台は Radeon RX 7900XT を使用していて、かなり速い。ハイエンドの GeForce 40 シリーズ GPU と十分比較できる
[1]: https://en.wikipedia.org/wiki/ATI_Technologies
Nvidia にすぐ追いつくだろうと期待して高性能な AMD カードを高い値段で買ったが、実際にはまったくそうならず、AMD が必要なリソースを投入しなかったせいだと思っている
AMD は変われるが、今すぐ始める必要がある
テック業界で見た中でも最悪の自傷行為の一つ
Windows では tinyBLAS ライブラリのおかげで、グラフィックドライバーさえあればよい
https://github.com/Mozilla-Ocho/llamafile/releases/tag/0.6.2
デフォルトではチャット GUI のあるブラウザタブを開き、以下のように Ollama のようなコマンドラインチャットボットとしても実行できる
https://justine.lol/oneliners/#chat
Vulkan サポート付きでコンパイルした llama.cpp を自分のアプリ [1] と組み合わせて AMD ノートPCで実行することには成功したが、Ollama はマシンで利用可能な GPU を探す方法についていくつか前提を置いているため、動かすことはできなかった
[1]: https://msty.app
Ollama 上で使う良いチャット UIを探していて、オンラインモデルとローカルモデルの両方をサポートしてほしいなら、自分が作っているアプリ [1] がある
オフラインとプライバシー保護に重点を置いていて、今朝 Windows サポートをリリースした
[1]: https://msty.app
こうした「ローカルで実行する」AI移植版が、なぜこれほど多く サーバーとして実行 されるのか、その根拠が気になる
開発者たちは UI プロセス内でコードを実行できるという事実を忘れてしまったのだろうか?
Stable Diffusion のランチャーや LLM ホストでも同じパターンを見た
どうしても必要でないならローカルでバックグラウンドサービスを動かしたくないのに、なぜこういう実装はどれもそう動くように見えるのだろう?
良い例えはデータベースエンジンかもしれない。SQLite はライブラリで、Postgres は長時間実行されるサービスだが、どちらも広く使われていて、それぞれにトレードオフがある
それに、大きな要因だと思うのは、マシン、環境、OS をモデルが効率よく動ける状態にするのが簡単ではないこと
この複雑さをコンテナ、つまり「サーバー」の中に入れると、初期設定や継続的な改善・更新についていくのに大いに役立つ
その代わり、長時間実行されるプロセスが複数の予測リクエストを処理する構成が正しい
近いうちに複数のクライアントにも提供するようになる可能性が高い
強力なノート PC やワークステーションは持っていないが、マルチ GPU のヘッドレスサーバーはある
こうしたプロジェクトのおかげでサーバー上で LLM を試し、API と Web UI を内部ネットワークに公開できる
なので Open-WebUI は chat.domain.example に、Ollama は api.chat.domain.example に立てている。どちらもローカルネットワーク内からだけアクセス可能
この構成だと、ノート PC とスマートフォンでは Web UI 経由で最大速度のローカルモデルを使え、実験用の音声アシスタントを動かしている Raspberry Pi は API エンドポイント経由で Ollama に問い合わせられる
ゲーミング GPU のおかげで、すべて最大速度で動作する。Stable Diffusion の構成にも同じ理屈が当てはまる
Windows ユーザーが Ollama を使えていなかったとは知らなかった
ほんの数年前までは、待たされる側は Mac ユーザーだったように思うのに
ただ、ほとんどの人にとってそれほど便利ではなかっただけで、ネイティブ Windows 対応は願ってもない追加だ
結局 x86 Linux なので、すべてが普通にうまく動く
クローズドソースの LM Studio(https://lmstudio.ai) が Ollama と比べてどうなのか気になる
嫌な点は、Windows で重みを /users/username/.cache 配下の独自ディレクトリ構造に入れて数十 GB を占有するのに、それを知らせもせず、他のクライアントと共有させてもくれないこと
自分でダウンロードしたモデルを取り込ませてくれず、検索機能はひどく、インスタンス設定の扱い方も気に入らない
すでに Linux と Mac では利用可能に見える
今回の変更は Windows の追加: https://github.com/ollama/ollama
ちょうどこうした要件のものを自分でインストールして少し触ってみようとしていたところに、この記事が出た
試してみると、本当に簡単でよく動くのが面白い
ただ、インストーラーにインストール先を選ぶオプションがまたないのは問題に見える。サーバーに複数のユーザーがいると、全体に 1 つインストールされるのではなく、各自が個別のコピーを持つことになる
文章作成用の 文法/誤字チェックのワークフロー を作るつもりで Ollama を動かしている
Ollama 自体に直接関係するわけではなく、今のところ Ollama はうまく動いている
こういう質問をするのに適した場所はあるだろうか? LLM 向けの Stack Overflow のような場所が気になる
新しい Mac Mini で llama2 モデルをインストールして実行してみたら、完全な カーネルパニック が起きた。これは何なんだ?
llama2 のどのバージョンを選び、ユニファイドメモリはどれくらいある?