2 ポイント 投稿者 GN⁺ 2024-02-18 | 1件のコメント | WhatsAppで共有
  • WindowsでもOllamaをネイティブ環境で実行できるようになり、ローカルの大規模言語モデルを取得して実行・生成する流れが簡単になる
  • Windows向けOllamaは、内蔵GPUアクセラレーション、全モデルライブラリへのアクセス、OpenAI互換のOllama APIをあわせて提供する
  • モデル実行にはNVIDIA GPUとAVX、AVX2のような最新CPU命令セットを活用し、別途設定や仮想化は不要
  • 全モデルライブラリとビジョンモデルをWindowsで利用でき、LLaVA 1.6では画像をollama runにドラッグ&ドロップしてメッセージに追加できる
  • バックグラウンドで実行されるOllama APIにより、既存のOpenAI向けツールをローカルモデルと接続して使える

Windowsプレビューの提供

ハードウェアアクセラレーションと実行方式

  • モデル実行時にNVIDIA GPUを使って高速化する
  • 利用可能な場合は、AVX、AVX2のような最新のCPU命令セットも活用する
  • 別途設定や仮想化なしに、Windows環境でそのまま利用できる

全モデルライブラリとビジョンモデル

バックグラウンドで動作するOllama API

  • Ollama APIはバックグラウンドで自動実行され、http://localhost:11434で提供される
  • ツールやアプリケーションは追加設定なしでこのAPIに接続できる
  • PowerShellからOllama APIを呼び出す例は次のとおり
(Invoke-WebRequest -method POST -Body '{"model":"llama2", "prompt":"Why is the sky blue?", "stream": false}' -uri http://localhost:11434/api/generate ).Content | ConvertFrom-json
  • Windows向けOllamaも他のプラットフォームと同じOpenAI互換性をサポートする
  • 既存のOpenAI向けツールを、Ollama経由のローカルモデルと一緒に利用できる

インストールとフィードバック

  • Windows Previewを始めるには、OllamaSetup.exeをダウンロードする
  • インストーラーOllamaSetup.exeをダブルクリックしてインストールする
  • インストール後、ターミナルを開き、次のコマンドでモデルを実行する
ollama run llama2
  • 新しいリリースが提供されると、Ollamaがアップデートを案内する
  • 問題がある場合は、GitHub Issueを開くか、Discordサーバーに参加してフィードバックを送れる

1件のコメント

 
GN⁺ 2024-02-18
Hacker News のコメント
  • デスクトップで Open-WebUI をフロントエンドとして組み合わせて使っている
    Mistral のファインチューニング済みモデルを12個ほどと、ほかのモデルをいくつか集めてあり、チャットや情報抽出の作業には十分使える
    Open-WebUI アプリは ChatGPT にかなり似た見た目で、会話の検索もできる
    https://github.com/open-webui/open-webui

    • 数時間前の発表を見逃した人向けに言うと、open-webui は以前 ollama-webui と呼ばれていたプロジェクトのリブランディング
      Ollama 用のフロントエンドとしてかなりしっかりしていると保証できる。本当によく動くし、開発スピードも驚くほど速い
      数週間ごとに最新の Docker イメージを取得してみると、いつもどれだけ改善されているかに驚かされる
      [0] https://github.com/open-webui/open-webui/discussions/764
    • 気になるのだけど、そのファインチューニング済みモデルは何に使っているの? 自分のデータでファインチューニングしたものなのか、それともタスクごとに公開モデルを選んで使っているのか知りたい
    • ターミナルで使える似たようなツールもある?
  • いつものことながら AMD GPU サポートの話はない
    今回 AMD を買ったことを後悔するほど残念な状況

    • AMD GPU サポートは間違いなくプロジェクトのロードマップ上で重要な部分
      まだ ROADMAP.md のような場所で適切に公開できていないのは残念で、近いうちにそうする予定
      プロジェクトのメンテナー数人は ATI Technologies の元々の故郷であるトロント地域出身なので、個人的にも Ollama が AMD GPU でうまく動いてほしいと思っている :)
      AMD サポート作業に使っているテストマシンの1台は Radeon RX 7900XT を使用していて、かなり速い。ハイエンドの GeForce 40 シリーズ GPU と十分比較できる
      [1]: https://en.wikipedia.org/wiki/ATI_Technologies
    • 自分も同じ。長年の Linux ユーザーとして、Nvidia に味わわされた苦痛のせいで Nvidia が大嫌いなので、AMD に成功してほしいと本当に願っていた
      Nvidia にすぐ追いつくだろうと期待して高性能な AMD カードを高い値段で買ったが、実際にはまったくそうならず、AMD が必要なリソースを投入しなかったせいだと思っている
      AMD は変われるが、今すぐ始める必要がある
    • AMD はこの新しい流行である GPU コンピューティングはいずれ過ぎ去ると信じていて、投資する必要はないと見ているようだ
      テック業界で見た中でも最悪の自傷行為の一つ
    • llamafile は AMD GPU をサポートしている
      Windows では tinyBLAS ライブラリのおかげで、グラフィックドライバーさえあればよい
      https://github.com/Mozilla-Ocho/llamafile/releases/tag/0.6.2
      デフォルトではチャット GUI のあるブラウザタブを開き、以下のように Ollama のようなコマンドラインチャットボットとしても実行できる
      https://justine.lol/oneliners/#chat
    • 他の人たちが言っているように、Ollama は内部で Llama.CPP を使っており、Llama.CPP は最近 AMD GPU でも動作するはずの Vulkan サポートをリリースした
      Vulkan サポート付きでコンパイルした llama.cpp を自分のアプリ [1] と組み合わせて AMD ノートPCで実行することには成功したが、Ollama はマシンで利用可能な GPU を探す方法についていくつか前提を置いているため、動かすことはできなかった
      [1]: https://msty.app
  • Ollama 上で使う良いチャット UIを探していて、オンラインモデルとローカルモデルの両方をサポートしてほしいなら、自分が作っているアプリ [1] がある
    オフラインとプライバシー保護に重点を置いていて、今朝 Windows サポートをリリースした
    [1]: https://msty.app

    • ちなみに Program:Win32/Wacapew.C!ml の検出が出る
    • 話題からそれるけど、ランディングページは何で作ったの?
    • これは LLM Studio に似ている?
    • Linux クライアントの予定もある?
    • Gemini API も追加する予定?
  • こうした「ローカルで実行する」AI移植版が、なぜこれほど多く サーバーとして実行 されるのか、その根拠が気になる
    開発者たちは UI プロセス内でコードを実行できるという事実を忘れてしまったのだろうか?
    Stable Diffusion のランチャーや LLM ホストでも同じパターンを見た
    どうしても必要でないならローカルでバックグラウンドサービスを動かしたくないのに、なぜこういう実装はどれもそう動くように見えるのだろう?

    • 本当に興味深い質問だと思う。どちらの配布モデルもあり得ると思う
      良い例えはデータベースエンジンかもしれない。SQLite はライブラリで、Postgres は長時間実行されるサービスだが、どちらも広く使われていて、それぞれにトレードオフがある
    • 他の人が言っている初期ロード時間に加えて、複数のアプリケーションで同じ 推論エンジン や同じ LLM をさまざまな用途に使いたい場合がある
      それに、大きな要因だと思うのは、マシン、環境、OS をモデルが効率よく動ける状態にするのが簡単ではないこと
      この複雑さをコンテナ、つまり「サーバー」の中に入れると、初期設定や継続的な改善・更新についていくのに大いに役立つ
    • 重みを毎回その場で読み込むのは筋が悪い。数ギガビット規模のメモリをずっと移動させる必要があるから
      その代わり、長時間実行されるプロセスが複数の予測リクエストを処理する構成が正しい
      近いうちに複数のクライアントにも提供するようになる可能性が高い
    • これは個人的には良い点だと思う
      強力なノート PC やワークステーションは持っていないが、マルチ GPU のヘッドレスサーバーはある
      こうしたプロジェクトのおかげでサーバー上で LLM を試し、API と Web UI を内部ネットワークに公開できる
    • 速度のために Ollama を大きな ゲーミング PC で動かしているが、家の中の別の場所でもモデルを使いたい
      なので Open-WebUI は chat.domain.example に、Ollama は api.chat.domain.example に立てている。どちらもローカルネットワーク内からだけアクセス可能
      この構成だと、ノート PC とスマートフォンでは Web UI 経由で最大速度のローカルモデルを使え、実験用の音声アシスタントを動かしている Raspberry Pi は API エンドポイント経由で Ollama に問い合わせられる
      ゲーミング GPU のおかげで、すべて最大速度で動作する。Stable Diffusion の構成にも同じ理屈が当てはまる
  • Windows ユーザーが Ollama を使えていなかったとは知らなかった
    ほんの数年前までは、待たされる側は Mac ユーザーだったように思うのに

    • 数か月前から WSL では完全な GPU サポート込みでうまく動いていた
      ただ、ほとんどの人にとってそれほど便利ではなかっただけで、ネイティブ Windows 対応は願ってもない追加だ
    • しばらく Windows WSL で Ollama を動かしてきた
      結局 x86 Linux なので、すべてが普通にうまく動く
  • クローズドソースの LM Studio(https://lmstudio.ai) が Ollama と比べてどうなのか気になる

    • 良い点は、設定が非常に簡単で、モデル/重みをワンクリックでダウンロードして読み込め、非常によく動くこと
      嫌な点は、Windows で重みを /users/username/.cache 配下の独自ディレクトリ構造に入れて数十 GB を占有するのに、それを知らせもせず、他のクライアントと共有させてもくれないこと
      自分でダウンロードしたモデルを取り込ませてくれず、検索機能はひどく、インスタンス設定の扱い方も気に入らない
  • すでに Linux と Mac では利用可能に見える
    今回の変更は Windows の追加: https://github.com/ollama/ollama

  • ちょうどこうした要件のものを自分でインストールして少し触ってみようとしていたところに、この記事が出た
    試してみると、本当に簡単でよく動くのが面白い
    ただ、インストーラーにインストール先を選ぶオプションがまたないのは問題に見える。サーバーに複数のユーザーがいると、全体に 1 つインストールされるのではなく、各自が個別のコピーを持つことになる

  • 文章作成用の 文法/誤字チェックのワークフロー を作るつもりで Ollama を動かしている
    Ollama 自体に直接関係するわけではなく、今のところ Ollama はうまく動いている
    こういう質問をするのに適した場所はあるだろうか? LLM 向けの Stack Overflow のような場所が気になる

  • 新しい Mac Mini で llama2 モデルをインストールして実行してみたら、完全な カーネルパニック が起きた。これは何なんだ?

    • 選んだモデルが利用可能な ユニファイドメモリ より大きいと、そういうことが起こり得る
      llama2 のどのバージョンを選び、ユニファイドメモリはどれくらいある?