Lemonade by AMD: GPUとNPUを活用した高速なオープンソースのローカルLLMサーバー
(lemonade-server.ai)- AMD対応のローカルAIサーバーで、GPUとNPUを活用してテキスト・画像・音声を高速に処理するオープンソースプラットフォーム
- ローカル実行とプライバシー保護を重視し、OpenAI API標準と互換性があるため、さまざまなアプリとすぐに連携可能
- C++ベースの軽量バックエンド、自動ハードウェア設定、マルチモデル同時実行により、実用的なローカルAI環境を提供
- Chat, Vision, Image Generation, Transcription, Speech Generationを1つの統合APIでサポート
- Windows, Linux, macOS(beta) で同一の環境を提供し、内蔵GUIでモデルのダウンロードと切り替えが簡単
主な特徴
-
オープンソースおよびローカル中心の設計
- ローカルAIは自由で、オープンで、高速で、パーソナルであるべきだという理念に基づいて開発
- ローカルAIコミュニティが主導して構築しており、あらゆるPCで実行可能
- プライバシー保護と独立した実行環境を重視
-
迅速なインストールと軽量構造
- One Minute Installでスタック全体を自動設定
- C++ネイティブバックエンドは約2MBサイズの軽量サービス
- 自動ハードウェア設定機能により、GPUとNPU環境を自動構成
-
幅広い互換性
- OpenAI API互換性により、数百のアプリと即座に連携
- llama.cpp, Ryzen AI SW, FastFlowLM など多様な推論エンジンをサポート
- マルチモデル同時実行が可能で、複数モデルを並列動作可能
-
統合APIの提供
- 1つのローカルサービスでChat、Vision、Image Generation、Transcription、Speech Generationをすべてサポート
- 標準REST API形式で提供され、例として
POST /api/v1/chat/completionsエンドポイントから対話モデルを呼び出し可能 - 例のリクエストでは
"model": "Qwen3-0.6B-GGUF"を使用してパリの人口を問い合わせ
-
ユーザーインターフェースとエコシステム
- 内蔵GUIアプリでモデルのダウンロード、テスト、切り替えを素早く実行
- OpenAI API標準ベースのため、さまざまなアプリと即座に互換
- コミュニティ参加を通じた継続的な改善と機能拡張
技術仕様と使用例
-
ハードウェアと性能
- 128GB統合RAM環境では、gpt-oss-120b、Qwen-Coder-Next などの大規模モデルを実行可能
--no-mmapオプションでロード時間の短縮と**コンテキストサイズの拡張(64以上)**が可能
-
画像および音声機能
- 画像生成の例: 「ルネサンス風のレモネードピッチャー」
- 音声の例: “Hello, I am your AI assistant. What can I do for you today?”
最新リリース
- Lemonade は継続的に改善されており、最新機能と性能向上がリリースストリームを通じて提供される
- 新機能とハイライトは公式サイトで確認可能
1件のコメント
Hacker Newsのコメント
ほぼ1年にわたって Lemonade を使っている。Strix Haloでは他のツールなしでこれだけを使っている。kyuz0の AMD Strix Halo Toolboxes も悪くないが、LemonadeはTTS、STT、テキスト・画像生成、画像編集まで可能。ROCm、Vulkan、CPU、GPU、NPUなど多様なバックエンドをサポートしており、開発スピードも 実用的で速い。AMDハードウェアなら強く勧めたい。
OpenAIおよびOllama互換エンドポイントのおかげで、VSCode CopilotやOpen Web UIでもすぐ使える
7900 XTXでローカルLLMを数か月動かしているが、ROCmの体験はかなり荒削りだった。AMDが公式の推論サーバーを出して、ドライバや依存関係の問題を解決してくれるのは大きな前進だ。ただ、NPUサポートが実際に意味のあるスループットを出せるのかは気になる。自分のテストでは小さいモデル以外ではボトルネックだった
名前が「Lemonade」なのは、もしかして レモンを最大限活用する という意味なのか気になる
LemonadeはOllamaとLM Studioの中間あたりに位置する感じだ。単純なモデルサービングではなく 統合ランタイム に焦点を当てている点が興味深い。テキスト、画像、音声など複数のモダリティをまとめて扱う オーケストレーション が中核だ。実際には抽象化なのか、複数ツールを束ねたものなのか気になる。AMD/NPU最適化がかえって 移植性 を下げるのではないかという疑問もある
自分はNAS上でHome Assistantと一緒に動かしている。Strix Haloとは別に、CUDAカードのサーバーも管理している
Lemonadeが使うNPUモデルやカーネルが 非公開 なのは残念だ。オープンなサポートがもっと増えるといい
Lemonadeの本当の強みは マルチモーダル統合 だ。テキスト生成、画像生成、音声認識など、それぞれ別のAPIやモデル管理が必要な3つのサービスを1つのサーバーでOpenAI互換エンドポイントとして処理できる。プロトタイピング時の 品質向上 は大きい。
NPUは小型の常時稼働モデルや prefill のオフロードには有用だが、一般的なチャットボットでは過大評価されている面がある。
AMDがGPU+NPUスケジューリングを透過的にして、開発者がハードウェアを意識しなくて済むようになれば、デフォルトの選択肢 になる可能性が高い
Strix HaloでLemonadeを動かしている。diffusion、llama など複数のバックエンドを含んでいるが、自分は llama.cpp ROCmビルド(リンク)だけを使っている。画像やオーディオは扱わない。GPT OSS 120Bで、毎秒約50トークンの速度だ。NPUは低消費電力の常時稼働モデル向けなので、一般的なチャットボットでは大きな利点はない
ウェブサイトとニュース告知を読んだが、Lemonadeが正確に何なのか分かりづらい。LM Studioの代替なのか、MacのMLXやMetalをサポートするのかも気になる。AMD最適化が中心なら、他のGPUでは 不利なのか 知りたい
Linux向けサーバーのインストールガイドにDocker/Podmanオプションがないのは意外だ。Snap/PPA、RPMしかない。おそらくコンテナ利用者は自分でビルドしろという意味かもしれない
Ollamaと比較した人がいるか気になる。自分はROCm 7.4で9070 XTを使ってOllamaを問題なく使っている