Lemonade by AMD: GPUとNPUを活用した高速なオープンソースのローカルLLMサーバー

(lemonade-server.ai)

11 ポイント投稿者 GN⁺ 28 일 전 | 1件のコメント | WhatsAppで共有

AMD対応のローカルAIサーバーで、GPUとNPUを活用してテキスト・画像・音声を高速に処理するオープンソースプラットフォーム
ローカル実行とプライバシー保護を重視し、OpenAI API標準と互換性があるため、さまざまなアプリとすぐに連携可能
C++ベースの軽量バックエンド、自動ハードウェア設定、マルチモデル同時実行により、実用的なローカルAI環境を提供
Chat, Vision, Image Generation, Transcription, Speech Generationを1つの統合APIでサポート
Windows, Linux, macOS(beta) で同一の環境を提供し、内蔵GUIでモデルのダウンロードと切り替えが簡単

主な特徴

オープンソースおよびローカル中心の設計
- ローカルAIは自由で、オープンで、高速で、パーソナルであるべきだという理念に基づいて開発
- ローカルAIコミュニティが主導して構築しており、あらゆるPCで実行可能
- プライバシー保護と独立した実行環境を重視
迅速なインストールと軽量構造
- One Minute Installでスタック全体を自動設定
- C++ネイティブバックエンドは約2MBサイズの軽量サービス
- 自動ハードウェア設定機能により、GPUとNPU環境を自動構成
幅広い互換性
- OpenAI API互換性により、数百のアプリと即座に連携
- llama.cpp, Ryzen AI SW, FastFlowLM など多様な推論エンジンをサポート
- マルチモデル同時実行が可能で、複数モデルを並列動作可能
統合APIの提供
- 1つのローカルサービスでChat、Vision、Image Generation、Transcription、Speech Generationをすべてサポート
- 標準REST API形式で提供され、例として POST /api/v1/chat/completions エンドポイントから対話モデルを呼び出し可能
- 例のリクエストでは "model": "Qwen3-0.6B-GGUF" を使用してパリの人口を問い合わせ
ユーザーインターフェースとエコシステム
- 内蔵GUIアプリでモデルのダウンロード、テスト、切り替えを素早く実行
- OpenAI API標準ベースのため、さまざまなアプリと即座に互換
- コミュニティ参加を通じた継続的な改善と機能拡張

技術仕様と使用例

ハードウェアと性能
- 128GB統合RAM環境では、gpt-oss-120b、Qwen-Coder-Next などの大規模モデルを実行可能
- --no-mmap オプションでロード時間の短縮と**コンテキストサイズの拡張（64以上）**が可能
画像および音声機能
- 画像生成の例: 「ルネサンス風のレモネードピッチャー」
- 音声の例: “Hello, I am your AI assistant. What can I do for you today?”

1件のコメント

GN⁺ 28 일 전

Hacker Newsのコメント

ほぼ1年にわたって Lemonade を使っている。Strix Haloでは他のツールなしでこれだけを使っている。kyuz0の AMD Strix Halo Toolboxes も悪くないが、LemonadeはTTS、STT、テキスト・画像生成、画像編集まで可能。ROCm、Vulkan、CPU、GPU、NPUなど多様なバックエンドをサポートしており、開発スピードも 実用的で速い。AMDハードウェアなら強く勧めたい。
OpenAIおよびOllama互換エンドポイントのおかげで、VSCode CopilotやOpen Web UIでもすぐ使える
- Qwen3.5-122BモデルをLemonadeでStrix Halo上で動かした場合、Vulkanベースの llama.cpp と比べて どれほど高速化 されるのか気になる
- もしかして agentsやClaw と一緒に使ったことがあるか、どんなモデルを動かしたのか気になる
7900 XTXでローカルLLMを数か月動かしているが、ROCmの体験はかなり荒削りだった。AMDが公式の推論サーバーを出して、ドライバや依存関係の問題を解決してくれるのは大きな前進だ。ただ、NPUサポートが実際に意味のあるスループットを出せるのかは気になる。自分のテストでは小さいモデル以外ではボトルネックだった
- どのあたりがそんなに大変だったのか気になる。自分はRX 7900 XTXでOllamaを使ってローカルモデルを動かしているが、ROCm関連の問題はほとんどなかった。VRAM 24GBの制限だけが惜しい。より大きなVRAMのためにRadeon Proへ乗り換えるか考え中
- カーネル7.0.0では Vulkan性能がROCmよりはるかに良く、約20%以上高速だった
- NPUはバッテリー使用時の 電力効率 のための用途。GPUの代替ではない
名前が「Lemonade」なのは、もしかして レモンを最大限活用する という意味なのか気になる
- 「L-L-M」の発音が「lemon」に近いので、LLM-aid → lemonade という言葉遊びっぽい
- 人生がずっとレモンを与えてくるなら、いっそ 爆発するレモン を作るべきだ
- 自分はローカル推論用には AMDハードウェアだけを使っている。オープンドライバ、電力効率、価格の面で、消費者の立場ではNvidiaより良いと思う
- 「Lemonsqueeze」という名前は暴力的すぎるので却下されたそうだ
LemonadeはOllamaとLM Studioの中間あたりに位置する感じだ。単純なモデルサービングではなく 統合ランタイム に焦点を当てている点が興味深い。テキスト、画像、音声など複数のモダリティをまとめて扱う オーケストレーション が中核だ。実際には抽象化なのか、複数ツールを束ねたものなのか気になる。AMD/NPU最適化がかえって 移植性 を下げるのではないかという疑問もある
- 複数のツールとモデルの選択、管理機能を バンドル している。CPUやVulkanバックエンドでインストールできるが、基本的にはROCmビルドとAMD NPUしかサポートしていない。CUDAで動かすには llama.cpp のバージョンをオーバーライドしなければならず、管理が面倒。AMDマシンでローカルモデルを簡単に動かすなら、これがいちばん手軽だ。
  自分はNAS上でHome Assistantと一緒に動かしている。Strix Haloとは別に、CUDAカードのサーバーも管理している
Lemonadeが使うNPUモデルやカーネルが 非公開 なのは残念だ。オープンなサポートがもっと増えるといい
- ドキュメントには「Hugging FaceモデルをLemonade Serverに登録できる」と書かれている
- NPUを使えないかもしれないと分かった上で機材を買ったが、それでもこういう話を聞くと 腹が立つ
Lemonadeの本当の強みは マルチモーダル統合 だ。テキスト生成、画像生成、音声認識など、それぞれ別のAPIやモデル管理が必要な3つのサービスを1つのサーバーでOpenAI互換エンドポイントとして処理できる。プロトタイピング時の 品質向上 は大きい。
NPUは小型の常時稼働モデルや prefill のオフロードには有用だが、一般的なチャットボットでは過大評価されている面がある。
AMDがGPU+NPUスケジューリングを透過的にして、開発者がハードウェアを意識しなくて済むようになれば、デフォルトの選択肢 になる可能性が高い
Strix HaloでLemonadeを動かしている。diffusion、llama など複数のバックエンドを含んでいるが、自分は llama.cpp ROCmビルド（リンク）だけを使っている。画像やオーディオは扱わない。GPT OSS 120Bで、毎秒約50トークンの速度だ。NPUは低消費電力の常時稼働モデル向けなので、一般的なチャットボットでは大きな利点はない
- 小さなNPUでも prefill 計算の一部をオフロードできる。ただし デコード段階 では、メモリ帯域幅や内部演算の対応有無によって変わる。たとえばApple Neural EngineはINT8/FP16演算しかサポートしないので、大きな助けにはならない
ウェブサイトとニュース告知を読んだが、Lemonadeが正確に何なのか分かりづらい。LM Studioの代替なのか、MacのMLXやMetalをサポートするのかも気になる。AMD最適化が中心なら、他のGPUでは 不利なのか 知りたい
- GitHubのロードマップによると、macOSベータは完了、MLXサポートは開発中とのこと
- ローカルAIスタックを簡単にインストール・維持できる ワンストップソリューション だ。STT、TTS、画像生成、LLMエンドポイントをまとめて提供し、独自のWebUIもある。OpenAI、Ollama、Anthropic互換エンドポイントにも対応している
- LM Studioのように複数のランタイムを抽象化するが、AMDの FastFlowMLランタイム を通じてRyzen AI CPUのNPUをLinuxで活用できる
- LM Studioは実際のLLM実行を別のソフトウェアに任せるが、そのソフトウェアがNPUをサポートしていなければ性能が落ちる。Lemonadeはその バックエンドの役割 を果たしているようだ
Linux向けサーバーのインストールガイドにDocker/Podmanオプションがないのは意外だ。Snap/PPA、RPMしかない。おそらくコンテナ利用者は自分でビルドしろという意味かもしれない
- 実際には Dockerインストールオプションがある。リリースページにも追加されるとよさそう
Ollamaと比較した人がいるか気になる。自分はROCm 7.4で9070 XTを使ってOllamaを問題なく使っている
- Lemonadeは複数のAPIと AMD GPU・NPU専用ビルド をサポートしている。AMDが直接運営している。内部的にはどちらも llama.cpp ベースだが、LemonadeはGPUごとに最適化されたビルドを持つ
- MacBook M1 Max（64GB RAM）で qwen3.59b モデルをテストしたとき、Ollamaは1分44秒、Lemonadeは1分14秒で、Lemonadeのほうが速かった
- 自分もvLLMとの比較が気になる
- 現在Ollamaを使っているが、Lemonadeとの 性能差 が気になる
- Vulkanより良いのかも知りたい

Lemonade by AMD: GPUとNPUを活用した高速なオープンソースのローカルLLMサーバー

主な特徴

オープンソースおよびローカル中心の設計

迅速なインストールと軽量構造

幅広い互換性

統合APIの提供

ユーザーインターフェースとエコシステム

技術仕様と使用例

ハードウェアと性能

画像および音声機能

最新リリース

関連記事

1件のコメント

Hacker Newsのコメント