ANEMLL - Apple Neural EngineでLLMを動かすためのオープンソースプロジェクト

(github.com/Anemll)

3 ポイント投稿者 GN⁺ 2025-05-05 | 1件のコメント | WhatsAppで共有

Apple Neural Engine(ANE) 上で実行可能な LLM推論パイプライン を提供
Hugging Faceモデルをベースに、Swift/C++ベースのアプリやiOS/macOSアプリで オンデバイス推論を可能 にする
最新の 0.3.0 Alpha には、Hugging FaceモデルをCoreML形式に変換するツール、Swiftベースの推論CLI実装、iOS/macOSアプリのサンプル、Pythonテストコード、ベンチマークツールが含まれる
LLaMA 3.2 (1B / 8B) モデルおよび Distilled DeepSeek R1 8B、DeepHermes 3B と 8B をサポートし、今後さらに多様なモデルアーキテクチャへ拡張予定
Hugging FaceモデルをANE向けに変換できる 柔軟で使いやすいフレームワーク の提供を目指す

1件のコメント

GN⁺ 2025-05-05

Hacker Newsの意見

AppleがANE最適化モデルについて「最大10倍高速、メモリ消費は14分の1」と主張していた件に、その後の進展があったのか気になる
- MLXとllama.cppはANEをサポートしていない
- llama.cppはこのアイデアを検討中
- MLXはApple製であるにもかかわらず、ANEをサポートできていない
Snapdragon XノートPCの発売時、NPUがLLMに使われるという主張があった
- Qualcommの主張を信じていたが、実際にはCPU上でしかモデルが動作しない
- NPUは小規模モデルでは電力効率が高いだけで、大規模モデルには向いていない
- Vulkan対応が唯一の希望
ニューラルエンジンは無駄なシリコンだと感じていた
- GPUコアをさらに追加し、必要に応じてニューラル処理APIをGPUに切り替えられるはず
- もし異なる意見があれば学びたい
主な利点は消費電力が大幅に低いこと
- M1 MaxとM4 Proでのベンチマークでは、GPUの方が速いが消費電力は大きい
- ANEモデルは512トークンに制限されており、まだ本番利用は難しい
READMEに最も重要な情報がない
- 同一の量子化条件で、llama.cpp / MLXと比べてどれだけのトークン/秒が出るのか気になる
- 大きな改善がある場合にのみ、デフォルトのプラットフォームを切り替える価値がある
この技術の肝が何なのか知りたい
- coremltoolsへの依存が核心なのか、それとも他に重要な技術があるのか気になる
Appleのユニファイドメモリは、通常なら複数GPUが必要な大規模モデルを動かせるだけの十分なRAMを提供する
coremlがANEを活用しているのか気になる
- coremlで低レベルアクセスを必要とするボトルネックがあるのか気になる
MシリーズMacBookで推論速度に性能上の利点があるのか気になる
- 他のプラットフォーム（iOSなど）で推論を動かすことが主な目標なのか気になる
- 性能上の利点があるなら、Ollamaとのトークン/秒比較を見てみたい
AppleによるANEへの厳格な統制は驚き
- 人々が実際に使える日が来ることを願う
- 企業が支配を維持するために技術を隠しているのか、それとも本当に大きな技術的理由があるのか気になる

ANEMLL - Apple Neural EngineでLLMを動かすためのオープンソースプロジェクト

関連記事

1件のコメント

Hacker Newsの意見