18 ポイント 投稿者 GN⁺ 2025-05-02 | 3件のコメント | WhatsAppで共有
  • MLXライブラリを活用してMac上で直接実行し、強力な最新のQwen3-30B-A3B-8bitモデルをローカルでサービング
  • LocalforgeでこれをOpenAI API方式で連携し、エージェントループを構築
  • ollamaベースの補助モデル(Gemma3)を追加構成して、エージェント補助の役割を分離し、効率的なツール利用が可能
  • エージェントはLocalforgeのUIで設定後、「LSツール実行」、Webサイト生成、スネークゲームの自動実行まで実施
  • この一連の流れは無料で、ローカルで完全に自律動作可能であり、Macユーザーなら自分で試してみる価値のあるプロジェクト

MacでQwen3をローカル実行する

  • 目標: 最新のQwen3モデルをMacで実行し、Localforgeでエージェント化してコーディング自動化を試す
  • Qwen3はOllamaおよびHuggingFace MLXコミュニティで配布されている
  • 1段階: MLX環境のインストール

    pip install mlx  
    pip install mlx-lm  
    
  • 2段階: モデルサーバーの起動

    mlx_lm.server --model mlx-community/Qwen3-30B-A3B-8bit --trust-remote-code --port 8082  
    
    • モデルを自動ダウンロードした後、8082ポートでAPIサーバーとして起動
    • ログに"Starting httpd..."メッセージが出れば正常に起動

Localforgeの設定

  • 公式サイト: https://localforge.dev
  • インストール後、設定で以下の構成が必要:
  • プロバイダー追加

    • a) Ollamaプロバイダー(補助モデル)
      • 名前: LocalOllama
      • タイプ: ollama
      • インストール必要: gemma3:latestモデル(シンプルな言語処理に適している)
    • b) Qwen3プロバイダー(メインモデル)

  • エージェント作成

    • 名前: qwen3-agent
    • メインモデル: qwen3:mlx:30b(モデル名: mlx-community/Qwen3-30B-A3B-8bit
    • 補助モデル: LocalOllama(モデル名: gemma3:latest

結論

  • Macで無料で大規模モデルをローカル実行し、エージェントベースの自動コーディングが可能
  • モデル選択やシステムプロンプトのチューニングによって、より精緻な結果も可能
  • Localforge + MLX + Qwen3個人向けLLM実験に非常に有用な組み合わせ

3件のコメント

 
ragingwind 2025-05-02

ローカルで30bならかなり良さそうですね? Qwen2.5-Coder はいまいちでしたが、試してみる価値はありそうです。

 
GN⁺ 2025-05-02
Hacker Newsのコメント
  • Qwen3-30B-A3Bモデルをローカルで使っているが、非常に впечат象的。GPT-4を待っていた人たちにとっては代替になりそう。M3 Maxで70 tok/s出ており、とても使いやすい

    • 特に0.6Bモデルが、1B未満のモデルでも重要でない作業に有用に使える点が印象的
    • 全体として非常に印象的で、現在の設定にどう統合できるかを評価中
  • qwen3を実行してlsツール呼び出しをするのは「vibe coding」ではない。これはLocalForgeの宣伝のように見える

    • 実際に自律的な作業、たとえば複数のファイルを読み、ディレクトリを探索し、どこに修正を加えるべきかを把握するといったことには、うまく機能しない気がする
  • MLXとMLX-LMを称賛したい。Gemma 3モデルをローカルでファインチューニングするのに使っているが、Appleの開発者が作ったライブラリやツールはよく整理されている

  • 偶然Qwen3を簡単なプロンプトでループに陥らせた

    • 「mqttトピックルーティングのためにトライを使うPythonデコレータを作成」というプロンプトを使用
    • phi4-reasoningは動くが、コードにバグがあるようだ
    • phi4-mini-reasoningは混乱している
    • qwen3:30bはループに陥ってデコレータを忘れる
    • mistral-smallはすぐに要点をつかみ、コードも正常に見える
    • Copilotモデルを定期的に使っており、Claude 3.7とGeminiはテスト付きで使えるコードを出力する。しかしローカルモデルはまだそのレベルの能力はないようだ
  • MCPと一緒に、ローカルLLMが作業を協調して実行したり、コンテキストを圧縮したり、クラウドエージェントと協力したりできる設定を知っている人はいる?

    • 新しいM3マシンがUIだけをレンダリングし、クラウドLLMがコードベースをリファクタリングするのは愚かに見える。両者で作業を調整できそうな気がする
  • ローカルで実際の自律エージェントを動かして簡単な作業をさせる短いチュートリアルを共有したい

    • 正しいMLX設定や適切なモデルバージョンを探しているところだが、このアプローチのフレームワークは堅牢だ
  • LocalForgeを見つけられてうれしい。LocalForgeについて質問がある。2つのエージェントを組み合わせて、画像をマルチモーダルエージェントに渡してhtml/cssを出させ、別のエージェントに残りのコードを書かせることはできる?

    • 投稿ではGemma3(マルチモーダル)とQwen3(非マルチモーダル)が言及されている。上のような使い方ができるのか?
    • LocalForgeがプロンプトをどのエージェントにルーティングすべきか、どう判断するのか気になる
  • とても印象的。有料トークンモデルと同じくらい良い必要はない

    • たとえば先月、vibe codingに少なくとも300ドル使った。競合するツールを知りたかったのと、サイドプロジェクトの実装を終えたあと別のプログラミング言語で書き直したかったからだ
    • ここで少し休めるとしても、リファービッシュされたNvidiaノートPCなら1年以内に元が取れるはずだ。Ollamaがまだ全体のフローを処理できないのは残念。単一コマンドでできてもよさそうなのに
  • 良さそう。GoogleのGemma 3 27Bと組み合わせて使える、ローカル優先のAI支援IDEを探していた

    • LocalForgeが自分のプロジェクトであることを開示すべきだと思う
  • ローカルでモデルを動かすことが、いまや面白くなってきている。特に30B-A3B版は有望な方向に見える。16 GB VRAMではまだ届かないが、かなり手が届きやすい

    • 24/32 GB VRAMを搭載した新しいNvidia RTXカードに期待している。数年以内にGPT-4レベルに到達できそうで、さまざまな作業に役立つはずだ