16 ポイント 投稿者 GN⁺ 2026-03-06 | 2件のコメント | WhatsAppで共有
  • Qwen3.5モデル群(0.8B〜122B) を、LLMファインチューニングおよび強化学習向けのオープンソースフレームワークUnslothでテキストおよびビジョンベースのファインチューニングが可能
  • UnslothはFlashAttention-2比で1.5倍高速な学習速度VRAM 50%削減を提供し、bf16 LoRA設定で効率的に学習可能
  • Colabノートブックを通じて0.8B、2B、4Bモデルを無料で試せ、A100環境向けの27B・35Bモデルノートブックも提供
  • MoEモデル(35B、122Bなど) は最新カーネルにより12倍高速な学習35%少ないVRAM6倍長いコンテキスト長をサポート
  • 学習後のモデルはGGUF、vLLM、Ollama、LM Studio、SGLangなど多様なデプロイ形式で書き出し可能

Qwen3.5ファインチューニング概要

  • Qwen3.5モデル群(0.8B、2B、4B、9B、27B、35B‑A3B、122B‑A10B)をUnslothでファインチューニング可能
    • テキストとビジョンの両方をサポート
    • Qwen3.5‑35B‑A3B bf16 LoRAは74GB VRAMで動作
  • Unslothは1.5倍高速な学習速度50%少ないVRAM使用量を提供
    • VRAM使用量: 0.8B(3GB)、2B(5GB)、4B(10GB)、9B(22GB)、27B(56GB)
  • 無料のGoogle Colabノートブックで0.8B、2B、4Bモデルを試用可能
  • 推論能力の維持のため、reasoning例を75%以上含むデータ構成が推奨される
  • Full Fine-Tuning(FFT) も可能だが、VRAM使用量は4倍に増加

学習環境と設定

  • Qwen3.5は201言語をサポートする多言語モデル
  • Reinforcement Learning(RL) および Vision RL(VLM RL) もUnsloth経由でサポート
  • A100 Colabノートブック提供: Qwen3.5‑27B、Qwen3.5‑35B‑A3B
  • ローカル学習時は最新バージョンへの更新が必要
    • コマンド: pip install --upgrade --force-reinstall --no-cache-dir unsloth unsloth_zoo
  • transformers v5 必須で、旧バージョンは動作しない
  • Mamba Tritonカーネルのコンパイルにより、初回学習が遅くなる場合がある(特にT4 GPU)
  • QLoRA(4-bit) 学習は推奨されない

MoEモデルのファインチューニング(35B、122B)

  • Qwen3.5‑35B‑A3B / 122B‑A10B / 397B‑A17B モデルをサポート
    • 12倍高速な学習35%少ないVRAM6倍長いコンテキスト長
  • bf16 LoRAまたはFull Fine-Tuning を推奨
  • MoE QLoRA 4-bit はBitsandBytesの制約により非推奨
  • Unsloth MoEカーネルはデフォルトで有効化されており、UNSLOTH_MOE_BACKENDでバックエンドを切り替え可能
  • Router-layer fine-tuning は安定性の理由からデフォルトで無効化
  • Qwen3.5‑122B‑A10B bf16 LoRA は256GB VRAMが必要
    • 複数GPU使用時は device_map = "balanced" 設定、またはmultiGPUガイドを参照

Quickstart

  • テキスト専用SFT(教師ありファインチューニング)の例を提供
  • Qwen3.5はCausal Language Model + Vision Encoder 構造
    • ビジョン依存関係(torchvision, pillow)のインストールが必要
  • 最新のTransformers バージョンの使用を推奨
  • GRPO学習はfast vLLMを無効化したうえでUnsloth inferenceにより実行可能
  • OOM(メモリ不足) が発生した場合
    • per_device_train_batch_size=1max_seq_length の縮小
    • gradient_checkpointing="unsloth" を維持してVRAMを節約し、コンテキストを拡張
  • MoE bf16 LoRAローダー例を提供

ビジョンファインチューニング

  • マルチモーダルQwen3.5モデルのビジョンファインチューニングをサポート
    • Qwen3-VL GRPO/GSPO RLノートブックを使用可能(モデル名のみ変更)
  • ビジョン専用/テキスト専用学習を選択可能
    • Vision、Language、Attention、MLPレイヤーの中から選択的にファインチューニング可能
    • デフォルトではすべて有効
  • 複数画像学習は別途multi-image visionガイドを参照

モデル保存とデプロイ

  • llama.cpp、vLLM、llama-server、Ollama、LM Studio、SGLang など多様なデプロイ方法をサポート

GGUF保存

  • UnslothはGGUF形式の直接保存およびHugging Faceへのアップロードをサポート
  • 推論時に性能低下が起きる場合、誤ったchat templateまたはEOSトークンの使用が主な原因

vLLM保存

  • vLLM 0.16.0 はQwen3.5をサポートしていない
    • 0.170以上またはNightly版が必要
  • 16-bit保存およびLoRAアダプタのみの保存が可能
  • 詳細はUnslothのinferenceガイドを参照

2件のコメント

 
hmmhmmhm 2026-03-06

前回、エージェント経由でファインチューニングを回してみたときは、データ次第で過学習の問題が頻繁に発生しているように見えたのですが、今回のノートブックではLoRA/QLoRAの組み合わせで可能なのか気になります

 
GN⁺ 2026-03-06
Hacker Newsの意見
  • Qwen モデルを NVIDIA Jetson ハードウェアでファインチューニングしてみたが、性能が驚くほど良かった
    複数の7B派生モデルをエッジAI用途でデプロイしたが、精度よりも レイテンシー(latency) が重要な産業検査やリテール分析のような環境で特に有用だった
    LoRAファインチューニングのおかげでモデルが小さくなり、ユニファイドメモリにうまく収まり、リアルタイム推論速度も十分に速い
    いちばん驚いたのは 電力効率 で、Jetson Orinは15W未満で継続推論を回せており、クラウドとの往復よりもはるかに省エネだった

    • このコメントはAIが生成したように見える
      最近はTwitterやRedditでもこうした 偽の体験談風フォーマット のコメントをよく見る。実在の人間のように見えるが、全部作られた話のようだ
    • 興味深い。精度が少し落ちても問題ない 産業用途の具体例 があるのか気になる
    • 実際にこうしたモデルをどんな作業に使っているのか、具体的な事例 が知りたい
    • 素朴な疑問だが、こういう用途なら 従来のニューラルネットワーク(neural network) でも十分なのでは、という気がする
    • 7Bモデルを15Wで回すとあったが、Orinシリーズのどのモデルなのか気になる
      Nano(40 TOPS)、NX(100)、AGX(275)のどれなのか、あるいは Thor(2070) でさらに大きいモデルも試したのか知りたい
  • 人々が実際に 小型/中型モデルをファインチューニング して使っている事例が気になる

    • このテーマについてXにまとめた投稿がある
      関連ポスト
      たとえば、
      1. Cursor がオンラインRLで承認率を28%改善 (リンク)
      2. Vercel がAutoFixモデルにRFTを適用 (リンク)
      3. Perplexity Sonar はDeep Research Reasoning向けのファインチューニングモデル (リンク)
      4. DoorDash はLoRA/QLoRAで属性抽出モデルを構築 (リンク)
      5. NASA の洪水検知モデル (リンク)
      6. ロボティクス向けオンラインRL
      7. OpenAI RFT の事例集 (リンク)
      8. Mercor の専門家データを活用したモデル性能向上 (リンク)
    • シンプルな文書分類タスクを複数のモデルでベンチマークしてみた
      Llama-70BGemma-4BMinistral-14B などでモデルごとの精度とコストを比較したが、
      4Bモデルでもかなり良い性能を示した。
      ただし、「データ量と性能向上の関係」についての 直感が失われた感じ がする
      自分でもファインチューニングを試してみるか考え中だ
    • 自分の手書き文字認識の精度を上げるためにファインチューニングを検討している
      ベースモデルでも十分動くが、自分の 悪筆 のせいでたまに認識ミスが起きる
    • 良い例として AtredisブログのLLM学習ガイド を勧めたい
  • 最近は LLMファインチューニングの必要性 がだんだん下がっているように思う
    最新モデルは few-shot学習 だけでも複雑な作業をうまくこなせる
    Qwen3.5のような 大きなコンテキストウィンドウ を持つモデルは、強力なプロンプト設計で十分代替できる
    画像モデルや過去のLLMでは依然として意味があるが、テキストLLMでは次第に 非効率 になってきている

    • 小さなモデルを特定の 構造化出力 に合わせてファインチューニングすれば、低コストで大規模推論を回せる
      大型モデルのコンテキスト拡張はコストが高すぎる
    • LLMは進歩しているが、ロボットの継続学習マルチモーダルLoRAファインチューニング のような領域では依然として可能性が大きい
      Unslothガイド のようにビジョン+テキストのファインチューニングも可能だ
      今後は モデルルーティング が一般化し、ローカルでは小さなLoRAモデルを使い、複雑なタスクはクラウドに回す構成になる気がする
      実際にDoorDash、Vercel、NASA、Cursorなども独自にファインチューニングを行っている
    • 自分はモデルを自分の文章スタイルに合わせてファインチューニングしようとした
      ClaudeやQwen、Llama、Gemmaなどで試したが、スタイル転移 がうまくいかなかった
      自分のコメント数百件を学習データに使っても、すでに Instructモデルが過剰にチューニング されていて、追加学習はほとんど不可能だった
    • ひと言で要約すると 成人向けデータ のためだ
      Qwenは学習時にこうしたデータを除外していたため、ファインチューニングでしか復元できない
      関連作業の例: chenrmのQwen3 LoRAモデル
    • 実際のサービスでは今でもファインチューニングは重要だ
      決定的で監査可能な動作ハルシネーション低減コスト削減向けLoRA/QLoRA の組み合わせが有用だ
      RAGと FAISSベクターDB を併用すればコンテキストの暴走を防げる
      長期的には、プロンプト調整よりも 小さなアダプターの管理 のほうがずっと効率的だ
  • Qwenチームのリードの一部が交代したのは残念だ
    新しい経営陣が ビジネス中心 に変わることで、オープンソースの精神が弱まらないか心配している

  • 文書中心のRAGアプローチだけで十分なのに、ファインチューニングが実際により良い結果 を出すのか気になる

    • 特化型モデル は確かにSOTAを上回る
      例: FlashCheck
    • 以前 Cursorのtab-next-actionモデル が大きな話題になったが、実はあれは70Bモデルのファインチューニング版だった
  • 今回の資料は 大規模MoEモデル だけを扱っているように見える
    ほとんどのユーザーは 小型モデル(例: 9B) を目標にするはずで、
    このモデルは ハイブリッドMambaアーキテクチャ を使っているため、別途考慮が必要そうだ