Qwen3.5ファインチューニングガイド

(unsloth.ai)

16 ポイント投稿者 GN⁺ 2026-03-06 | 2件のコメント | WhatsAppで共有

Qwen3.5モデル群（0.8B〜122B） を、LLMファインチューニングおよび強化学習向けのオープンソースフレームワークUnslothでテキストおよびビジョンベースのファインチューニングが可能
UnslothはFlashAttention-2比で1.5倍高速な学習速度とVRAM 50%削減を提供し、bf16 LoRA設定で効率的に学習可能
Colabノートブックを通じて0.8B、2B、4Bモデルを無料で試せ、A100環境向けの27B・35Bモデルノートブックも提供
MoEモデル（35B、122Bなど） は最新カーネルにより12倍高速な学習、35%少ないVRAM、6倍長いコンテキスト長をサポート
学習後のモデルはGGUF、vLLM、Ollama、LM Studio、SGLangなど多様なデプロイ形式で書き出し可能

Qwen3.5ファインチューニング概要

Qwen3.5モデル群（0.8B、2B、4B、9B、27B、35B‑A3B、122B‑A10B）をUnslothでファインチューニング可能
- テキストとビジョンの両方をサポート
- Qwen3.5‑35B‑A3B bf16 LoRAは74GB VRAMで動作
Unslothは1.5倍高速な学習速度、50%少ないVRAM使用量を提供
- VRAM使用量: 0.8B（3GB）、2B（5GB）、4B（10GB）、9B（22GB）、27B（56GB）
無料のGoogle Colabノートブックで0.8B、2B、4Bモデルを試用可能
推論能力の維持のため、reasoning例を75%以上含むデータ構成が推奨される
Full Fine-Tuning（FFT） も可能だが、VRAM使用量は4倍に増加

学習環境と設定

Qwen3.5は201言語をサポートする多言語モデル
Reinforcement Learning（RL） および Vision RL（VLM RL） もUnsloth経由でサポート
A100 Colabノートブック提供: Qwen3.5‑27B、Qwen3.5‑35B‑A3B
ローカル学習時は最新バージョンへの更新が必要
- コマンド: pip install --upgrade --force-reinstall --no-cache-dir unsloth unsloth_zoo
transformers v5 必須で、旧バージョンは動作しない
Mamba Tritonカーネルのコンパイルにより、初回学習が遅くなる場合がある（特にT4 GPU）
QLoRA（4-bit） 学習は推奨されない

MoEモデルのファインチューニング（35B、122B）

Qwen3.5‑35B‑A3B / 122B‑A10B / 397B‑A17B モデルをサポート
- 12倍高速な学習、35%少ないVRAM、6倍長いコンテキスト長
bf16 LoRAまたはFull Fine-Tuning を推奨
MoE QLoRA 4-bit はBitsandBytesの制約により非推奨
Unsloth MoEカーネルはデフォルトで有効化されており、UNSLOTH_MOE_BACKENDでバックエンドを切り替え可能
Router-layer fine-tuning は安定性の理由からデフォルトで無効化
Qwen3.5‑122B‑A10B bf16 LoRA は256GB VRAMが必要
- 複数GPU使用時は device_map = "balanced" 設定、またはmultiGPUガイドを参照

Quickstart

テキスト専用SFT（教師ありファインチューニング）の例を提供
Qwen3.5はCausal Language Model + Vision Encoder 構造
- ビジョン依存関係（torchvision, pillow）のインストールが必要
最新のTransformers バージョンの使用を推奨
GRPO学習はfast vLLMを無効化したうえでUnsloth inferenceにより実行可能
OOM（メモリ不足） が発生した場合
- per_device_train_batch_size=1、max_seq_length の縮小
- gradient_checkpointing="unsloth" を維持してVRAMを節約し、コンテキストを拡張
MoE bf16 LoRAローダー例を提供

ビジョンファインチューニング

マルチモーダルQwen3.5モデルのビジョンファインチューニングをサポート
- Qwen3-VL GRPO/GSPO RLノートブックを使用可能（モデル名のみ変更）
ビジョン専用/テキスト専用学習を選択可能
- Vision、Language、Attention、MLPレイヤーの中から選択的にファインチューニング可能
- デフォルトではすべて有効
複数画像学習は別途multi-image visionガイドを参照

モデル保存とデプロイ

llama.cpp、vLLM、llama-server、Ollama、LM Studio、SGLang など多様なデプロイ方法をサポート

GGUF保存

UnslothはGGUF形式の直接保存およびHugging Faceへのアップロードをサポート
推論時に性能低下が起きる場合、誤ったchat templateまたはEOSトークンの使用が主な原因

vLLM保存

vLLM 0.16.0 はQwen3.5をサポートしていない
- 0.170以上またはNightly版が必要
16-bit保存およびLoRAアダプタのみの保存が可能
詳細はUnslothのinferenceガイドを参照

2件のコメント

hmmhmmhm 2026-03-06

前回、エージェント経由でファインチューニングを回してみたときは、データ次第で過学習の問題が頻繁に発生しているように見えたのですが、今回のノートブックではLoRA/QLoRAの組み合わせで可能なのか気になります

GN⁺ 2026-03-06

Hacker Newsの意見

Qwen モデルを NVIDIA Jetson ハードウェアでファインチューニングしてみたが、性能が驚くほど良かった
複数の7B派生モデルをエッジAI用途でデプロイしたが、精度よりも レイテンシー(latency) が重要な産業検査やリテール分析のような環境で特に有用だった
LoRAファインチューニングのおかげでモデルが小さくなり、ユニファイドメモリにうまく収まり、リアルタイム推論速度も十分に速い
いちばん驚いたのは 電力効率 で、Jetson Orinは15W未満で継続推論を回せており、クラウドとの往復よりもはるかに省エネだった
- このコメントはAIが生成したように見える
  最近はTwitterやRedditでもこうした 偽の体験談風フォーマット のコメントをよく見る。実在の人間のように見えるが、全部作られた話のようだ
- 興味深い。精度が少し落ちても問題ない 産業用途の具体例 があるのか気になる
- 実際にこうしたモデルをどんな作業に使っているのか、具体的な事例 が知りたい
- 素朴な疑問だが、こういう用途なら 従来のニューラルネットワーク(neural network) でも十分なのでは、という気がする
- 7Bモデルを15Wで回すとあったが、Orinシリーズのどのモデルなのか気になる
  Nano(40 TOPS)、NX(100)、AGX(275)のどれなのか、あるいは Thor(2070) でさらに大きいモデルも試したのか知りたい
人々が実際に 小型/中型モデルをファインチューニング して使っている事例が気になる
- このテーマについてXにまとめた投稿がある
  関連ポスト
  たとえば、
  1. Cursor がオンラインRLで承認率を28%改善 (リンク)
  2. Vercel がAutoFixモデルにRFTを適用 (リンク)
  3. Perplexity Sonar はDeep Research Reasoning向けのファインチューニングモデル (リンク)
  4. DoorDash はLoRA/QLoRAで属性抽出モデルを構築 (リンク)
  5. NASA の洪水検知モデル (リンク)
  6. ロボティクス向けオンラインRL
  7. OpenAI RFT の事例集 (リンク)
  8. Mercor の専門家データを活用したモデル性能向上 (リンク)
- シンプルな文書分類タスクを複数のモデルでベンチマークしてみた
  Llama-70B、Gemma-4B、Ministral-14B などでモデルごとの精度とコストを比較したが、
  4Bモデルでもかなり良い性能を示した。
  ただし、「データ量と性能向上の関係」についての 直感が失われた感じ がする
  自分でもファインチューニングを試してみるか考え中だ
- 自分の手書き文字認識の精度を上げるためにファインチューニングを検討している
  ベースモデルでも十分動くが、自分の悪筆のせいでたまに認識ミスが起きる
- 良い例として AtredisブログのLLM学習ガイドを勧めたい
最近は LLMファインチューニングの必要性 がだんだん下がっているように思う
最新モデルは few-shot学習 だけでも複雑な作業をうまくこなせる
Qwen3.5のような 大きなコンテキストウィンドウ を持つモデルは、強力なプロンプト設計で十分代替できる
画像モデルや過去のLLMでは依然として意味があるが、テキストLLMでは次第に 非効率 になってきている
- 小さなモデルを特定の 構造化出力 に合わせてファインチューニングすれば、低コストで大規模推論を回せる
  大型モデルのコンテキスト拡張はコストが高すぎる
- LLMは進歩しているが、ロボットの継続学習 や マルチモーダルLoRAファインチューニング のような領域では依然として可能性が大きい
  Unslothガイドのようにビジョン+テキストのファインチューニングも可能だ
  今後は モデルルーティング が一般化し、ローカルでは小さなLoRAモデルを使い、複雑なタスクはクラウドに回す構成になる気がする
  実際にDoorDash、Vercel、NASA、Cursorなども独自にファインチューニングを行っている
- 自分はモデルを自分の文章スタイルに合わせてファインチューニングしようとした
  ClaudeやQwen、Llama、Gemmaなどで試したが、スタイル転移 がうまくいかなかった
  自分のコメント数百件を学習データに使っても、すでに Instructモデルが過剰にチューニング されていて、追加学習はほとんど不可能だった
- ひと言で要約すると 成人向けデータ のためだ
  Qwenは学習時にこうしたデータを除外していたため、ファインチューニングでしか復元できない
  関連作業の例: chenrmのQwen3 LoRAモデル
- 実際のサービスでは今でもファインチューニングは重要だ
  決定的で監査可能な動作、ハルシネーション低減、コスト削減向けLoRA/QLoRA の組み合わせが有用だ
  RAGと FAISSベクターDB を併用すればコンテキストの暴走を防げる
  長期的には、プロンプト調整よりも 小さなアダプターの管理 のほうがずっと効率的だ
Qwenチームのリードの一部が交代したのは残念だ
新しい経営陣が ビジネス中心 に変わることで、オープンソースの精神が弱まらないか心配している
- Xで関連する話を見た
  Alibaba CEO/CTO緊急ミーティングの話
  うまく解決してほしい
文書中心のRAGアプローチだけで十分なのに、ファインチューニングが実際により良い結果 を出すのか気になる
- 特化型モデル は確かにSOTAを上回る
  例: FlashCheck
- 以前 Cursorのtab-next-actionモデル が大きな話題になったが、実はあれは70Bモデルのファインチューニング版だった
今回の資料は 大規模MoEモデル だけを扱っているように見える
ほとんどのユーザーは 小型モデル(例: 9B) を目標にするはずで、
このモデルは ハイブリッドMambaアーキテクチャ を使っているため、別途考慮が必要そうだ

Qwen3.5ファインチューニングガイド

Qwen3.5ファインチューニング概要

学習環境と設定

MoEモデルのファインチューニング（35B、122B）

Quickstart

ビジョンファインチューニング

モデル保存とデプロイ

GGUF保存

vLLM保存

関連記事

2件のコメント

Hacker Newsの意見