- Qwen3.5モデル群(0.8B〜122B) を、LLMファインチューニングおよび強化学習向けのオープンソースフレームワークUnslothでテキストおよびビジョンベースのファインチューニングが可能
- UnslothはFlashAttention-2比で1.5倍高速な学習速度とVRAM 50%削減を提供し、bf16 LoRA設定で効率的に学習可能
- Colabノートブックを通じて0.8B、2B、4Bモデルを無料で試せ、A100環境向けの27B・35Bモデルノートブックも提供
- MoEモデル(35B、122Bなど) は最新カーネルにより12倍高速な学習、35%少ないVRAM、6倍長いコンテキスト長をサポート
- 学習後のモデルはGGUF、vLLM、Ollama、LM Studio、SGLangなど多様なデプロイ形式で書き出し可能
Qwen3.5ファインチューニング概要
- Qwen3.5モデル群(0.8B、2B、4B、9B、27B、35B‑A3B、122B‑A10B)をUnslothでファインチューニング可能
- テキストとビジョンの両方をサポート
- Qwen3.5‑35B‑A3B bf16 LoRAは74GB VRAMで動作
- Unslothは1.5倍高速な学習速度、50%少ないVRAM使用量を提供
- VRAM使用量: 0.8B(3GB)、2B(5GB)、4B(10GB)、9B(22GB)、27B(56GB)
- 無料のGoogle Colabノートブックで0.8B、2B、4Bモデルを試用可能
- 推論能力の維持のため、reasoning例を75%以上含むデータ構成が推奨される
- Full Fine-Tuning(FFT) も可能だが、VRAM使用量は4倍に増加
学習環境と設定
- Qwen3.5は201言語をサポートする多言語モデル
- Reinforcement Learning(RL) および Vision RL(VLM RL) もUnsloth経由でサポート
- A100 Colabノートブック提供: Qwen3.5‑27B、Qwen3.5‑35B‑A3B
- ローカル学習時は最新バージョンへの更新が必要
- コマンド:
pip install --upgrade --force-reinstall --no-cache-dir unsloth unsloth_zoo
- transformers v5 必須で、旧バージョンは動作しない
- Mamba Tritonカーネルのコンパイルにより、初回学習が遅くなる場合がある(特にT4 GPU)
- QLoRA(4-bit) 学習は推奨されない
MoEモデルのファインチューニング(35B、122B)
- Qwen3.5‑35B‑A3B / 122B‑A10B / 397B‑A17B モデルをサポート
- 12倍高速な学習、35%少ないVRAM、6倍長いコンテキスト長
- bf16 LoRAまたはFull Fine-Tuning を推奨
- MoE QLoRA 4-bit はBitsandBytesの制約により非推奨
- Unsloth MoEカーネルはデフォルトで有効化されており、
UNSLOTH_MOE_BACKENDでバックエンドを切り替え可能
- Router-layer fine-tuning は安定性の理由からデフォルトで無効化
- Qwen3.5‑122B‑A10B bf16 LoRA は256GB VRAMが必要
- 複数GPU使用時は
device_map = "balanced" 設定、またはmultiGPUガイドを参照
Quickstart
- テキスト専用SFT(教師ありファインチューニング)の例を提供
- Qwen3.5はCausal Language Model + Vision Encoder 構造
- ビジョン依存関係(
torchvision, pillow)のインストールが必要
- 最新のTransformers バージョンの使用を推奨
- GRPO学習はfast vLLMを無効化したうえでUnsloth inferenceにより実行可能
- OOM(メモリ不足) が発生した場合
per_device_train_batch_size=1、max_seq_length の縮小
gradient_checkpointing="unsloth" を維持してVRAMを節約し、コンテキストを拡張
- MoE bf16 LoRAローダー例を提供
ビジョンファインチューニング
- マルチモーダルQwen3.5モデルのビジョンファインチューニングをサポート
- Qwen3-VL GRPO/GSPO RLノートブックを使用可能(モデル名のみ変更)
- ビジョン専用/テキスト専用学習を選択可能
- Vision、Language、Attention、MLPレイヤーの中から選択的にファインチューニング可能
- デフォルトではすべて有効
- 複数画像学習は別途multi-image visionガイドを参照
モデル保存とデプロイ
- llama.cpp、vLLM、llama-server、Ollama、LM Studio、SGLang など多様なデプロイ方法をサポート
GGUF保存
- UnslothはGGUF形式の直接保存およびHugging Faceへのアップロードをサポート
- 推論時に性能低下が起きる場合、誤ったchat templateまたはEOSトークンの使用が主な原因
vLLM保存
- vLLM 0.16.0 はQwen3.5をサポートしていない
- 16-bit保存およびLoRAアダプタのみの保存が可能
- 詳細はUnslothのinferenceガイドを参照
2件のコメント
前回、エージェント経由でファインチューニングを回してみたときは、データ次第で過学習の問題が頻繁に発生しているように見えたのですが、今回のノートブックではLoRA/QLoRAの組み合わせで可能なのか気になります
Hacker Newsの意見
Qwen モデルを NVIDIA Jetson ハードウェアでファインチューニングしてみたが、性能が驚くほど良かった
複数の7B派生モデルをエッジAI用途でデプロイしたが、精度よりも レイテンシー(latency) が重要な産業検査やリテール分析のような環境で特に有用だった
LoRAファインチューニングのおかげでモデルが小さくなり、ユニファイドメモリにうまく収まり、リアルタイム推論速度も十分に速い
いちばん驚いたのは 電力効率 で、Jetson Orinは15W未満で継続推論を回せており、クラウドとの往復よりもはるかに省エネだった
最近はTwitterやRedditでもこうした 偽の体験談風フォーマット のコメントをよく見る。実在の人間のように見えるが、全部作られた話のようだ
Nano(40 TOPS)、NX(100)、AGX(275)のどれなのか、あるいは Thor(2070) でさらに大きいモデルも試したのか知りたい
人々が実際に 小型/中型モデルをファインチューニング して使っている事例が気になる
関連ポスト
たとえば、
Llama-70B、Gemma-4B、Ministral-14B などでモデルごとの精度とコストを比較したが、
4Bモデルでもかなり良い性能を示した。
ただし、「データ量と性能向上の関係」についての 直感が失われた感じ がする
自分でもファインチューニングを試してみるか考え中だ
ベースモデルでも十分動くが、自分の 悪筆 のせいでたまに認識ミスが起きる
最近は LLMファインチューニングの必要性 がだんだん下がっているように思う
最新モデルは few-shot学習 だけでも複雑な作業をうまくこなせる
Qwen3.5のような 大きなコンテキストウィンドウ を持つモデルは、強力なプロンプト設計で十分代替できる
画像モデルや過去のLLMでは依然として意味があるが、テキストLLMでは次第に 非効率 になってきている
大型モデルのコンテキスト拡張はコストが高すぎる
Unslothガイド のようにビジョン+テキストのファインチューニングも可能だ
今後は モデルルーティング が一般化し、ローカルでは小さなLoRAモデルを使い、複雑なタスクはクラウドに回す構成になる気がする
実際にDoorDash、Vercel、NASA、Cursorなども独自にファインチューニングを行っている
ClaudeやQwen、Llama、Gemmaなどで試したが、スタイル転移 がうまくいかなかった
自分のコメント数百件を学習データに使っても、すでに Instructモデルが過剰にチューニング されていて、追加学習はほとんど不可能だった
Qwenは学習時にこうしたデータを除外していたため、ファインチューニングでしか復元できない
関連作業の例: chenrmのQwen3 LoRAモデル
決定的で監査可能な動作、ハルシネーション低減、コスト削減向けLoRA/QLoRA の組み合わせが有用だ
RAGと FAISSベクターDB を併用すればコンテキストの暴走を防げる
長期的には、プロンプト調整よりも 小さなアダプターの管理 のほうがずっと効率的だ
Qwenチームのリードの一部が交代したのは残念だ
新しい経営陣が ビジネス中心 に変わることで、オープンソースの精神が弱まらないか心配している
Alibaba CEO/CTO緊急ミーティングの話
うまく解決してほしい
文書中心のRAGアプローチだけで十分なのに、ファインチューニングが実際により良い結果 を出すのか気になる
例: FlashCheck
今回の資料は 大規模MoEモデル だけを扱っているように見える
ほとんどのユーザーは 小型モデル(例: 9B) を目標にするはずで、
このモデルは ハイブリッドMambaアーキテクチャ を使っているため、別途考慮が必要そうだ