- 最近のMIT Technology Reviewの記事で、ローカルLLMをオフラインのバックアップWikipediaと比較するというアイデアが紹介された
- Ollamaライブラリの主要LLMモデルのファイルサイズと、Kiwixが提供するオフラインWikipediaバンドルの容量を直接比較している
- LLMファイルとWikipediaデータは目的・強み・弱みが異なるため単純比較は難しいが、容量ベースでは興味深い差がある
- 一部の**LLM(1〜4GBモデル)**はSimple English Wikipedia(約1GB)より大きく、完全版Wikipedia(57GB)は大規模LLM(20〜32GB)より大きい
- ファイルサイズ以外にもメモリやCPU要件など現実的な考慮が必要で、実際の利用目的によって選択は変わりうる
ローカルLLMとオフラインWikipediaの比較
導入と比較のきっかけ
- MIT Technology Reviewで最近「How to run an LLM on your laptop」という記事が紹介された
- その記事では、ローカルでLLMを動かしてオフライン環境でも知識を活用できる点が強調されている
- Simon Willisonの**「オフラインLLMはWikipediaの要約された不完全版のようなもので、終末的状況でもUSBさえあれば社会の再起動に役立つ」という比喩**が印象的だった
モデルとデータ容量の比較
- Ollamaライブラリの複数のLLMモデルと、Kiwixが提供するオフラインWikipediaバンドルのファイルサイズを比較している
- 比較のため、一般的なコンシューマー向けハードウェアで実行可能なモデルと、画像なしのWikipediaデータに限定している
- 主な比較結果は以下の通り:
- 最小の要約版
- Best of Wikipedia(上位5万件、要約版): 356.9MB
- Simple English Wikipedia(要約版): 417.5MB
- 代表的なLLMモデル(小型)
- Qwen 3 0.6B: 523MB
- Deepseek-R1 1.5B: 1.1GB
- Llama 3.2 1B: 1.3GB
- 代表的なLLMモデル(中〜大型)
- Deepseek-R1 8B / Qwen 3 8B: 5.2GB
- Gemma3n e4B: 7.5GB
- Deepseek-R1 14B: 9GB
- Qwen 3 14B: 9.3GB
- Wikipedia全体
- Wikipediaの上位5万件の記事は356.9MBと非常に小さい
- **最小のLLM(0.6B、Qwen)**は523MBで、単純なWikipedia要約版より大きい
- **Wikipedia全体(57.18GB)は最大級のLLM(20GB)**よりはるかに大きい
比較の限界と考慮点
- 直接比較は難しい: 百科事典(データ)とLLM(生成モデル)は本質的に目的も構造も異なる
- 重要なのはファイルサイズだけではない: LLMはファイルサイズに加え、実行時のメモリとCPUリソースも多く必要とする。オフラインWikipediaは低スペック機器でも動かしやすい
- 実際の用途ごとの有用性: たとえば化学分野だけをダウンロードすることもできるし、特定ハードウェアに最適化されたLLMを使うこともできる
- 選定基準の主観性: 比較に使った項目の選び方には主観がある
結論と示唆
- Wikipediaの上位5万件の記事とLlama 3.2 3Bモデルは、ファイルサイズの面では近い水準にある
- 最小のWikipediaバンドルは最小のLLMよりも小さく、Wikipedia全体のファイルは最大のLLMより大きい
- 十分なストレージがある環境なら、LLMとWikipediaデータの両方をダウンロードして活用することも検討に値する
1件のコメント
Hacker Newsのコメント
gpgkeyをhttpで指定していてセキュリティに穴が開いた経験があるwikipedia_en_all_maxi_2024-01.zimをダウンロード中で、libzimでページを抽出してLLMと連携させようとしている。zimファイルはページをHTMLで保存していて、約100GBある。理由は、HDDに大量保存されたゲーム一覧(タイトルだけで、別途カテゴリなし)をWikipediaの記事とマッチングさせて、ジャンルや情報で整理したいからだ。試してみたところ、LLM(Mistral Small 3.2 quantized)が驚くほどこの混沌をうまく整理してくれる。llama.cppでカスタムスクリプトから高速に動かせる"$1-distill-$2"のような名前のモデルは(時には-distillが付かないこともあるが)、$2モデルに$1の出力を学習させて作った「知識蒸留(distillation)」モデルなので、名前とは違って$1そのものではない。記事に出てくる「Deepseek-R1 1.5B」のようなモデルは実在せず、この種のものだ