DS4についていくつか
(antirez.com)- DwarfStar 4 は予想よりも速く広まり、単一モデル中心の ローカルAI体験 への需要を示した
- 急速な普及には DeepSeek v4 Flash と 2/8ビットの非対称量子化が寄与し、96GB または 128GB RAM での実行が可能になった
- DS4は特定モデルに縛られたプロジェクトではなく、GPU in a box デバイスで高速に動く最新のオープンウェイトモデルを中核に据えようとしている
- ローカル推論では、質問に応じて ds4-coding、ds4-legal、ds4-medical のような専門モデルを呼び出して使う方式に意義がありそうだ
- 今後の焦点は 品質ベンチマーク、コーディングエージェント、自宅ハードウェアベースのCI、対応環境の拡大、直列・並列の分散推論である
DS4の急速な普及と背景
- DwarfStar 4 は予想以上の速さで人気を集め、単一モデル統合 に焦点を当てたローカルAI体験への需要を示した
- 急速な普及には、DeepSeek v4 Flash のような準フロンティアモデルの登場、ローカル推論の勢力図を変えるほど大きな性能と速度、2/8ビットの強力な非対称量子化の組み合わせがともに作用した
- この組み合わせにより、96GB または 128GB RAM だけでもモデルの実行が可能になった
- ここ数年で蓄積された ローカルAI運動 の経験がDS4の開発速度に影響し、GPT 5.5の助けがなければ1週間で作るのは難しかったと思われる
- 最初の1週間は楽しかったが疲れも大きく、1日平均 14時間 作業しており、Redis初期の数か月と似た強度だった
今後の方向性
- DS4は DeepSeek v4 Flash で始まり終わるプロジェクトではなく、時間が経てば中核モデルが変わる可能性がある
- 目標は、高性能MacやDGX Sparkのような 「GPU in a box」デバイス で実際に高速動作する最新のオープンウェイトモデルをDS4の中心に据えることだ
- 次の候補は、新しいチェックポイントとして公開される DeepSeek v4 Flash であり、コーディング向けバージョンや法律・医療のような専門家向け派生モデルもありうる
- ローカル推論では、質問に応じて ds4-coding, ds4-legal, ds4-medical のようなモデルを呼び出して使う方式に意義がありそうだ
- ClaudeやGPTに尋ねていた本格的な作業をローカルモデルに任せるようになったのは、今回が初めてだと言える
- ベクトルステアリング(vector steering) によってLLMをより自由に使う体験も可能になり、DS4は小規模なローカルモデルよりもオンラインのフロンティアモデルにずっと近い体験を提供する
- 初期の混乱した数日を過ぎた後、プロジェクトは 品質ベンチマーク、コーディングエージェント、自宅ハードウェアベースのCIテスト、さらなる移植、分散推論に集中する予定だ
- 分散推論は 直列(serial) と 並列(parallel) の両方式を含み、重要な今後の課題として残っている
- AIは単なる提供サービスのままにしておくには、あまりにも重要である
1件のコメント
Hacker Newsの反応
DwarfStar4はDeepSeek 4を実行できる小型のLLM推論ランタイムで、ブログ記事を見る限り現時点では96GB VRAMが必要らしい
文脈が足りない人向けの説明です :-)
動作はするが、ストレージからモデル層を読み込みつつ少し遅くなる可能性はありそう
コーディングに必要な知能がどの時点で「十分」に達するのか、とても気になる
ある時点からは、少し賢さの劣るモデルにより長く問題へ取り組ませれば同じ結果に到達できるし、私が介入しないなら結果的には同じことになる
DeepSeek V4 Proはほぼその地点まで来ている感じがするし、Flashもそうかもしれない
その地点に達したとき、Anthropicの現在のビジネスモデルのどれだけが崩れるのかも気になる
これまでは最も賢いモデルにお金を払うのは明らかに価値があったが、いまやその概念の成長余地は限られているのが明らかに見える
残された滑走路がどれくらい長いのかが問題で、Anthropicが企業・生産性分野へ急いで広げているのも、すでにこの流れを見ているからなのか気になる
単に長く待てばよいという問題ではない気がする
開発者の時間、開発者コスト、AIコスト、開発者の生産性のバランスだ
4.6を見ると一般企業基準ではコスト許容限界に近く見えるので、ほかの変数が変わる必要がありそうだ
結果は悪くなかったが、Opusよりスコアはかなり低く、Deepseekの現在のリリース記念価格を適用してもコストはほぼ同じだった
このコスト構造は興味深く、SonnetとOpusでも似たようなものを見たし、自分でベンチマークしたときも、価格は良さそうでもトークンを使いすぎて「より高価な」モデルとコストが同じになるモデルがあった
[1] https://blog.kilo.ai/p/we-tested-deepseek-v4-pro-and-flash
なぜプログラマを待たせるのか
こういう狭く特化したツールを見つけられてうれしい
対応バックエンドはMetalが主なターゲットで、96GB RAMのMacBookから始まっている
NVIDIA CUDAはDGX Sparkを特に意識しており、AMD ROCmは
rocmブランチでのみサポートされているantirez自身に直接ハードウェアへのアクセスがないためmainとは分離されており、コミュニティが必要なときにリベースする構造になっている
このプロジェクトはllama.cppとGGMLなしには存在しなかっただろうし、謝辞セクションを読んでほしいとも書かれている
ただ、まだシステムRAMへのオフロードはサポートしていないようだ[0]
なのでllama.cppのissueも引き続き見ておきたい[1]
[0] https://github.com/antirez/ds4/issues/108
[1] https://github.com/ggml-org/llama.cpp/issues/22319
rocmブランチでしかサポートされないとのことだが、実際に試した人がいるのか気になるこのスレッドはMacBook Proの話が多いが、128GB統合メモリのあるAMD Halo Strixで試してみたい
Mac Studioでローカルネットワーク経由でQ4版を使ってみたが良かった
複数のエージェントと一緒に使っていたら、仕事をあまりにもうまくこなすので、初めてローカルモデルだということを忘れた経験まであった
ただ、さらに別のエージェントが本当に必要なのかは疑問だ
Piで動かしたが、Claude Codeのシステムプロンプトはプリフィル速度を考えると重すぎる一方で、結果は素晴らしかった
OpenCodeも良い選択肢だ
Deepseek 4専用に似たツールをもう1つ作って、さらに得るものがあるのか気になる
ただしDS4自体のアイデアに従うと、APIエージェントはDSML構文をJSONへ翻訳するなど妙なことをさせられ、その結果として正規化やKVキャッシュのチェックポインティングの問題が生じる
実際にそうかどうかは別として、もっとまともな代替案を提供することにも意味はある
この分野で、より多くのものをC/Go/Rustで書いて制御性、速度、依存関係の削減を得ようとしない理由もよくわからない
TUIの面でも想像できることはたくさんある
ほとんどのプロジェクトは、すでに見たものをそのまま模倣する問題があるが、たとえば20分でこんなものを作った: https://x.com/antirez/status/2055190821373116619
もはやコードは安くなり、アイデアの価値のほうが大きくなった
今日でも「また別のXYZが必要なのか?」という発想が正しいのか確信がない
新しいアイデアを探るためだけでも価値があるかもしれない
個人的にはJavaScript / Nodeエコシステムをコードに使うのが好きではないので、新しいTUIやエージェントワークフローを試すとき、より快適なツールでやると結果や反復の過程が変わってくる
推論APIサーバーを提供し、そこへコーディングハーネスをつなぐ方式だ
いまはハードウェア的に無理で使えないが、気に入っている。M2 Maxで96GBしかない
一般ユーザーや大衆向けコンピュータでは使えない、あるいはもっと悪く見えるのも理解できる
昔、家庭用コンピュータがパーソナルコンピュータになる前はおもちゃ扱いされていたことを思い出す
現在の自分のハードウェアでどうにか実用になる組み合わせは、pi agent + llama.cpp + nemotron cascade-2モデルだ
1Mコンテキストまで可能で、ハイブリッドアーキテクチャなので、コードエージェントが使う10K・50K・100Kのコンテキスト深度でも1/N²のように崩れない
数日前、飛行機の中でインターネットなしでもpi agentをllama.cppサービングで動かせて、40〜30トークン/秒くらいでぎりぎり実用になって笑ってしまった
普通APIの速度はその2倍の60〜80トークン/秒くらいだと認識している
推論中、センサーは60W消費を示しており、バッテリーはおそらく3時間以上は持たないだろう
モデルサイズが30Bしかないので、KVキャッシュやほかのプログラム用の空間に余裕があり、余裕を持った8ビット量子化でも問題ない
一度にアクティブになるパラメータが3BしかないMoE A3Bが、老朽化したM2 Maxで扱える上限のように見える
DeepSeek-V4-Flash-IQ2XXS-w2Q2K-AProjQ8-SExpQ8-OutQ8-chat-v2-imatrix.ggufの組み合わせなら、コンテキスト込みで96GB VRAMに収まるだから、macOSがデフォルトでOSやディスプレイに数GBのRAM/VRAMを使うのでなければ、理論上は可能なはずだ
前向きな報告がいくつかある
ただしM2 Maxは少し遅い
Claudeにかなり近く感じられて驚いた
もちろんずっと遅いが、そこまでずっと愚かかというとよくわからない
興味深いことに、imatrix量子化はOpenRouterのzdr推論バックエンドが使うどの量子化よりも良く見える
昨日は、自分のサーバープロセスが自分自身だということを、私が言わなくても見抜いたが、ローカルモデルでそんなことは初めてだった
ずっと遅いが、現在のプロモーション価格なら特に何倍も安い
モデルごとに新しい推論エンジンを作る理由が説明されていないように思う
単にllama.cppを使えばよく、すでに多くの人がllama.cpp統合作業を進めている
1つのモデルに多くの労力を注ぎ込むことになり、より優れた別のモデルが出ればすぐに古くなる可能性が高い
ある議論では、人々がllama.cppブランチとds4の両方にPRを作っているので、このモデルに開発時間を投資する希少な人材が分散している
それでも問題ない。人々がその作業をllama.cppへポーティングするだろうし、みんなが得をする
ds4のユーザー体験も素晴らしい。検証済みモデルと良い量子化を手に入れるのがとても簡単だ
llama.cppはノブが多すぎて、もっと荒野でハックしている感じがする
それが本当かどうかは、数年後にわかるだろう
誰かがそのプロジェクトにサポートをupstreamしたければ自由にすればよく、コードはMITライセンスだ
より新しく小さなプロジェクトのほうが、より速く動ける
DeepSeekV4 Proは本当に有能なモデルで、特に提示されている価格帯を考えると非常に良い
Cでraylib上に2.5Dエンジンをいじりながら、補助役としてDeepSeekを使っている
OpenaCodeでは思考過程の記録が透過的に見えるが、その思考過程を見るのは驚くほどだ
読むにはとても長いが、無駄だったり意味のない部分はなかった
DeepSeekはいつも、私が考えていなかった点や間違っていた前提を思考過程の中で示し、最終出力では私の flawed request に合わせて整えてくれた
すると私は「ちょっと待って、君もそう考えたんだよね、それが正しくて私が間違っていたのだから、その側面も考慮しよう」と再度指示することになる
こういうものを自分のコンピュータだけでなく、クライアント案件やクラウドGPUでも動かせるといい
強力なモデルをクラスターなしで効率的に使えるという中核のアイデアは、多くのビジネスケースにも依然として当てはまる
こうした方式がバッチモードでも動くことを期待したい
いまのところH200では、スマート音声エージェントのエージェント型ツール呼び出しにMTP付き4ビットQwen 3.6 27Bが最良の一つのように感じる
DS4 Flashが2ビット80B、アクティブ13B、MTP構造なら、より速くより賢く、同時シーケンス数もさらに多く許容できるのか気になる
この特別な2ビット量子化はかなり大きな意味を持ちそうだ
ローカルモデルで「知能」と呼ぶべきものなのかはともかく、性能と速度が急速に向上しているのを見ると、この領域の成長率と天井がどこにあるのか気になる
数年以内に、たとえば16GB RAMでもこのレベルの知能と性能が可能になるだろうか?
ここで新しい種類のムーアの法則を定義できるだろうか?
アーキテクチャの革新、ハードウェアの革新、あるいは何らかの量子化技法の革新が必要だ
問題は、アクティブでないパラメータもすべてメモリ上に置いておかなければならない点にある
MoEでもRAMの内外へパラメータを切り替えるのは遅すぎる
カラスは人間に比べると非常に小さな脳しか持たないが、ある程度の知能を示し、最も愚かな人間と最も賢いカラスの問題解決能力には重なる部分がある
だから問題は、それが何なのかということだ
Yann LeCunは、それが私たちが今世界モデルと呼んでいるものだと見ているようだ
世界モデルは、言語のような構造化データを予測するのではなく、行動を予測する
ある世界がどう機能するかを予測できれば、理論的には原因と結果を推論できる
原因と結果の推論を言語と結びつけられれば、本当の知能に近いものが生まれるかもしれない
方向性はそちらへ向かっているように見える
そうしたシステムのプロトタイプが出てくれば、実際にどれほどのデータが必要なのかについて多くの疑問が生まれるだろう
1ビット量子化でLLMを縮小しても、言語理解がかなり強いモデルが出てくることはすでに見ている
今後数年で、比較的少ないメモリでも非常に知的なAIシステムを見ることになるのは、不合理だとは思わない