DS4についていくつか

(antirez.com)

1 ポイント投稿者 GN⁺ 5 시간 전 | 1件のコメント | WhatsAppで共有

DwarfStar 4 は予想よりも速く広まり、単一モデル中心の ローカルAI体験 への需要を示した
急速な普及には DeepSeek v4 Flash と 2/8ビットの非対称量子化が寄与し、96GB または 128GB RAM での実行が可能になった
DS4は特定モデルに縛られたプロジェクトではなく、GPU in a box デバイスで高速に動く最新のオープンウェイトモデルを中核に据えようとしている
ローカル推論では、質問に応じて ds4-coding、ds4-legal、ds4-medical のような専門モデルを呼び出して使う方式に意義がありそうだ
今後の焦点は 品質ベンチマーク、コーディングエージェント、自宅ハードウェアベースのCI、対応環境の拡大、直列・並列の分散推論である

DS4の急速な普及と背景

DwarfStar 4 は予想以上の速さで人気を集め、単一モデル統合 に焦点を当てたローカルAI体験への需要を示した
急速な普及には、DeepSeek v4 Flash のような準フロンティアモデルの登場、ローカル推論の勢力図を変えるほど大きな性能と速度、2/8ビットの強力な非対称量子化の組み合わせがともに作用した
この組み合わせにより、96GB または 128GB RAM だけでもモデルの実行が可能になった
ここ数年で蓄積された ローカルAI運動 の経験がDS4の開発速度に影響し、GPT 5.5の助けがなければ1週間で作るのは難しかったと思われる
最初の1週間は楽しかったが疲れも大きく、1日平均 14時間 作業しており、Redis初期の数か月と似た強度だった

今後の方向性

DS4は DeepSeek v4 Flash で始まり終わるプロジェクトではなく、時間が経てば中核モデルが変わる可能性がある
目標は、高性能MacやDGX Sparkのような 「GPU in a box」デバイス で実際に高速動作する最新のオープンウェイトモデルをDS4の中心に据えることだ
次の候補は、新しいチェックポイントとして公開される DeepSeek v4 Flash であり、コーディング向けバージョンや法律・医療のような専門家向け派生モデルもありうる
ローカル推論では、質問に応じて ds4-coding, ds4-legal, ds4-medical のようなモデルを呼び出して使う方式に意義がありそうだ
ClaudeやGPTに尋ねていた本格的な作業をローカルモデルに任せるようになったのは、今回が初めてだと言える
ベクトルステアリング(vector steering) によってLLMをより自由に使う体験も可能になり、DS4は小規模なローカルモデルよりもオンラインのフロンティアモデルにずっと近い体験を提供する
初期の混乱した数日を過ぎた後、プロジェクトは 品質ベンチマーク、コーディングエージェント、自宅ハードウェアベースのCIテスト、さらなる移植、分散推論に集中する予定だ
分散推論は 直列(serial) と 並列(parallel) の両方式を含み、重要な今後の課題として残っている
AIは単なる提供サービスのままにしておくには、あまりにも重要である

1件のコメント

GN⁺ 5 시간 전

Hacker Newsの反応

DwarfStar4はDeepSeek 4を実行できる小型のLLM推論ランタイムで、ブログ記事を見る限り現時点では96GB VRAMが必要らしい
文脈が足りない人向けの説明です :-)
- それはフルモデルではなくFlash版で、量子化もだいたいQ2〜Q3程度なので、印象的ではあるもののフルモデルとはかなり異なる
- 96GB VRAMが必要とのことだが、RAMがそれより少ないMacで動かした人がいるのか気になる
  動作はするが、ストレージからモデル層を読み込みつつ少し遅くなる可能性はありそう
- DwarfStar4がllama.cppとどう違うのか気になる
コーディングに必要な知能がどの時点で「十分」に達するのか、とても気になる
ある時点からは、少し賢さの劣るモデルにより長く問題へ取り組ませれば同じ結果に到達できるし、私が介入しないなら結果的には同じことになる
DeepSeek V4 Proはほぼその地点まで来ている感じがするし、Flashもそうかもしれない
その地点に達したとき、Anthropicの現在のビジネスモデルのどれだけが崩れるのかも気になる
これまでは最も賢いモデルにお金を払うのは明らかに価値があったが、いまやその概念の成長余地は限られているのが明らかに見える
残された滑走路がどれくらい長いのかが問題で、Anthropicが企業・生産性分野へ急いで広げているのも、すでにこの流れを見ているからなのか気になる
- より賢いモデルは、小さなモデルにはできないことをそのままやってのける場合がある
  単に長く待てばよいという問題ではない気がする
- 結局は常にコストの問題になるだろう
  開発者の時間、開発者コスト、AIコスト、開発者の生産性のバランスだ
  4.6を見ると一般企業基準ではコスト許容限界に近く見えるので、ほかの変数が変わる必要がありそうだ
- オープンソースのコーディングエージェントKiloが、Deepseek v4 ProとFlashをOpus 4.7、Kimi K2と比較テストしていた[1]
  結果は悪くなかったが、Opusよりスコアはかなり低く、Deepseekの現在のリリース記念価格を適用してもコストはほぼ同じだった
  このコスト構造は興味深く、SonnetとOpusでも似たようなものを見たし、自分でベンチマークしたときも、価格は良さそうでもトークンを使いすぎて「より高価な」モデルとコストが同じになるモデルがあった
  [1] https://blog.kilo.ai/p/we-tested-deepseek-v4-pro-and-flash
- 趣味のプログラマにとってはかなり早く十分に良い水準へ達するだろうが、企業は依然としてより速くより賢いモデルにお金を払うと思う
  なぜプログラマを待たせるのか
こういう狭く特化したツールを見つけられてうれしい
対応バックエンドはMetalが主なターゲットで、96GB RAMのMacBookから始まっている
NVIDIA CUDAはDGX Sparkを特に意識しており、AMD ROCmはrocmブランチでのみサポートされている
antirez自身に直接ハードウェアへのアクセスがないためmainとは分離されており、コミュニティが必要なときにリベースする構造になっている
このプロジェクトはllama.cppとGGMLなしには存在しなかっただろうし、謝辞セクションを読んでほしいとも書かれている
ただ、まだシステムRAMへのオフロードはサポートしていないようだ[0]
なのでllama.cppのissueも引き続き見ておきたい[1]
[0] https://github.com/antirez/ds4/issues/108
[1] https://github.com/ggml-org/llama.cpp/issues/22319
- AMD ROCmがrocmブランチでしかサポートされないとのことだが、実際に試した人がいるのか気になる
  このスレッドはMacBook Proの話が多いが、128GB統合メモリのあるAMD Halo Strixで試してみたい
- それだけのRAMを積んだMacを、まだ買えるだけでもいいのだけれど
Mac Studioでローカルネットワーク経由でQ4版を使ってみたが良かった
複数のエージェントと一緒に使っていたら、仕事をあまりにもうまくこなすので、初めてローカルモデルだということを忘れた経験まであった
ただ、さらに別のエージェントが本当に必要なのかは疑問だ
Piで動かしたが、Claude Codeのシステムプロンプトはプリフィル速度を考えると重すぎる一方で、結果は素晴らしかった
OpenCodeも良い選択肢だ
Deepseek 4専用に似たツールをもう1つ作って、さらに得るものがあるのか気になる
- 機能面では、さらに別のエージェントは必要ない
  ただしDS4自体のアイデアに従うと、APIエージェントはDSML構文をJSONへ翻訳するなど妙なことをさせられ、その結果として正規化やKVキャッシュのチェックポインティングの問題が生じる
  実際にそうかどうかは別として、もっとまともな代替案を提供することにも意味はある
  この分野で、より多くのものをC/Go/Rustで書いて制御性、速度、依存関係の削減を得ようとしない理由もよくわからない
  TUIの面でも想像できることはたくさんある
  ほとんどのプロジェクトは、すでに見たものをそのまま模倣する問題があるが、たとえば20分でこんなものを作った: https://x.com/antirez/status/2055190821373116619
  もはやコードは安くなり、アイデアの価値のほうが大きくなった
  今日でも「また別のXYZが必要なのか？」という発想が正しいのか確信がない
  新しいアイデアを探るためだけでも価値があるかもしれない
  個人的にはJavaScript / Nodeエコシステムをコードに使うのが好きではないので、新しいTUIやエージェントワークフローを試すとき、より快適なツールでやると結果や反復の過程が変わってくる
- DS4は推論エンジンであって実行ハーネスではない
  推論APIサーバーを提供し、そこへコーディングハーネスをつなぐ方式だ
いまはハードウェア的に無理で使えないが、気に入っている。M2 Maxで96GBしかない
一般ユーザーや大衆向けコンピュータでは使えない、あるいはもっと悪く見えるのも理解できる
昔、家庭用コンピュータがパーソナルコンピュータになる前はおもちゃ扱いされていたことを思い出す
現在の自分のハードウェアでどうにか実用になる組み合わせは、pi agent + llama.cpp + nemotron cascade-2モデルだ
1Mコンテキストまで可能で、ハイブリッドアーキテクチャなので、コードエージェントが使う10K・50K・100Kのコンテキスト深度でも1/N²のように崩れない
数日前、飛行機の中でインターネットなしでもpi agentをllama.cppサービングで動かせて、40〜30トークン/秒くらいでぎりぎり実用になって笑ってしまった
普通APIの速度はその2倍の60〜80トークン/秒くらいだと認識している
推論中、センサーは60W消費を示しており、バッテリーはおそらく3時間以上は持たないだろう
モデルサイズが30Bしかないので、KVキャッシュやほかのプログラム用の空間に余裕があり、余裕を持った8ビット量子化でも問題ない
一度にアクティブになるパラメータが3BしかないMoE A3Bが、老朽化したM2 Maxで扱える上限のように見える
- macOSで違う動きをするのかはわからないが、CUDAとDeepSeek-V4-Flash-IQ2XXS-w2Q2K-AProjQ8-SExpQ8-OutQ8-chat-v2-imatrix.ggufの組み合わせなら、コンテキスト込みで96GB VRAMに収まる
  だから、macOSがデフォルトでOSやディスプレイに数GBのRAM/VRAMを使うのでなければ、理論上は可能なはずだ
- そのコンピュータでも動きそうだ
  前向きな報告がいくつかある
- 96GBあれば、特に制限されたコンテキストなら動くはずだ
  ただしM2 Maxは少し遅い
Claudeにかなり近く感じられて驚いた
もちろんずっと遅いが、そこまでずっと愚かかというとよくわからない
興味深いことに、imatrix量子化はOpenRouterのzdr推論バックエンドが使うどの量子化よりも良く見える
昨日は、自分のサーバープロセスが自分自身だということを、私が言わなくても見抜いたが、ローカルモデルでそんなことは初めてだった
- どんなプロンプトを与えたのか気になる
- 明らかに逸話的なテストではあるが、DeepseekV4 ProはコーディングではSonnetより良かった
  ずっと遅いが、現在のプロモーション価格なら特に何倍も安い
モデルごとに新しい推論エンジンを作る理由が説明されていないように思う
単にllama.cppを使えばよく、すでに多くの人がllama.cpp統合作業を進めている
1つのモデルに多くの労力を注ぎ込むことになり、より優れた別のモデルが出ればすぐに古くなる可能性が高い
ある議論では、人々がllama.cppブランチとds4の両方にPRを作っているので、このモデルに開発時間を投資する希少な人材が分散している
- 自分の所有していない成熟した扱いづらいC++コードベースより、直接所有している集中したCコードベースで作業するほうがずっと簡単だ
  それでも問題ない。人々がその作業をllama.cppへポーティングするだろうし、みんなが得をする
  ds4のユーザー体験も素晴らしい。検証済みモデルと良い量子化を手に入れるのがとても簡単だ
  llama.cppはノブが多すぎて、もっと荒野でハックしている感じがする
- 前提は「コードは安く、協業、たとえばupstreamへの反映は高い」ということのようだ
  それが本当かどうかは、数年後にわかるだろう
- 作者が何度も言っているように、llama.cppのメンテナは人間がレビューしていないAI生成コードが広く流入することを望んでいない
  誰かがそのプロジェクトにサポートをupstreamしたければ自由にすればよく、コードはMITライセンスだ
- ある時点から、llama.cppやLinuxのような大規模で柔軟なプロジェクトに必要な抽象化・一般化の水準は、ファイル数を膨大に増やしてしまう
  より新しく小さなプロジェクトのほうが、より速く動ける
DeepSeekV4 Proは本当に有能なモデルで、特に提示されている価格帯を考えると非常に良い
Cでraylib上に2.5Dエンジンをいじりながら、補助役としてDeepSeekを使っている
OpenaCodeでは思考過程の記録が透過的に見えるが、その思考過程を見るのは驚くほどだ
読むにはとても長いが、無駄だったり意味のない部分はなかった
DeepSeekはいつも、私が考えていなかった点や間違っていた前提を思考過程の中で示し、最終出力では私の flawed request に合わせて整えてくれた
すると私は「ちょっと待って、君もそう考えたんだよね、それが正しくて私が間違っていたのだから、その側面も考慮しよう」と再度指示することになる
こういうものを自分のコンピュータだけでなく、クライアント案件やクラウドGPUでも動かせるといい
強力なモデルをクラスターなしで効率的に使えるという中核のアイデアは、多くのビジネスケースにも依然として当てはまる
こうした方式がバッチモードでも動くことを期待したい
いまのところH200では、スマート音声エージェントのエージェント型ツール呼び出しにMTP付き4ビットQwen 3.6 27Bが最良の一つのように感じる
DS4 Flashが2ビット80B、アクティブ13B、MTP構造なら、より速くより賢く、同時シーケンス数もさらに多く許容できるのか気になる
この特別な2ビット量子化はかなり大きな意味を持ちそうだ
ローカルモデルで「知能」と呼ぶべきものなのかはともかく、性能と速度が急速に向上しているのを見ると、この領域の成長率と天井がどこにあるのか気になる
数年以内に、たとえば16GB RAMでもこのレベルの知能と性能が可能になるだろうか？
ここで新しい種類のムーアの法則を定義できるだろうか？
- 正直なところ、こういうモデルを「大型モデルっぽさ」まで含めて16GBに押し込むのは、今の時点では不可能か、現実的ではない
  アーキテクチャの革新、ハードウェアの革新、あるいは何らかの量子化技法の革新が必要だ
  問題は、アクティブでないパラメータもすべてメモリ上に置いておかなければならない点にある
  MoEでもRAMの内外へパラメータを切り替えるのは遅すぎる
- この分野の最前線で働く人たちは、異なる問題を解く並列モデルが必要だと考えているようだ
  カラスは人間に比べると非常に小さな脳しか持たないが、ある程度の知能を示し、最も愚かな人間と最も賢いカラスの問題解決能力には重なる部分がある
  だから問題は、それが何なのかということだ
  Yann LeCunは、それが私たちが今世界モデルと呼んでいるものだと見ているようだ
  世界モデルは、言語のような構造化データを予測するのではなく、行動を予測する
  ある世界がどう機能するかを予測できれば、理論的には原因と結果を推論できる
  原因と結果の推論を言語と結びつけられれば、本当の知能に近いものが生まれるかもしれない
  方向性はそちらへ向かっているように見える
  そうしたシステムのプロトタイプが出てくれば、実際にどれほどのデータが必要なのかについて多くの疑問が生まれるだろう
  1ビット量子化でLLMを縮小しても、言語理解がかなり強いモデルが出てくることはすでに見ている
  今後数年で、比較的少ないメモリでも非常に知的なAIシステムを見ることになるのは、不合理だとは思わない

DS4についていくつか

DS4の急速な普及と背景

今後の方向性

関連記事

1件のコメント

Hacker Newsの反応