1 ポイント 投稿者 GN⁺ 2025-12-15 | 1件のコメント | WhatsAppで共有
  • Kimi K2 1Tモデル512GBメモリを搭載したM3 Ultraチップ2台で動作した事例
  • Xの投稿で、このモデルの実行環境とハードウェア構成に言及
  • 1T規模のモデルを市販のMacハードウェアで動かした点が注目される
  • 高性能なApple SiliconベースのAI演算の可能性を示す事例
  • 大規模言語モデルのローカル実行の限界拡張を示唆する技術的な試み

X投稿の内容

  • 投稿では、Kimi K2 1Tモデルが**M3 Ultra 2台(各512GBメモリ)**で動作したと明記
  • 追加の性能数値や結果についての説明はなし
  • 当該ポスト以外に、追加の文脈や技術的な詳細情報は提供されていない

1件のコメント

 
GN⁺ 2025-12-15
Hacker Newsのコメント
  • Kimi K2は本当に変わったモデル
    Opus 4.5や5.2-Proほど賢いわけではないが、文章スタイルが非常に独特で、人と会話しているような率直なトーンを持っている
    メールのような短文を書く用途では現存最高レベルで、会話中にミスを指摘したり、的外れなことを正したりするのをためらわない
    他のモデルとはまったく違う学習をされたように感じられ、データ分析よりも編集にはるかに役立つ
    そのため実際にKimiのサブスクリプション料金を払って使っている
    • 私も同感だ。短いコミュニケーションではKimi K2が群を抜いている
      感情知能(emotional intelligence) が優れていて、メッセージのニュアンスや意図をよく読み取り、社会的文脈まで考慮して文章を整えてくれる
      Moonshotがどう学習させたのかは分からないが、この点は本当に注目に値する
      EQ-benchで感情知能評価の1位を取っていたが、私の体感と完全に一致している
    • 私が気に入っているAIベンチマーク、Clocksテストを安定して通過する唯一のモデルだ
    • 私が間違っているときに正直に指摘してくれる唯一のモデル
      「再現可能な例を提示してください」といったことを言うチャットボットを見るのは新鮮な体験だ
      ちなみにKagiでもKimi K2を使える
    • Sonnet 4.5も同じようにユーザーに反論することがあるが、たいていは文脈不足から生じる誤解だ
      Kimi K2がこの点でどれほど正確なのか気になる
      結局、モデルの本質は指示追従(instruction following) ではないかと思う
    • こうした特性のおかげでEQ-benchのスコアが高いのも当然だ
  • Kimi K2は本当に印象的なモデルだ
    過度におべっかを使わない態度のおかげで、論理検証用として有用だ
    以前のChatGPTモデルは何でも褒めていたが、Kimiは頼めば知能や祖先まで疑うほど容赦なく批判する
    • 頼めば本当にroastモードに入る。集中力の維持に役立つ
    • 以前Teslaの中でGrokを起動していたら音声認識が誤作動して気まずい思いをしたことがある
      そのモデルもKimiのようにまったくおべっかを使わない性格だった
  • M3 Ultra 512GBモデルは**$9,499**だ
    Apple公式リンク
    • 整備済製品ならこのリンクで**$8,070**で購入できる
      ギフトカードでさらに10%割引も可能だ
  • この構成のLinux版があるのか気になる
    RDNA対応の話は聞いたが、ハードウェア依存なのか(ConnectXやApple Thunderboltが必要なのか)、それとも一般的な10G NICでも可能なのか分からない
    • 本番レベルの性能を出すにはRDNA互換ハードウェアが必要だ
      ただしvLLMは一般的なイーサネットベースのマルチノードクラスターもサポートしている
  • いつものことだが、性能の主張はコンテキスト長やprefill条件を明記しないため誤解を招く
    長いコンテキストを使うと、返答を待つのに数分かかることもある
  • こういう機材を何台か買いたくはあるが、減価償却を考えるとまだ早い気がする
    数年以内にはもっと安くなるだろう
    • 購入前には実際の速度ベンチマークを必ず確認すべきだ
      「動く」という言葉だけを信じてはいけないし、長いコンテキスト時の処理速度はまったく別物だ
    • 個人的には、こうした機材を買うのは経済的に見合わないと思う
      同じ金額でクラウド利用量をはるかに多く確保できる
      しかも24時間365日回すわけではないので効率が悪い
      オープンソースモデルはGroqやCerebrasのような超低遅延サービスで動かしたほうがずっと楽だ
    • ローカルモデルを動かす理由はプライバシーのためであって、コストやレイテンシのためではない
    • 次のアップデートではM5系の派生チップが載ることを期待している
    • RAM価格が安定するまで待つのがよさそうだ
  • 最近はどのベンチマークが有効なのか気になる
    Cursorで複数のモデルを試しているが、Deepseek v3.2やKimi K2はフォーマットの問題でうまく動かず、他のモデルも抜けている
    特にC++やRustのような非Web分野のベンチマークが気になる
  • このモデルが4bit量子化(quant) 版であることに触れておくべきだ。それでも印象的だ
    • Kimi K2はもともと4bit最適化を目標に設計されたモデルだ
    • パラメータ数が兆単位なら、量子化はすでに前提条件だと思う
  • Exo Labsのtoken pre-fill高速化をDGX Sparkで動かせるのかも気になる
    Spark 2台とMac Studio 2台を組み合わせれば、M5 Ultra 2台に近い推論速度を出せるのではないかという疑問だ
  • 最近のリアルタイム時計描画大会で優勝したモデルはこれではないかと思う