- Deepseek R1-0528 は 最新のLLM として公開された
- このモデルは オープンソース として提供され、アクセス性と活用性を高めている
- さまざまな 自然言語処理および生成タスク で強力な性能を示す
- より高速で効率的なアーキテクチャ により、研究および実務活用に利点を提供する
- AI分野で 競争力 のある新たな選択肢として浮上している
Deepseek R1-0528 モデル紹介
- Deepseek R1-0528 は 最新の大規模言語モデル(LLM)であり、自然言語理解および生成の領域で利用できる
- このモデルは Hugging Face を通じて オープンソース として公開されており、研究者や開発者なら誰でも自由に活用できる
- DeepSeek-AI が開発した R1-0528 モデルは大規模データセットで学習されており、テキスト要約、翻訳、質問応答、コード生成 など多様な自然言語処理および生成タスクに適用できる
- 既存の公開オープンソースモデルと比較して、より優れた推論速度と最適化されたネットワーク構造 を特徴とする
- これらの強みにより、研究および実際の産業環境で 高速かつ正確な結果 を求める開発者に好まれる選択肢として注目を集めている
モデルの特徴と利点
- Deepseek R1-0528 は 拡張性、効率性、迅速性 の面で既存のLLMモデルとの差別化を持つ
- 開発者がモデルを容易にカスタマイズし、さまざまな言語やドメインに特化して適用できる モジュール型構造 を採用している
- 改良されたアルゴリズムにより、学習および推論段階の 処理速度 が向上している
- すべてのユーザーは Hugging Face ライブラリを通じて簡単にモデルをロードして利用できる
活用と期待効果
- AI研究、チャットボット、文書自動生成、コード支援ツールなど 多様な実務シナリオ に活用できる
- オープンソース公開により、実データセットへの適用およびモデル性能の検証 を自由に行えるようになる可能性がある
- DeepSeek R1-0528 のリリースは、グローバルなAIコミュニティにおける 健全な競争環境と技術的進歩 を促進する
1件のコメント
Hacker Newsの意見
最初に、7つのプロバイダーで
openrouterを通じて DeepSeek R1 が使えるようになっていたことを知ったリンク
5月28日の元の DeepSeek R1 アップデートで、性能は OpenAI o1 と同程度
オープンソースとして reasoning tokens も公開されている
総パラメータ数は 671B で、推論時には 37B のみが有効化される
完全なオープンソースモデルだ
ダウンロード可能なモデルがあるのか気になる
openrouterに馴染みがなく、ollama ではモデルが見つからないので、もう少し調べたいモデルがどのデータで学習されたのかはまったく明らかにされていない
ダウンロード可能な重みは公開されたが、根本的に再現可能なオープンソースではない
学習データまで直接公開するプロジェクトとして "Open R1" があったが、
現在の進捗がどうなっているのか気になる
リンク
DeepSeek R1 がオープンソースだという主張には同意しない
ダウンロードできるからといってオープンソースではない点を強調したい
リンク
DeepSeek R1 に関する情報がまったくなくて残念
ベンチマーク情報もなく、昔 Mistral が torrent のマグネットリンクをツイートで投げていた頃を思い出す
最近のベンチマークはあまり意味がない気がする
既に公開されたテストにモデルを合わせることにばかり集中していて、
汎用性を高めようとする本質的な進歩はおろそかになっている
Huggingface のリーダーボードを見ると、さまざまなオープンソースモデルのファインチューニングが上位だが、実際には広く使われていない
リンク
ベンチマーク表では "Overall" と "Median" のスコアは見えるが、
具体的に何をテストしたのかという情報がない
最新モデル群と概ね似た水準に見えるが、コスト面ではやや優位性がある
欠点は以前の R1 と同様、推論速度が遅いこと(トークン消費が多いこと)だ
表リンク
DeepSeek の公開方式が昔の Mistral と似ているが、意図的なオマージュなのか気になる
DeepSeek はモデルを公開した翌日に論文を上げることが多い
この日程をもう少し調整すればもっとすっきりすると思うが、今はニュースサイトで情報がやや錯綜している
DeepSeek が古い iOS バージョンの入った iPod Touch で動く数少ない LLM だという点がユニーク
DeepSeek が新しいアップデートを何気なくぽんぽん公開する感じが好き
大きな改善があっても別途宣伝せず、静かに公開される雰囲気が好み
本当に改善が大きいのか気になる
ベンチマークのような公式の比較資料があるのか知りたい
OpenAI はもちろん Anthropic も最近は新モデルを大げさに見せていて、
「このモデルがどれほど危険か、どう脱出し、人をだまし、中核サーバーをハッキングしたか」といった物語を付けて
ナイトメア感を出している一方、DeepSeek は誇張せず淡々とリリースするスタイルだ
実際には WeChat で正式に発表したようだ
こういう静かなリリース方式も良いが、それでもベンチマークのような数値資料も提供されるとさらに良いと思う
Nvidia の決算発表当日に合わせて公開されたタイミングも面白い偶然だと思う
こうした大規模 LLM を、遅くても一般の人が使うには具体的にどんなハードウェアが必要なのか気になる
一般ユーザーが設定を簡単に落として使ったり、モデルサイズを縮小して使う方法があるのかも知りたい
DeepSeek R1 をオフロードと 1.58bit 量子化(quantization)でローカル端末上で動かすことに成功した
関連情報: リンク
新しいバージョンの作業も進行中
4bit quantized 版は M3 Ultra 512GB で動作可能
価格はかなり高い
別の方法としては、高性能 CPU と 500GB DDR5 RAM を備えたシステムを使える
これも安くはなく、M3 Ultra より遅い
もう1つの選択肢は Nvidia GPU を複数台使って VRAM 合計 500GB を作ることで、
これが最も高価だが速度は速い
デュアルソケットのサーバーボードに DDR5 RAM 768GB と、プロンプト処理用に 16GB 以上の GPU を追加する必要がある
8〜10 トークン/秒で動かすのに数百万円が必要
2000ドルの中古デュアルソケット Xeon に DDR4 768GB を搭載し、
4bit quantized 版を毎秒約 1.5 トークンで動かしている
Amazon では 1万トークンあたり約 1 セント程度で使える
EC2 インスタンスの手動設定ガイドもある
例として g6e.48xlarge インスタンス(192 vCPU、1536GB RAM、L40S Tensor Core GPU 8基、各 48GB VRAM)
月額利用料金は約 2万2千ドル程度
Bedrock DeepSeek案内
手動デプロイガイド
最新の R1 リリースへの期待が大きい
685B パラメータ規模で、モデルカード、リリースノート、変更内容、コンテキストウィンドウ情報がない
元の R1 の出力品質は印象的だが、トークン消費が大きいのが惜しかった
さらに多くの情報が公開されるのを待っている
o4 mini high と比べてほぼ半額で、大きな性能差がないのも興味深い
ほとんどのプロバイダーが量子化版を上げているという話も確認した
DeepSeek と似た性能を出すには最低でも h100 80GB GPU が 8基必要
トークンを多く使うなら OpenAI よりずっと安く使える可能性がある
Groq で DeepSeek を早く使ってみたい
現在は DeepSeek-r1-distill-llama-70b のみ対応しており、これは llama 70b に distilled されたモデルだ
Groqモデル案内