- 1月28日ごろ、ユーザー「Miqu Dev」が、オープンソースAIモデルおよびコード共有プラットフォームのHuggingFaceに、「miqu-1-70b」という新たなオープンソース大規模言語モデル(LLM)のファイルセットを投稿
- このモデルは、現在最も高性能と評価されているオープンソースAI企業Mistralが開発したMixtral 8x7bと同じ「Prompt format」を使用
- 同日、匿名ユーザーが4chanにmiqu-1-70bファイルへのリンクを投稿
- 一部のユーザーによれば、このモデルは一般的なLLMタスクで優れた性能を示し、OpenAIのGPT-4に近いことが明らかに
Mistralの量子化?
- 機械学習(ML)研究者らはLinkedInで、「miqu」が「MIstral QUantized」を意味するのかに関心を示す
- 量子化とは、AIモデルをより性能の低いコンピューターやチップ上で実行できるようにするため、モデルアーキテクチャ内の長い数値列をより短いものに置き換える技術
- Mistralの共同創業者兼CEOであるArthur Menschは、「Miqu」モデルがMistralのアーリーアクセス顧客の1社にいた熱意が強すぎる従業員によって流出したと明かす
- MistralはこのモデルをLlama 2から再学習させ、Mistral 7B公開当日にPretrainingを完了しており、その後も良い進展を見せている
- 興味深いことに、Menschは違法なHuggingFace投稿に削除を求めるどころか、「クレジット表記を検討できる」とのコメントを残した
オープンソースAIとその先における重大な瞬間?
- GPT-4級の性能を持つオープンソースモデルの登場は、オープンソース生成AIだけでなく、AIおよびコンピューターサイエンス全体にとっても重大な瞬間となる可能性がある
- OpenAIはGPT-4 TurboとGPT-4V(Vision)によって競争優位を維持できるかもしれないが、オープンソースAIコミュニティは急速に追い上げている
GN⁺の見解
- 「Miqu」モデルの登場は、オープンソースAI分野において商用AI製品と競争できる新たな可能性を示している
- この出来事は、オープンソースコミュニティの革新的な能力と技術の急速な発展を強調している
- オープンソースモデルの進化は、企業がAIを活用する方法に変化をもたらす可能性があり、これはテクノロジー業界全体に重要な影響を与えるだろう
1件のコメント
Hacker Newsの意見
あるユーザーはTheBlokeのページを注視しつつ、自分のMacBookでMiqu Q5量子化モデルを実行できるようになるのを待っている。Mixtralを毎日使っており、このモデル(または新しい公式版)がGPT-4に近いなら、OpenAIのサブスクリプションを解約するつもりだという。Mistralの小規模チームは競合を上回っており、まさに"Open"AIがあるべき姿だと考えている。
あるユーザーは、GPT-4のリリースから1年が経ったにもかかわらず、いまだにGPT-4へ追いつこうとする集団的な取り組みは、特別な秘訣もないまま非常に消耗戦になりそうだと述べている。しかもOpenAIはいつでもはるかに優れたものを出せると分かっているのだから、なおさらだという。
別のユーザーは、GPT-4に近いという主張について、リーダーボードを見るとGPT4-0314とGPT4-Turboの間には大きな差があり、仮にGPT4-0314にようやく近づいた程度なら、依然として最先端から1年遅れていると指摘している。
また別のユーザーは、流出したモデルは数カ月以内に重要ではなくなるだろうと述べている。公式モデルが出た後にはさらに良いモデルが登場するはずで、モデルそのものよりも急速な進歩のペースに興奮しているという。
あるユーザーは、なぜこのモデルがオープンソースモデルと呼ばれているのか疑問を呈している。これはインターネットに流出したプロプライエタリモデルであり、Mistralが正式に公開するまではそうだという。個人的な利用についてはLlama 1のときのように気にしないが、どの企業もこのモデルは使わないだろうとも述べている。
別のユーザーは、Mistralは2015年以前の良き時代のテック企業を思い出させると語っている。
あるユーザーは、GPTが最新バージョンのApacheやMySQLのような存在になった世界で、私たちが数百万のWebホスト(失礼、AIホスト)へと回帰する姿をどう想像できるのか不思議に思っている。
最後に別のユーザーは、GPT-4はほぼ1年前にリリースされたものであり、OpenAIが毎月のように革新的な技術を出していた速いペースは止まったように見えると述べている。OpenAIで何が起きているのか、最近の混乱が会社に遅延をもたらしたのか、それとも何らかの「スーパーウェポン」を開発しているのか気になっているという。