Llama 3 8B、Wizard 2 8x22Bに匹敵する性能を示す

(huggingface.co)

3 ポイント投稿者 GN⁺ 2024-04-22 | 1件のコメント | WhatsAppで共有

Meta-Llama-3-8B-Instructの性能

8Bモデルでありながら、Wizard 22Bとほぼ同等の性能を示す
従来の70Bモデルを上回る推論能力を見せる
問題解決やコーディング能力など、さまざまな領域で非常に優れた性能を発揮する

Meta-Llama-3-8B-Instructの特徴

Metaが膨大なリソースを投入し、長時間にわたってより多くのデータで学習させた成果物
開発元やハードウェアによって性能差がある。推論パラメータによっても結果が変わる
FP16版でQ8_0とほぼ同等の性能を示す。8Bでこのレベルの性能なら、量子化モデルとしては最高水準
生成内容に辛辣さやウィットのある部分がある。文の意図を把握し、適切に対応する

GN⁺の意見

単一の問い合わせには信頼性のある回答を提供するが、対話型のマルチターンではまだ限界が見られる。プロンプトテンプレートの最適化やハイパーパラメータ調整による改善が必要
3Bモデルと比べて8Bモデルの性能が非常に優れているため、8B級モデルを多様にファインチューニングして特化型モデルを作るのは有望に見える
言語理解力と推論能力に優れているため、知識集約型の分野や専門領域での活用可能性が高い。医療、法律、金融などのドメインに特化したモデルへ発展させられそうだ
Metaのリソースと技術力で8Bモデルをこの水準まで引き上げたのは素晴らしい成果。今後は個人向けPCでも高性能AIモデルを動かせるようになる見込み
8Bと70Bの間にある中規模モデルが公開されていない点は惜しい。32B程度のモデルが出れば、最適な性能と効率を示すことが期待される

1件のコメント

GN⁺ 2024-04-22

Hacker Newsの意見

Llama 3 8Bモデルは、小規模モデルを非常に長時間学習させるとどうなるのかという問いに答えている。これはMistralモデルから始まった流れであり、Llama 3ではさらに推し進められている。8Bパラメータのモデルに15Tトークンを使うのは、これまで見たことのない水準である。
小規模モデルの品質向上への期待を高めるリリースである。
Llama 3はややおしゃべりに見え、一部で誤った仮定をしているようだ。たとえば、空を見上げてつばを吐けば雲に届くと想像力を働かせたあと、現実にはそうではないと自ら訂正する。
こうした結果が、より多くの学習とそれによる能力向上から来ているのか、それともこうしたなぞなぞが今ではよく知られていて学習資料に十分に含まれているからなのかが気になる。
Llama 3の特筆すべき点は、学習データの重複排除（品質）と学習データの増加（量）に追加の努力を払い、さらに4倍多いコードを学習資料として使っていること（推論に有利）である。
学習データのキュレーションと生成にさらに力を入れることで、このような小規模モデルでも驚くべき性能向上を期待できるかもしれない。
Llama 3は依然としてMixture of Experts（MoE）を使っていない。これは、巨大なMoEモデルを作ることが無駄である可能性を示唆している。
MetaはNvidiaのAIチップに数十億ドルを投じている。今後5年以内に、スマートフォンやノートPCでGPT-4級の8Bモデルを動かせるようになりそうだ。
8B-instructモデルの論理力には深く感銘を受けた。小規模モデルの未来が楽しみである。
ローカルLLMの最大の問題は、使い方次第で人によって受ける印象が異なりうる点である。
ほとんどの企業はモデルの学習を継続しており、学習が終わる時点はない。これはGPUへの支出が莫大である理由を説明している。
今日すぐこのモデルをスマートフォンで動かすには、まずTermuxでllama.cppを実行し、ggmlなどのモデルファイルを読み込むところから始める必要がある。
8Bモデルが「1kgの鉄と2kgの羽毛では、どちらがより重いか？」という質問を間違えることに驚く。GPT-3.5も間違えたが、70BモデルとGPT-4は正解した。

Llama 3 8B、Wizard 2 8x22Bに匹敵する性能を示す

Meta-Llama-3-8B-Instructの性能

Meta-Llama-3-8B-Instructの特徴

GN⁺の意見

関連記事

1件のコメント

Hacker Newsの意見