TII、Llama 3 8Bを上回るFalcon 2 AIモデルシリーズを公開

(tii.ae)

2 ポイント投稿者 GN⁺ 2024-05-14 | 1件のコメント | WhatsAppで共有

アブダビのTIIが Falcon 2 シリーズを公開し、オープンソースLLM競争で多言語・マルチモーダルモデルを前面に打ち出す
Falcon 2 11B は5.5兆トークンで学習された110億パラメータモデルで、Hugging FaceリーダーボードでMeta Llama 3 8Bを上回る
Falcon 2 11B VLM は視覚入力をテキストに変換するTII初のマルチモーダルモデルで、画像解釈を複数の業界分野に適用できる
両モデルは オープンソース で提供され、TII Falcon License 2.0に従い、より軽量なインフラでも開発者がデプロイ・統合しやすいよう設計されている
TIIはFalcon 2を複数サイズへ拡張し、Mixture of Experts を検討して性能と応答品質の向上を図る

Falcon 2の公開とモデル構成

Technology Innovation Institute はアブダビの Advanced Technology Research Council 傘下の応用研究組織で、2024年5月13日に大規模言語モデル Falcon 2 を公開した
今回のシリーズは2つのモデルで構成される
- Falcon 2 11B: 5.5兆トークンで学習された110億パラメータのLLM
- Falcon 2 11B VLM: 視覚入力をテキスト出力に変換するビジョン・トゥ・ランゲージモデル
両モデルとも 多言語 をサポートし、Falcon 2 11B VLMはTII初のマルチモーダルモデルである
TIIはFalcon 2 11B VLMを、現時点の最上位市場において画像からテキストへの変換機能を備えた唯一のモデルとして打ち出している

性能比較と活用範囲

Falcon 2 11BはHugging FaceのオープンLLM評価リーダーボードで事前学習モデル群と比較された
- Meta Llama 3 8B より高い性能を記録した
- Google Gemma 7B とほぼ同じスコアで上位に位置した
- スコアはFalcon 2 11Bが64.28、Gemma 7Bが64.29だった
Falcon 2 11Bモデルは英語、フランス語、スペイン語、ドイツ語、ポルトガル語など複数言語のタスクを処理する
Falcon 2 11B VLMは画像や周囲環境の視覚資料を識別・解釈できる
- 適用分野としてヘルスケア、金融、電子商取引、教育、法務分野が挙げられる
- 文書管理、デジタルアーカイブ、文脈インデックス化、視覚障害者支援といったユースケースも含まれる

公開形態と今後の計画

Falcon 2 11BとFalcon 2 11B VLMはいずれも オープンソース として提供され、開発者が利用できる
両モデルは単一の GPU でも効率的に実行でき、ノートPCやその他のデバイスのようなより軽量なインフラにもデプロイ・統合しやすいと紹介されている
Falcon 2 11BはApache 2.0ベースの寛容なソフトウェアライセンスである TII Falcon License 2.0 で提供される
- 責任あるAI利用を促進する許容利用ポリシーを含む
TIIは今後、Falcon 2次世代モデルのサイズを多様化し、Mixture of Experts の導入を検討している
- Mixture of Expertsは、異なる専門性を持つ小規模ネットワークを組み合わせ、より精緻でカスタマイズされた応答を作る方式である
- TIIはこのアプローチが精度を高め、意思決定を加速できると見ている
新モデルの情報は FalconLLM.TII.ae で確認できる

1件のコメント

GN⁺ 2024-05-14

Hacker Newsの意見

ベンチマーク結果は Mistral 7B や Llama 3 8B とおおむね同程度に見えるが、モデルサイズが大きくなっていることを考えると、それほどすごいとは思えない
https://huggingface.co/tiiuae/falcon-11B
https://huggingface.co/meta-llama/Meta-Llama-3-8B
https://mistral.ai/news/announcing-mistral-7b/
- その通り。Falcon-180b も最初は過大評価が多かったが、コミュニティはすぐにほとんど使い物にならないことに気づき、一般的なケースではより小さい大規模言語モデルにあっさり負けていた
  今回は falcon-11b が Llama 3 8b より優れていると主張しているが、すでにいくつも問題が見える。falcon-11b は Llama 3 8b より約40%大きいため、同じサイズ帯として比較するのは難しく、主張は自動ベンチマークに依存しているが、自動ベンチマークだけではそのような結論を出すには不十分だということは、ずいぶん前から明らかだった
  一部の自動ベンチマークのスコアは Llama 3 8b よりかなり低く、たった1つのベンチマークでかろうじて上回っているだけだ。あるベンチマークで史上最高に見えるようにすることは可能だが、それは良いモデルであることをまったく意味しない
  人間による評価がまったくないにもかかわらず、意図的に性急な主張を含む釣りタイトルを使っており、Llama 3 より優れていると言いながら Llama 3 70b は完全に無視している
  正直、tiiuae が有用なものを出せていないのに、こうした誤解を招く釣りを続け、それでも過剰な注目を集めているのは腹立たしい
- 彼らのモデル全般がそういう感じに見える。サイズは本当に大きいのに、かけた労力に見合う実際の性能向上がない
  精製したウェブデータセットが厳しく検閲されているので、その影響もあるかもしれない。道徳的に非常に保守的で、ポルノや多くのトピックを完全に排除している
  だから、コンテンツをあまりにも多くフィルタリングし、似たようなものばかり追加していることが問題の一因だとしても驚かない
- 比較する指標が合っていない可能性もある
  モデルがより大きいのは事実だが、学習には Llama 3 より少ないトークンで済んでいる。公開データセットがないと、適切に比較して再現するのが難しいのが問題だ
  モデル構造のせいなのか、データセット品質のせいなのか、モデルサイズのせいなのか、その組み合わせなのか、あるいは別の理由なのかは判断しにくい
ライセンスが良くない: https://falconllm-staging.tii.ae/falcon-2-terms-and-conditio...
追加条項の付いた修正 Apache 2 ライセンスで、そこには利用許諾ポリシーに従う必要があるという要件が含まれている: https://falconllm-staging.tii.ae/falcon-2-acceptable-use-pol...
ところがその修正 Apache 2 ライセンスには、「利用許諾ポリシーは随時更新される可能性があり、著作物や派生著作物の利用が更新後のポリシーに準拠しているか確認するため、ポリシーがホストされているウェブアドレスを監視しなければならない」という内容がある
現在の利用許諾ポリシーをどう見るにせよ、将来好きなように変更する権利を残しており、ユーザーは新しいポリシーに従わなければならない
こういうライセンスを、OSI の定義と互換性がないにもかかわらずオープンソースと呼ぶ流れが嫌いな理由をよく示している
- 基本的に、些細でない用途には絶対に使えない。いつでも通知なしにユースケースを禁止できるからだ
- 「将来好きなように変更する権利を残しており、ユーザーは新しいポリシーに従わなければならない」という条項が、実際に法廷で維持されるのか本当に気になる。関連する判例や先例があるのか知りたい
- こういうライセンスいじりは初めてではない。Falcon 1 のときにもあった。努力は評価するが、まだ収益化するかどうか、どう収益化するかを探っている途中のように見える
- 40b モデルは純粋な Apache に見える
「新しい Falcon 2 11B は Meta の Llama 3 8B を上回り、先進的な Google Gemma 7B モデルと同等の性能を発揮する」という文言があるが、Llama 3 8B はほぼすべての指標で Gemma 7B を上回っていると強く認識していた
- これはチャットチューニング済みモデルではなく、基盤モデルの比較だという点を見るべきだ。Falcon-11B には現時点でチャットチューニング済みモデルがないからだ。Meta のチャットチューニングは Gemma のチャットチューニングより良さそうに見える
  それでも Gemma 1.1 のチャットモデルは、使ってみた限りではかなり良く、Llama3 8B のチャットモデルのほうが確実に優れているとは思う
  CodeGemma 1.1 7B は、関連するコーディングモデルと比べると特に過小評価されている。基盤 CodeGemma 7B モデルはコード補完で試したモデルの中でも指折りに良く、チャットモデルもコード作成で試したモデルの中でも指折りに良かった
  他のモデルはベンチマークをよりうまく攻略しているように見えるが、実際の利用では CodeGemma ほど持ちこたえられなかった。CodeLlama3 がどう出てくるか楽しみだが、まだ存在していない
- 逸話的ではあるが、自分の経験では Gemma は完全に使い物にならず、Llama 3 8b はサイズの割に例外的に良い。Gemma が Llama 3 より上だという考えは奇妙に感じる。もし一部のベンチマークで Gemma が上回っているなら、汚染のようなものがあるのではないかと思う
- 私もそこが変だと思った
  最近はベンチマークをあまり追っておらず、バスケットボールに完全に打ち込んでいる
  ちなみに私は実は Lebron より少し上手い。Lebron は私の3歳の娘よりもずっと下手で、私はたまに娘に勝つ。バスケットボールでは
はあ、これは Spectrum Holobyte の Falcon AT についての記事だと思ってしまった。MyAbandonware.com によると:
「本質的には Falcon 2 だが、なぜか別の売り方をされた Falcon AT は、Spectrum Holobyte の革新的なハードコア飛行シミュレーション Falcon シリーズの第2作だ。Falcon 3.0 が現代的な飛行シミュレーションの始まりだという通説とは異なり、Falcon AT はすでに Falcon から大きく進化しており、鮮明な EGA グラフィック、多くのリアルなオプション、大幅に拡張されたキャンペーンを備えていた。このゲームは、Falcon ファンが知り、愛するようになった優れたチュートリアル、多様な任務、正確な飛行力学を備えた現代空中戦シミュレーションだ。数々の革新の中には、ホットシートやモデム経由で驚くほど遊べるマルチプレイオプションもあった。今ではおおむね忘れられているが、Falcon AT は Falcon と Falcon 3.0 の間にある説明しづらい空白を埋めてくれる」
- 新製品の名前を古典的なコンピューターゲームから取る流れがあるように思える。意図したものではないかもしれない。ついさっきもここで Loom というシステムの記事があったが、古典的なアドベンチャーゲームではなかった。そのうち誰かが大規模言語モデルかネットワークソフトウェアを出して Zork と名付けそうだ
- いまトップに「F-16 Strike Eagle II reverse engineering」<https://news.ycombinator.com/item?id=40347662> も上がっているので、同じように考えてしまう連想を促す一因になっている
「視覚・言語機能を備えた唯一の AI モデル」という文言が何を意味するのか分からない。これはだいたい GPT-4 Vision と LLaVA がやっていることではないのか？
- 最初は意味をひねった冗談を言っているのかと思った
  LLaVA は言語・視覚モデルだ、ということなのかもしれないが、そう解釈しても筋が通るようにはできなかった
  単に嘘をついているだけなのかもしれない
- Claude のモデルも全部当てはまる
オープンモデルは歓迎だが、ここでも指摘されているように Falcon モデルはそれほどオープンではない。元の Falcon もベンチマークの数値が示唆するほどよく動かなかった。大きな進歩のように押し出していたが、リリース当時の競合するオープンモデルを上回っているとは感じなかった
11B モデルが「同じクラス」の 7B や 8B モデルを上回るという宣伝文句は、少し無理があるように感じる。様子は見るが、ローカル推論では間違いなく一度試してみるつもりだ。ただ直感では、今週時点ではファインチューニング済みの llama 3 8B が同クラス最高である可能性が高い
- 自分も元の Falcon がベンチマーク数値ほどの性能を出さないのを見た。パラメータ数に対するトークン数という観点で、学習が足りなかったのだと思う。単に 400億パラメータのモデルを持ちたかっただけのようで、Chinchilla 最適化以前のやり方に近かった
AI が、倫理的な監視を少なくとも一部は試みる民主国家だけでなく、最悪の独裁者たちにも使われるのだという、こうしたリマインダーは本当にぞっとする
- MBZ は MBS ではないし、サウジアラビアと UAE は別の国だ。MBZ は世界で最も人気のある指導者の一人で、彼の国民は最も裕福な部類に入る
  彼の国は、経済が今も着実に成長している数少ない先進国の一つであり、世界で最も自由な移民政策の一つを持っているにもかかわらず、東アジア以外では最も安全な国の一つでもある
  最悪の独裁者というより、最高の独裁者候補にはるかに近い
理解したいことがある。このモデルは大半を公開データセットで学習し、AWS のハードウェアを使い、よく知られたアルゴリズムと手法を使ったのではないのか？資金さえあれば誰でも学習できる他のモデルとどう違うのか？
懐疑的というかアンチ寄りの自分の見方では、これは単なる誇示であり、関連性があるように見せようとする努力に見える。こうした試みについて、自分が見落としているものが他にあるのだろうか？
- 多くのモデルがこのカテゴリに入る。主権性には、国家であれ企業であれ、ある程度の価値がある。競争の脅威もすべての人にとって良いことだ
  最終結果の大半が特に興味深いものでなくても、こうした作業をしている人たちがいるのは喜ばしい
しばらくの間、これは古典的な飛行シミュレーションに関係するものだと思っていた:
https://en.wikipedia.org/wiki/Falcon_4.0
- SpaceX にも Falcon 1 と Falcon 9 ロケットがあり、提案はされたが開発されなかった Falcon 5 もある
UAE よ、もう少し控えめにやれよと言いたくなるほど記事の偏りがばかげている。「llama 3 に勝った」は疑わしいほど役に立たない要約だし、「視覚・言語機能を備えた唯一の AI モデル」という部分はただただ困惑する

TII、Llama 3 8Bを上回るFalcon 2 AIモデルシリーズを公開

Falcon 2の公開とモデル構成

性能比較と活用範囲

公開形態と今後の計画

関連記事

1件のコメント

Hacker Newsの意見