2 ポイント 投稿者 GN⁺ 2024-05-14 | 1件のコメント | WhatsAppで共有

Falcon 2シリーズの次世代モデルを発表

  • Technology Innovation Institute (TII) が次世代大規模言語モデル(LLM)である Falcon 2 シリーズを発表
    • Falcon 2 11B: 5.5兆トークンで学習された110億パラメータのモデルで、効率性とアクセス性が向上
    • Falcon 2 11B VLM: 視覚入力をテキスト出力に変換する vision-to-language 機能を備えた初の multimodal モデル
  • 2つのモデルはいずれも多言語に対応しており、特に Falcon 2 11B VLM は、現在の最高水準モデルの中で唯一、画像からテキストへの変換機能を提供

Falcon 2 11Bの性能

  • Hugging Face の評価によれば、Falcon 2 11B は Meta の Llama 3 8B を上回る性能を示し、Google の Gemma 7B と同等の性能を示した(Falcon 2 11B: 64.28 vs Gemma 7B: 64.29)
  • Falcon 2 11B と 11B VLM はどちらもオープンソースとして、開発者に制限なく公開される予定
  • 今後 Falcon 2 シリーズはさまざまなサイズのモデルへ拡張される予定で、Mixture of Experts(MoE)技術を導入して性能をさらに高める計画

Falcon 2 11B VLMの特徴

  • 英語、フランス語、スペイン語、ドイツ語、ポルトガル語などの多言語処理が可能
  • 環境内の画像や視覚情報を認識・解釈する vision-to-language 機能を搭載
    • 医療、金融、電子商取引、教育、法務など幅広い産業分野で活用可能
    • 文書管理、デジタルアーカイブ、コンテキストインデックス化から視覚障害者支援まで、用途は広範囲
  • 単一GPUで効率的に実行でき、拡張性に優れ、ノートPCなど軽量なインフラにも統合しやすい

GN⁺の見解

  • Falcon 2 シリーズは既存の Falcon モデルの性能と効率をさらに高めた次世代モデルであり、特に Falcon 2 11B VLM は vision-to-language 機能を備えた初の大規模多言語 multimodal モデルである点に大きな意義がある。これにより、視覚データと言語データを統合処理できるようになり、より人間に近い自然なインタラクションが可能になると期待される。

  • ただし、multimodal AI はまだ初期段階にあり、安定性や堅牢性の面では改善の余地がある。そのため、実運用に向けては、データのバイアス問題、プライバシーやセキュリティの課題、誤った入力に対する脆弱性などを綿密に点検し、補っていくプロセスが必要とみられる。

  • Falcon 2 シリーズがオープンソースとして公開される点も注目に値する。これは開発コミュニティの活発な参加を促し、モデルの改善と拡張を加速させることが期待される。ただし、オープンソースモデルには悪用の可能性に対する懸念もあるため、ライセンス方針に acceptable use policy などを含め、責任ある AI 活用を促すことが望ましい。

  • Mixture of Experts(MoE)技術の導入計画も興味深いポイントである。MoE は、特化した複数の小規模ネットワークを組み合わせ、専門ドメイン間の協調によって、より精緻でカスタマイズされた結果を導く方式であり、今後の Falcon 2 シリーズの性能向上に大きく寄与すると予想される。このような研究の方向性は、単にモデル規模を拡大するだけでなく、より効率的で知的な AI システムを実現するための取り組みの一環と評価できる。

1件のコメント

 
GN⁺ 2024-05-14
Hacker Newsの意見
  • Falcon 2 11Bモデルのベンチマーク結果がMistral 7BやLlama 3 8Bと同程度である点が指摘されている。モデルサイズの増加を考えると、それほど大したものには見えない。

  • ライセンスに問題がある。Apache 2ライセンスを修正して追加条項を含めており、Acceptable Use Policyを順守しなければならないという要件がある。問題は、そのポリシーが今後どう変更されるか分からないこと。現在の内容とは無関係に、後でどのような内容にも変わり得て、それに従わなければならない。このようなライセンスを「オープンソース」と呼ぶ流れは、OSIの定義に合致しない問題点があると指摘されている。

  • 「Falcon 2 11BがMetaのLlama 3 8Bより優れており、GoogleのGemma 7Bと同等の性能を示す」という主張について、Llama 3 8Bはほぼあらゆる面でGemma 7Bを上回っているという強い印象を受けた、という反論が出ている。

  • 「唯一のVision-to-Language機能を持つAIモデル」という表現について、GPT-4 VisionやLLaVAがやっていることと大きく変わらないのではないかという疑問が出ている。

  • Falconモデルがそれほどオープンではない点が改めて指摘されている。もともとFalconは、ベンチマーク結果ほど性能が高くはなかった。大きな飛躍として発表されたが、競合モデルを上回っているとは感じられなかったという。

  • 11Bモデルが「同クラス」の7B、8Bモデルより性能が優れているというPRは、やや誇張されている印象がある。ローカル推論のために試してはみるが、現時点ではファインチューニングされたLlama 3 8Bがベストだというのが直感的な判断だ。

  • ほとんど公開データセットで学習し、AWSハードウェアとよく知られたアルゴリズムや技術を使っているなら、金さえあれば誰でも学習させられる他のモデルと何が違うのか疑問だ。関連性を示そうとする努力と「見せびらかし」にしか見えない、という懐疑的・批判的な見方も出ている。

  • Falcon 2 11BがLlama 3 8Bより優れているというが、パラメータ数が多いのだから公平な比較ではない。最高のオープンソースモデルはLlama 3 70Bに見えるのに、最高モデルは上回っていないのにLlama 3を上回ったと主張する理由に疑問が呈されている。