2 ポイント 投稿者 GN⁺ 2024-01-08 | 1件のコメント | WhatsAppで共有
  • Phi-2のHugging Faceリポジトリのコミット 7e10f3e で、LICENSENOTICE.mdREADME.md の3ファイルが変更され、ライセンス表記がMITに切り替わった
  • 新しいLICENSEは MIT License の全文に置き換えられ、使用・複製・修正・配布・再ライセンス・販売を幅広く許可する
  • 従来のMicrosoft Research Licenseにあった リバースエンジニアリング禁止、独立ホスティング制限、個人情報の取り扱い、仲裁、損害賠償制限など複数の条項が削除された
  • READMEのメタデータは license_name: microsoft-research-license の代わりに license: mit を使用し、従来のLICENSEリンクは維持されている
  • 新しいNOTICE.mdは flash-attention を第三者コンポーネントとして告知し、BSD 3-Clause Licenseと、LGPLライブラリ変更のデバッグ目的に限った限定的なリバースエンジニアリング許可文を含む

コミットで変更されたファイル

  • Hugging Faceの microsoft/phi-2 リポジトリのコミットは「Upload 3 files」と表示され、変更対象は LICENSENOTICE.mdREADME.md の3ファイル
  • Browse files で当該コミット時点のファイル一覧を確認できる

LICENSE: Microsoft Research LicenseからMIT Licenseへ置き換え

  • LICENSEファイルでは従来のライセンス文言が削除され、MIT License の全文に変更された
  • 新しいLICENSEは PhyAGI.Copyright (c) Microsoft Corporation. の文言に続いてMIT Licenseを含む
  • MIT Licenseは、ソフトウェアおよび関連文書ファイルを入手したすべての人に、以下の権利を無償で許可する
    • 使用、複製、修正、結合
    • 公開、配布、再ライセンス
    • ソフトウェアの複製の販売
    • ソフトウェアを提供された人に同じ権利を付与
  • 条件は、著作権表示と許諾表示をソフトウェアのすべての複製または実質的部分に含めること
  • 保証の否認は AS IS の形で含まれ、商品性・特定目的適合性・非侵害の保証を含む、明示または黙示の保証を提供しない
  • 著作権者および権利者は、ソフトウェアの使用またはその他の取引から生じる請求・損害・責任を負わない

削除された従来の制限条項

  • 従来のLICENSEから複数の制限および法的条項が削除された
  • 削除された条項には以下の内容が含まれる
    • 資料の リバースエンジニアリング、逆コンパイル、逆アセンブルの禁止
    • Microsoftまたはサプライヤーの表示の削除・縮小・遮断・変更の禁止
    • 法律に反する方法、またはマルウェアの作成・拡散目的での使用の禁止
    • 資料の共有・公開・配布・貸与、独立ホスティングソリューションの提供、第三者への移転の禁止
  • 個人情報に関する制限も削除された
    • 個人を識別できるデータは、承認・同意された目的以外に使用してはならない
    • 個人に連絡するために使用してはならない
    • 研究完了後ただちに個人情報とバックアップ・複製を破棄しなければならない
  • Microsoftに修正物を提供する場合、Microsoftに広範なライセンスを付与するという条項も削除された
  • その他、公開、フィードバック、輸出規制、サポートサービス、米国内での仲裁および集団訴訟放棄、準拠法、消費者の権利、保証の否認、損害賠償制限条項が削除された

READMEメタデータの変更

  • README.mdのフロントマターでライセンス表記が変更された
  • 削除された項目は以下の通り
    • license:
    • license_name: microsoft-research-license
  • 新しい項目は license: mit
  • license_link: https://huggingface.co/microsoft/phi-2/resolve/main/LICENSE は維持された
  • inference: falselanguage: - en の項目は、表示されたdiffでは維持されている

NOTICE.mdと第三者コンポーネントの告知

  • 新しい NOTICE.md ファイルは「NOTICES AND INFORMATION」と「Do Not Translate or Localize」の文言で始まる
  • Microsoftは、このソフトウェアが第三者資料を含むと明記している
  • Microsoftの一部オープンソースコードは https://3rdpartysource.microsoft.com で提供されるか、製品名・オープンソースコンポーネント名・プラットフォーム・バージョン番号を添えて5.00米ドルの小切手または郵便為替を送付することで請求できる
  • 他の条件にかかわらず、GNU Lesser General Public Licenseでライセンスされたライブラリの変更をデバッグするために必要な範囲では、このソフトウェアを リバースエンジニアリング できる
  • コンポーネントとして flash-attention が含まれる
  • flash-attentionの告知には BSD 3-Clause License が含まれる
    • ソース再配布時には、著作権表示、条件一覧、免責条項を維持しなければならない
    • バイナリ再配布時には、文書またはその他の資料に同一の表示と条件、免責条項を含めなければならない
    • 事前の書面による許可なく、著作権者またはコントリビューターの名前を派生製品の宣伝に使用できない
  • BSD 3-Clauseの告知は、当該ソフトウェアも「AS IS」で提供され、直接・間接・偶発・特別・懲罰的・結果的損害について責任を負わないと明記している

1件のコメント

 
GN⁺ 2024-01-08
Hacker Newsのコメント
  • こうしたオープンモデルが出てくるのは本当にわくわくすることだと思う。
    興味深いのは、AI「倫理学者」たちが安全を名目に、機械学習モデルへのアクセスを統制する高位の司祭集団のように振る舞いたがっている点だ。しかし、AIの最大のリスクは、モデルを管理する人たちが、そのモデルで人々が何を書けるかをコントロールし検閲することにあると思う。
    大衆の手にあるオープンソースモデルこそが、AIの本当の危険に対する最良の防御策だと思っており、それを推し進めているFacebook、Microsoft、Mistralに拍手を送りたい。

    • AI「倫理学者」をそのように見るのは、あまりにも悪意のある解釈だ。
      ソーシャルメディア上の要約ではなく、実際の論拠を読んでみるといい。思ったよりはるかに深い議論があり、懸念されているリスクについても幅広く扱い、提案されている解決策もある。その解決策は、「最良の防御策」という主張より実際に機能する可能性が高い。
    • 「すべての」AI倫理学者を、モデルへのアクセスを阻もうとする司祭集団として描くのは有害だと思う。
      こうしたツールの民主化と、安全で倫理的な利用の両方を重視している人も多い。
    • もはや猫は袋から出てしまった状態だと思う。
      よからぬ人たちがライセンス文言を守ってくれると期待するのは、そもそも統制手段としてあまり有効ではなかった。法律を守る程度には善意のある人たちの発展とイノベーションだけを妨げる一方で、ロシア、北朝鮮、中国のような場所で別の意図を持つ人々や、犯罪組織、詐欺師たちは、そうした観念には縛られない。
      きちんとしたオープンソースライセンスの下で活動するコミュニティは大きくなっており、興味深いことがますます速いペースで起きている。代替ライセンスは効果が弱く、そのコミュニティとのつながりを断ち、協業を複雑にし、研究全体の中でますます少数派になっていく。だから、そうしたライセンスはだんだん無意味になっていく。
      これを正せば、法的な観点から単純で標準的な状態になり、商用化、協業、研究がしやすくなる。Microsoftはそこに価値があることを合理的に認め、現実に合わせて調整しているように見える。
    • この狂ったようなAI投資の実際の隠れた目的が、大規模な検閲インフラを作ることではないと誰が保証できるのか。
    • 価値が集まるところにはどこでも、貢献していない人々の軍勢に税金を払わなければブレーキペダルに足を乗せてくるフジツボ産業が生まれる。
  • 以前は非商用ライセンスだったので、期待感が少し冷めていた。
    性能とサイズを考えると、商用に使いやすいライセンスに変わったのはかなり大きな出来事だ。

  • このモデルは推論能力が高いことが重要だ。
    ただし、爆弾の作り方などを学んだり「悪事」をしないようにするため、意図的に大規模なWebクロールデータセットでは学習されていない。
    そのため、同じ規模、あるいはより大きなパラメータ数のモデルと比べても「最も賢く考える」モデルではあるが、世界知識や雑学は相対的に不足している。
    今後変わる可能性はあるが、現時点ではそういう状態だと思う。

    • それでもRAGアプリケーションには素晴らしい。
      回答がWebから学んだ内容ではなく、自分が提供したデータに基づいてほしいからだ。
    • 大規模言語モデルを、自然言語を使う能力と質問に答えるための知識という2つの属性で見るなら、小型言語モデルは自然言語処理に非常に優れたモデルと見なせばよい。
      多くのタスクには一般知識は必要なく、特にRAGではこの利点が大きい。
    • モデルの焦点がデータを内蔵することに置かれていなければいいと思う。
      データは検索で提供するほうがよく、その結果、「もっともらしく賢そうに見えるが完全に間違っている」回答が減る。
      内蔵データが少なければ、チャットアシスタントの領域外でもより汎用的に使える。モデルにはユーザーが提供したデータだけを知っていてほしい場合が多いからだ。
      例えば中世ファンタジーゲームで、登場人物が突然アメリカ政治の話を始めたら非常に奇妙だろう。Phi-2もファインチューニングなしでは完全には解決できないだろうが、要点はそういう方向性だ。
    • Webクロールデータで学習していないのは、Microsoftが財産と個人情報を盗んで収益化しているという点を、あまり露骨に見えないようにするためだと思う。
  • モデルよりもデータセットのほうが気になる。

    • おそらくphi-1/1.5の「Textbooks are all you Need」という学習方法を発展させた形である可能性が高い: https://arxiv.org/abs/2309.05463
  • 素晴らしい変更であり、独立したオープンソースプロジェクトがなぜ重要なのかも示している。
    TinyLlamaがApache 2.0ライセンスで公開されたことが、今回の変更に影響しなかったとは考えにくい。

    • TinyLlamaの公開が影響したと見る根拠は何か?
  • Phi-3と次世代モデルがPhi-2を旧式にするというサインに見える。

  • このモデルはかなり長い間上位にいたが、何がそんなに良いのか?

    • このモデルのサイズと推論コストに対する性能が優れている。
      携帯電話のような小さなデバイスでも動かせるうえ、GPT-3.5に近い性能を出す最高のモデルだ。
      構造と学習データも興味深い。厳選された合成データを使うスパースモデルなので、ランダムなインターネットテキストで学習したモデルよりもはるかに高い精度を達成している。