OpenOrca - データセット&インストラクションチューニング済み言語モデルのオープンソース
(huggingface.co)- MicrosoftのOrca論文の内容をベースに、オープンソースとして複製して作られたもの
- GPT-4 Completionで補強された約100万件のFLANv2
- GPT-3.4 Completionで補強された約350万件のFLANv2
- FLAN-1mデータセットにある75k CoT全体を含む
- 現在はLLaMA-13Bファウンデーション上で全重みに対するファインチューニングを進めており、Microsoftのものと性能が近くなる見込み
- 7月中旬ごろにOpenOrca-LLaMA-13bをリリースできる見込み
- OpenOrcaを他のプラットフォーム(Falcon、LLaMA、MPTなど)に適用するためのGPUコンピューティングスポンサーを募集中
2件のコメント
あっ、リンクが404ですね
データセットは HuggingFaceの Open-Orca/OpenOrca で確認できます! :D
あ、記事を削除したみたいですね。
WaybackMachine には残っています。
https://web.archive.org/web/20230629002546/…
リンクは載せてくださった HuggingFace のリンクに修正しておきました。