4 ポイント 投稿者 GN⁺ 2023-10-05 | 2件のコメント | WhatsAppで共有
  • フォント生成のための生成型機械学習(ML)モデル「FontoGen」を構築
  • モデルはフォントの説明を入力として受け取り、フォントファイルを出力として提供
  • 著者は2023年のAIの台頭に触発され、テキストからSVGを生成することを探求するようになり、そこからフォント生成のアイデアを得た
  • IconShop2の論文を参考にしてモデルを構築し、SVG生成と似た形でフォント生成が可能であることを発見
  • モデルは、テキスト埋め込みの後にフォント埋め込みが続くシーケンスとして学習されたシーケンス・ツー・シーケンスモデル
  • テキスト埋め込みは事前学習済みのBERTエンコーダーモデルを使用して生成され、フォント埋め込みはフォントをトークン列に変換して生成
  • モデルは16層・8ブロックで構成された自己回帰型のエンコーダー専用Transformerで、総パラメータ数は7,370万
  • 著者はBigBird3アテンションを使用して初期プロンプトに集中し、N個の前のトークンを観察して複数の先行グリフのスタイルを捉えた
  • モデルは、GPT-3.5を使ってさまざまな種類の説明をいくつかのキーワードに要約した、71k件のユニークなフォントデータセットで学習
  • 学習には127時間を要し、検証損失がほとんど改善しなくなった時点で停止
  • 著者は、可能な限り多くをデータセット前処理段階へ移すことで性能を3倍向上
  • 著者は将来的な応用として、デザイナーが作成した単一のグリフを基に他のすべてのグリフを生成するため、既存のフォントエディタにモデルを統合することなどを提案

2件のコメント

 
dbgus2028 2023-10-06

かわいいフォントを作って

 
GN⁺ 2023-10-05
Hacker Newsの意見
  • GPT-4のコードインタープリターは、グリフの白黒PNGをSVGに変換でき、これは画像生成モデルと組み合わせてフォント生成に使うことができます。
  • 『Gödel, Escher, Bach』の著者であるDouglas Hofstadterは、汎用AIなしではフォント生成は不可能だと考えていました。
  • Letter Spiritプロジェクトは、グリッドに制約された「gridfonts」というスタイルの統一された書体を設計することで、芸術的創造性のモデリングを目指しています。
  • MLモデルによって生成されたフォントの精度には懸念があり、線が完全に平行でなかったり、角が正確に90度でなかったりするといった問題があります。
  • ピクセルを150x150の固有ビンとして表現するアプローチは理想的ではないとされ、代わりにconvnetを使って出力を追跡することが提案されています。
  • このようなアプローチにより、新しいフォント、特に非常にスタイライズされたフォントの生成がさらに現実的になる可能性があります。
  • モデルはsafetensorではなくckptであり、これは一部のユーザーが試してみるかどうかに影響するかもしれません。
  • 拡散モデルはテキストを描くのに苦労するにもかかわらず、この方法はこの用途ではうまく機能します。