1 ポイント 投稿者 GN⁺ 2025-02-10 | 1件のコメント | WhatsAppで共有

1件のコメント

 
GN⁺ 2025-02-10
Hacker Newsの意見
  • さまざまなデモ用ツールボックスの説明

    • Segment Anything 2: 数回のクリックで動画の切り抜きや楽しい視覚効果を生成する
    • Seamless Translation: 別の言語で聞こえる自分の声を体験できる
    • Animated Drawings: 手描きのスケッチをアニメーションで生き生きと動かす
    • Audiobox: AIで生成した声や音を使ってオーディオストーリーを作る
  • Seamless Translationはかなり驚くべき機能

    • 英語とスペイン語を話すユーザーが英語の文を録音し、生成されたスペイン語の出力を聞いたところ、自分のスペイン語とほとんど同じに聞こえた
    • ただし、そのユーザーのスペイン語にはカスティーリャ語特有の表現がより多く含まれている
  • タイトルがなぜAidemosになっているのか気になる

  • MetaのAI研究の方向性が気になる

    • GoogleやMSFTの目標は理解できるが、Metaの最終目標はよく分からない
  • Seamless Translationのデモは素晴らしい

    • 翻訳された声が自分の元の声に似ている
    • これをリアルタイムで実現できるなら驚異的だろう
  • MetaはGPT-3とChatGPTの影響を深く理解している

    • モデルは出発点であり、モデルを活用したUXが知能を示す
    • 特に視覚モデルでそれが際立っている
    • SAM2が「何でも見える」と言っているのが興味深い
    • サッカーボールをクリックすると、動画内で隠れてもモデルが滑らかに追跡するのを見るのは驚きだ
  • すべてのデモが含まれているわけではない

    • 例えば、Meta Motivoのデモが抜けている(ヒューマノイド制御モデル)
  • 「現在お住まいの地域ではサイトを利用できません」というメッセージが表示される

  • モデルへのリンクがどこにあるのか気になる

  • 興味深いが、Metaが実際に何を望んでいるのかを明確にしてほしい

    • 「モデルをさらに訓練するために、In the Wildデータを提供してください」という意味なのだろう
  • 数年前に年齢推定技術を使った経験がある

    • ユーザーが画像をアップロードし、顔のランドマークポイントの10%を位置合わせするのを手伝うと、推定器を実行した
    • 間違っている場合は修正を求めて改善した
    • 依然としてクールだが、以前の経験と比べるとそれほど大きな感動はない