Ask HN: LLMの雑音に埋もれていないML分野の動向は何か？

(news.ycombinator.com)

19 ポイント投稿者 GN⁺ 2024-03-29 | まだコメントはありません。 | WhatsAppで共有

大規模言語モデル（LLM）の雑音に埋もれて聞こえにくい機械学習（ML）およびデータサイエンスの分野でも、さまざまな興味深いことが起きている
Cynthia Rudin は説明可能な人工知能（AI）に関する優れた研究を継続的に発表している
この数か月の興味深いプロジェクト:
- 数枚の画像からの3Dシーン再構成: NAVER LABS Europe
- ガウシアン・アバター: Gaussian Avatars
- 再照明可能なガウシアン・コーデック: Relightable Gaussian Codec
- あらゆるものを追跡: Co-Tracker, Omnimotion
- あらゆるものをセグメント化: Segment Anything by Facebook Research
- 優れた人体姿勢推定モデル: Yolov8、Google の MediaPipe モデル
- 高品質なTTS: XTTS-v2 by Coqui on Hugging Face, Bark TTS
- 優れたSTT: ほとんどが Whisper ベース
- 機械翻訳: たとえば Meta の SeamlessM4T
- Meta の R&D から出てくる多くの成果物への感嘆
NeRFs の説明:
- 3Dグラフィックスを根本から再考するもので、テクスチャ付きポリゴンの代わりに、光を放つ半透明の球体を配置する方式
- 球体の位置と色は、正確な多角度カメラショットとポーズを通じてニューラルネットワークによって学習され、GPU 上でのレイトレーシングによってレンダリング可能
- シーンは写真から生成されるため完全に写実的だが、探索も可能
- 理論上はこうしたシーンをアニメーション化できるが、実際にどう行うかは依然として研究課題
- Nanite+photogrammetry のような最適化されたポリゴンベースのシステムより優れているかどうかは未知数
車両で道路の動画を撮影して3Dシーンを作れるツールについての質問:
- 道路周辺の風景に焦点を当て、複数の角度から何度も走行でき、処理時間が長くかかっても構わない
- レーシングシミュレータで使う地域の道路を作りたい
幾何学的ディープラーニングへの関心:
- データに既知の対称性を尊重するよう、原理に基づいてモデルを設計する方法
- ConvNets はその変換等価性でよく知られているが、他の対称群に関する最近の例もある
- 特定の対称性を自動で発見または識別できるかという問いもある
UW-Madison の ML+X コミュニティが主催する機械学習マラソンの紹介:
- Kaggle 上のコンペティションとして特集される約12週間の夏イベント
- 機械学習ツールを一緒に学び、適用して、実データセットに対する革新的な解決策を見つける機会
- さまざまなチャレンジがあり、初心者にも上級実務者にも適している
- 参加者、プロジェクトアドバイザー、イベント主催者が毎週または隔週で集まり、コツを共有し、短いデモや議論を行う
- スキル向上とコミュニティ形成という内在的報酬に加え、優勝チームには賞金が与えられる
LLM のいとこ的存在である Vision-Language-Action（VLA）モデル RT-2 の紹介:
- テキストと視覚データに加え、ロボット動作データを「もう1つの言語」として含め、ロボットの動作を出力するトークンとして使用する
SAM 系のコンピュータビジョンモデルが、多くの人手によるアノテーションサービスやツールをある程度不要にしたという意見:
- ビジョンデータの自動ラベリングを比較的高品質で実現可能
arXiv で関心のある特定トピックの最新研究を得るために Scholars.io を立ち上げた経験の共有:
- 関心のない研究をフィルタリングできるため、他の人たちが LLM 以外の研究活動を見つける助けになればと願っている
2024年においても ML を学び続ける価値があるかという問いと、個人的な直感への言及:
- xgboost を使った副次的なプロジェクトに取り組んだ経験の共有
- ML には依然として価値があると感じるが、確信は持てない

Ask HN: LLMの雑音に埋もれていないML分野の動向は何か？

関連記事

まだコメントはありません。