- 大規模言語モデル(LLM)の雑音に埋もれて聞こえにくい機械学習(ML)およびデータサイエンスの分野でも、さまざまな興味深いことが起きている
- Cynthia Rudin は説明可能な人工知能(AI)に関する優れた研究を継続的に発表している
- この数か月の興味深いプロジェクト:
- NeRFs の説明:
- 3Dグラフィックスを根本から再考するもので、テクスチャ付きポリゴンの代わりに、光を放つ半透明の球体を配置する方式
- 球体の位置と色は、正確な多角度カメラショットとポーズを通じてニューラルネットワークによって学習され、GPU 上でのレイトレーシングによってレンダリング可能
- シーンは写真から生成されるため完全に写実的だが、探索も可能
- 理論上はこうしたシーンをアニメーション化できるが、実際にどう行うかは依然として研究課題
- Nanite+photogrammetry のような最適化されたポリゴンベースのシステムより優れているかどうかは未知数
- 車両で道路の動画を撮影して3Dシーンを作れるツールについての質問:
- 道路周辺の風景に焦点を当て、複数の角度から何度も走行でき、処理時間が長くかかっても構わない
- レーシングシミュレータで使う地域の道路を作りたい
- 幾何学的ディープラーニングへの関心:
- データに既知の対称性を尊重するよう、原理に基づいてモデルを設計する方法
- ConvNets はその変換等価性でよく知られているが、他の対称群に関する最近の例もある
- 特定の対称性を自動で発見または識別できるかという問いもある
- UW-Madison の ML+X コミュニティが主催する機械学習マラソンの紹介:
- Kaggle 上のコンペティションとして特集される約12週間の夏イベント
- 機械学習ツールを一緒に学び、適用して、実データセットに対する革新的な解決策を見つける機会
- さまざまなチャレンジがあり、初心者にも上級実務者にも適している
- 参加者、プロジェクトアドバイザー、イベント主催者が毎週または隔週で集まり、コツを共有し、短いデモや議論を行う
- スキル向上とコミュニティ形成という内在的報酬に加え、優勝チームには賞金が与えられる
- LLM のいとこ的存在である Vision-Language-Action(VLA)モデル RT-2 の紹介:
- テキストと視覚データに加え、ロボット動作データを「もう1つの言語」として含め、ロボットの動作を出力するトークンとして使用する
- SAM 系のコンピュータビジョンモデルが、多くの人手によるアノテーションサービスやツールをある程度不要にしたという意見:
- ビジョンデータの自動ラベリングを比較的高品質で実現可能
- arXiv で関心のある特定トピックの最新研究を得るために Scholars.io を立ち上げた経験の共有:
- 関心のない研究をフィルタリングできるため、他の人たちが LLM 以外の研究活動を見つける助けになればと願っている
- 2024年においても ML を学び続ける価値があるかという問いと、個人的な直感への言及:
- xgboost を使った副次的なプロジェクトに取り組んだ経験の共有
- ML には依然として価値があると感じるが、確信は持てない
まだコメントはありません。