10 ポイント 投稿者 xguru 2024-04-11 | 5件のコメント | WhatsAppで共有
  • FFMPEG/QEMUを作ったBellardの新しいプロジェクト
  • TSACは音声圧縮ユーティリティで、44.1kHzでモノラル5.5kb/sまたはステレオ7.5kb/sのような非常に低いビットレートに達しながらも、良好な音質を提供
  • TSACは3.5分のステレオ楽曲を192KiBサイズのファイルに圧縮可能
  • 高速に動作させるにはNvidia GPUが必要で、CPUのみでも対応するが速度は遅い

技術情報

  • TSACは、ステレオに拡張されたDescript Audio Codecの修正版と、圧縮率をさらに高めるためのTransformerモデルをベースとしている。両モデルとも、パラメータあたり8ビットに量子化されている
  • Transformerモデルは決定的かつ再現可能な方法で評価されるため、結果は正確なGPUまたはCPUモデルや設定されたスレッド数に依存しない。つまり、圧縮ファイルは異なるハードウェアやソフトウェア構成を使って展開できる。

5件のコメント

 
botplaysdice 2024-04-11

ホームページを見ると、一時期LLMにも関心を持っていたようですね;;;; こういう人がこういう最新技術を? と思いつつ、やはりAIが大勢なんだなと感じました。

 
xguru 2024-04-11

以前書いた怪物級のおじさん Fabrice Bellard の紹介をアップデートすると..

Fabrice Bellard

1989年に LZEXE を開発

1996年に Harissa - Java Virtual Machine であり Java から C コードへのコンパイラ

1997年に、2進表記での円周率 (π) の特定桁の値を求める公式を発表。
-> 先頭の桁をまったく計算しない方法で計算。1兆番目の桁は "1"
https://en.wikipedia.org/wiki/Bellard%27s_formula

1998年に TinyGL を発表 - 小さく組み込み可能な OpenGL 実装

2000年に FFMpeg を発表。現在私たちが見ているほとんどの動画プレイヤーが使用中。

2000年に、最大の素数を見つける 448バイトの C コードで IOCCC 優勝。この素数は 2016年まで発見された最大の素数だった。

2001年に Tiny C Compiler を発表 - 超軽量 C コンパイラ

2002年に QEmacs を発表 - 超軽量 Emacs クローン。HTML/XML/CSS2 の WYSIWYG レンダリングと編集が可能(独自のブラウザエンジンを内蔵)

2003年に QEMU を発表 - ハードウェア仮想化機能を備えた CPU エミュレータ

2004年に TinyCC Boot Loader を発表 - Linux カーネルを直接コンパイルして起動できるブートローダー

2005年に DVB-T シグナル生成器を発表 : 高価な送信機の代わりにデスクトップでデジタルテレビ送信が可能。これはソースコード未公開

2009年に π の小数点以下 2兆7000億桁まで計算して世界記録を樹立。自分のデスクトップで 131日間計算したとのこと。
-> 大きな数字への関心というより、単にコンピュータプログラミングへの挑戦のためだったそう。

2011年に JSLinux を発表。Webブラウザで動作する Linux を発表。

2019年に QuickJS JavaScript Engine 小さく高速で組み込み可能な JavaScript エンジン を発表

2022年には gpt2tc(GPT-2) を使って作られた SaaS の TextSynth を公開

そのほかにも、JPG より圧縮率の高い HEVC ベースの画像フォーマット BPG(JavaScript デコーダを提供しているので、どのブラウザでも使用可能)

4G LTE/5G NR ベースステーションを PC ベースで安価に実装し、これは自身の会社 Amarisoft を通じて製品化

手がけることすべてが、これをどうして一人でやっているのか驚くばかりの人。

 
mdisprgm 2024-04-11

わあ..

 
botplaysdice 2024-04-11

いつか HN でこの人が作ったコードについての投稿で…

「Bellard はここに (HN) 投稿しないの?」と誰かが聞いていたのですが、「あれだけ productive な人がここに来て書き込みなんてしてるわけないだろ」みたいな返信が…(笑)

本当に怪物ですね…。

 
xguru 2024-04-11

Hacker Newsの意見

要約:

  • Bellardの新しいオーディオコーデックTSACについて、好意的な反応が多い。特に低ビットレートでの性能が既存コーデックより優れている。
  • TSACの圧縮ファイルを破損させると、興味深い結果が出る。Fastモードと通常モードでは音が異なる。
  • リアルタイム処理にはNVIDIA GPUが必要で、モバイル機器でのデコードは負担になる可能性がある。低性能な組み込みシステムでの活用は限定的と思われる。
  • TSACデコーダーの圧縮ファイルサイズが237MBもあり、不思議だという声がある。オーディオサンプルがデコーダーに含まれているのではないかという疑問も出ている。
  • Codec2 など、さらに低いビットレートに対応するコーデックとの比較が気になる。
  • DAC(TSACのベースとなるコーデック)の開発者からTSACに関するコメントがあった。Transformerを活用した改善手法が興味深い。
  • TSACの動作方式はAI音楽生成モデルに似ている。一部はトークンを言語モデルに入力して音楽を生成し、一部はトークン化の代わりにDiffusionモデル向けの連続表現を提供する。
  • TSACの決定論的で再現可能な評価方法について疑問が出ている。Floating Pointや並行処理を使っているのか気にされている。AMD GPUへの移植が決定論的な動作に影響する可能性もある。
  • ほとんどのメディア圧縮技術は低ビットレートのシナリオに焦点を当てている。高ビットレートでどの程度改善するのかも気になる。たとえば256kbps AACと10MbpsのAV1の性能差のような点である.