TSAC - 低ビットレート音声圧縮技術
(bellard.org)- FFMPEG/QEMUを作ったBellardの新しいプロジェクト
- TSACは音声圧縮ユーティリティで、44.1kHzでモノラル5.5kb/sまたはステレオ7.5kb/sのような非常に低いビットレートに達しながらも、良好な音質を提供
- TSACは3.5分のステレオ楽曲を192KiBサイズのファイルに圧縮可能
- 高速に動作させるにはNvidia GPUが必要で、CPUのみでも対応するが速度は遅い
技術情報
- TSACは、ステレオに拡張されたDescript Audio Codecの修正版と、圧縮率をさらに高めるためのTransformerモデルをベースとしている。両モデルとも、パラメータあたり8ビットに量子化されている
- Transformerモデルは決定的かつ再現可能な方法で評価されるため、結果は正確なGPUまたはCPUモデルや設定されたスレッド数に依存しない。つまり、圧縮ファイルは異なるハードウェアやソフトウェア構成を使って展開できる。
5件のコメント
ホームページを見ると、一時期LLMにも関心を持っていたようですね;;;; こういう人がこういう最新技術を? と思いつつ、やはりAIが大勢なんだなと感じました。
以前書いた怪物級のおじさん Fabrice Bellard の紹介をアップデートすると..
Fabrice Bellard
1989年に LZEXE を開発
1996年に Harissa - Java Virtual Machine であり Java から C コードへのコンパイラ
1997年に、2進表記での円周率 (π) の特定桁の値を求める公式を発表。
-> 先頭の桁をまったく計算しない方法で計算。1兆番目の桁は "1"
https://en.wikipedia.org/wiki/Bellard%27s_formula
1998年に TinyGL を発表 - 小さく組み込み可能な OpenGL 実装
2000年に FFMpeg を発表。現在私たちが見ているほとんどの動画プレイヤーが使用中。
2000年に、最大の素数を見つける 448バイトの C コードで IOCCC 優勝。この素数は 2016年まで発見された最大の素数だった。
2001年に Tiny C Compiler を発表 - 超軽量 C コンパイラ
2002年に QEmacs を発表 - 超軽量 Emacs クローン。HTML/XML/CSS2 の WYSIWYG レンダリングと編集が可能(独自のブラウザエンジンを内蔵)
2003年に QEMU を発表 - ハードウェア仮想化機能を備えた CPU エミュレータ
2004年に TinyCC Boot Loader を発表 - Linux カーネルを直接コンパイルして起動できるブートローダー
2005年に DVB-T シグナル生成器を発表 : 高価な送信機の代わりにデスクトップでデジタルテレビ送信が可能。これはソースコード未公開
2009年に π の小数点以下 2兆7000億桁まで計算して世界記録を樹立。自分のデスクトップで 131日間計算したとのこと。
-> 大きな数字への関心というより、単にコンピュータプログラミングへの挑戦のためだったそう。
2011年に JSLinux を発表。Webブラウザで動作する Linux を発表。
2019年に QuickJS JavaScript Engine 小さく高速で組み込み可能な JavaScript エンジン を発表
2022年には gpt2tc(GPT-2) を使って作られた SaaS の TextSynth を公開
そのほかにも、JPG より圧縮率の高い HEVC ベースの画像フォーマット BPG(JavaScript デコーダを提供しているので、どのブラウザでも使用可能)
4G LTE/5G NR ベースステーションを PC ベースで安価に実装し、これは自身の会社 Amarisoft を通じて製品化
手がけることすべてが、これをどうして一人でやっているのか驚くばかりの人。
わあ..
いつか HN でこの人が作ったコードについての投稿で…
「Bellard はここに (HN) 投稿しないの?」と誰かが聞いていたのですが、「あれだけ productive な人がここに来て書き込みなんてしてるわけないだろ」みたいな返信が…(笑)
本当に怪物ですね…。
Hacker Newsの意見
要約:
Codec2など、さらに低いビットレートに対応するコーデックとの比較が気になる。