- 既存の基盤モデルはテキスト、画像、音声、動画は扱えるが、現実世界を動かす時系列データ(バイタル、価格、テレメトリ、ログなど)に対する時間的推論能力が不足している
- Time Series Language Models(TSLMs) は、時系列をテキストと同等の固有モダリティとしてサポートし、ユーザーは自然言語で質問し、説明や推奨を受け取ることができる
- OpenTSLMは、医療分野の時系列データと臨床テキストを同時に処理できるよう設計された新しい言語モデル
- cross-attentionアーキテクチャを採用し、長い時系列でもスケーラブルで、従来方式と異なり大規模運用が実用的
- 2つの構造が提案されている: SoftPrompt(時系列をトークンとして挿入)とFlamingo(交差注意ベース)で、それぞれ異なる長所と短所を持つ
- 3つの新しいChain-of-Thought(CoT)データセット(HAR、Sleep、ECG-QA)を導入し、モデルの推論性能を評価している
- GPT-4oと比べて200分の1の小型モデルで、睡眠段階分類は4.4倍、活動認識は6倍、ECG解釈は2倍の精度を達成(効率はそれぞれ880倍、1,000倍、400倍)
- 医療分野で初めて12-lead ECG信号とテキストを同時処理し、心臓専門医が検証したchain-of-thought推論を提供
- 可変長の複数時系列を同時処理し、テキスト文脈と統合して、ドメイン専門家が確認した解釈可能な説明を生成
- 本研究は医療にとどまらず、金融、サプライチェーン、産業モニタリングなど多様な時系列応用分野への拡張可能性を示している
研究概要
- 臨床診断と治療は本質的に時間に伴う変化を理解することに基づいている
- 既存のLLMは画像、テキスト、音声など多様なモダリティを処理できるが、連続的な時系列データを解釈する能力は不足していた
- これを解決するため、OpenTSLMは時系列データをLLMの新たなネイティブモダリティとして統合する方式を提案する
モデルアーキテクチャ
- OpenTSLM-SoftPrompt
- 時系列を埋め込み化した後、テキストトークンとともに入力
- シンプルでパラメータ効率が高いが、長いシーケンスではメモリ使用量が急増するという制約がある
- OpenTSLM-Flamingo
- 時系列を別モダリティとして処理し、交差注意(cross-attention) でテキストと結合
- 長いシーケンスでもメモリ使用が安定しており、汎用的な処理に適している
データセットと学習
- HAR-CoT: 加速度センサーによる人間活動認識
- Sleep-CoT: EEGベースの睡眠段階分類
- ECG-QA-CoT: 心電図データを活用した質疑応答
- 段階的なカリキュラム学習を適用し、単純な時系列パターンの学習から推論能力の学習へと拡張
主な成果
- SoftPrompt-Llama3.2-1B: Sleep-CoTで69.9% F1、HAR-CoTで65.4% F1を記録
- Flamingo-Llama3.2-3B: ECG-QA-CoTで40.25% F1と最も優れた性能
- GPT-4oに対する優位性: 小型モデル(OpenTSLM-1B)であってもGPT-4oより高いF1スコアを記録
- 医師評価: ECG-QAの推論過程の92.9%が正確、または部分的に正確な解釈と判定された
メモリ効率
- SoftPromptは入力長に応じてVRAMが指数的に増加(例: ECG-QAで110GB超が必要)
- Flamingoは安定したメモリ使用を維持(Llama-3Bでも60〜70GB水準)
議論
- OpenTSLMは小規模モデルが超大規模モデルを上回りうることを示している
- SoftPromptは短い時系列に適しており、Flamingoは長期/複数時系列に適している
- 医療データにおいて推論過程の透明性を提供し、信頼の確保に寄与
- 従来の分類器ベースのアプローチとは異なり、自然言語推論 + 時系列の結合を実現
限界と今後の課題
- 時系列のスケール・単位をテキストで保持する現在の方式は最適ではない可能性がある
- CoTデータセット生成過程にGPT-4oが関与しているため、データバイアスの可能性が存在
- 正解予測を保証する損失関数の設計、アーキテクチャの単純化、汎化性能の検証が必要
結論
- OpenTSLMは医療分野を超えて、金融、サプライチェーン、産業モニタリングなどにおける長期データ処理にも高い活用可能性がある
- 本研究は時系列言語モデル(TSLM) という概念の基盤を築き、汎用時系列推論モデルへの拡張を目指している
1件のコメント
Hacker Newsのコメント
自然言語を通じて時系列データと対話できる点は理解できるが、信号処理やルールベースのアルゴリズムライブラリ(あるいはデータが変動的なら機械学習を使用)をツール呼び出しで活用するのと比べて、どんな利点があるのか気になる。
たとえば、市販のLLMにECGデータを分析させると、LLMがECG時系列分析ライブラリを呼び出す。
そのライブラリがデータ全体を走査して統計値とイベントを抽出する。たとえば「平均心拍数60bpm、特定時点でAFibを検出」など。
こうすればLLMは分析に必要な情報をすべて得られるし、計算コストもはるかに低い。
しかもこのアプローチは大規模な注釈付きデータセットと事前学習済みモデルを必要とするが、もし私が間違っていたら訂正してほしいものの、「一般的な」時系列データ処理が可能な汎用モデルは不可能だと思う。
つまり、ECGデータで学習したモデルは株式市場データとは互換性がない。
異なる種類のデータをすべて理解する単一のモデルは、まだ不可能だ。
こうしたシステムをエッジで動かすのは難しい。
ポイントは、エッジで信頼性高く動作することだ。
誰も自分の心拍モニタリングをクラウドに任せたくはない。リモートサービスには障害や信頼性の問題が大きく、LLM推論に伴う追加の難しさもある。
既存のルールベース検出機能はすでにこうしたデバイスに搭載されており、そこにLLMが提供する高度なパターン検出機能を組み合わせれば、不要な警告を減らし、複雑な新しいパターンも検出できる。
これは、インターネット上の大規模データと会話するようなインターフェースを提供するものだ(ChatGPT)。
でも、この方式がGoogle検索で上位リンクをクリックし、広告を避け、クッキー同意をして、ヘッダーを読み、スクロールして課金ポップアップを閉じ、残りの記事を読み、この過程を4回繰り返すより何が優れているのか、よく分からない。
なるほど、分かった。
"Stanford Repo Released Sep 31, 2025" という文言があるが、2025年9月30日の翌日が31日になる確率分布からサンプリングしたような感じがする。
フィードバックに感謝するとのこと。
皮肉にも、この記事は時間を理解するモデルについてのものだと指摘している。
もう日付の誤りは修正されたようだ。
今回の研究の基盤は「Flamingo」という名前のシステムだ。
このシステムは、テキストと画像を交互に並ぶシーケンスとして理解することに特化している。
つまり、2つの逐次的モダリティを一緒に処理できる。
今回の新しい研究は、1つのモダリティチャネルに時間トークンを挿入して時間認識能力を強化したものに見える。
(ちなみにウェブサイトのデザインがとてもかわいい。テキストに左から右へのグラデーション効果まである。)
Flamingo関連論文リンク
これは本当にすごい。
論文を見ると、この手法は時系列データベースの質疑応答でうまく機能しているようだ。
医療AI分野で私が最も興味深いと思う点は、人間でも検知できない病気のシグナルを検出することだ。
たとえば、循環器専門医でもできない、ECGからの駆出率推定(ただしアルゴリズムはすでにRCTで検証されている)。
関連論文リンク
OpenTSLMは時系列データをLLM埋め込み空間にトークン化しているが、この過程がそうした微妙なシグナルを捉えられるのか気になる。
あるいは、このアプローチがこうしたユースケース向けに拡張できるのかを知りたい。
これが研究初期段階での最大の動機だった。
モデルでは、元の時系列データをクロスアテンションによって統合し、生の時系列エンコーダから具体的な時系列表現を学習する。
モデルに時系列処理が必要なら、TSライブラリを呼び出すスクリプトを生成して実行系に渡すほうがよい。
人間でもおそらくそうするだろう。
わざわざモデルにその機能を内蔵する必要があるのか確信が持てない。
モデルにネイティブなTS処理機能が入ることで、ツールコーリングではできないことができるのか気になる。
Anthropicも「モデルにスクリプトを書かせる」という方式を、Claude Agent SDKの最新発表で推奨している。
コード生成は明確で、再利用性と組み合わせやすさに優れており、複雑な作業を信頼性高く実行するのに理想的だ。
エージェント開発時に、どの作業がコード表現に適しているかを考えると、新しい可能性が開ける。
Claude Agent SDK関連リンク
要点を取り違えている気がする。
画像キャプションのために画像解析ライブラリを呼び出すべきか、それとも画像を直接時系列として理解して推論するほうがよいかを考えればよい。
論文中のプロットを見れば、この種のモデルに何ができるか分かる。
根本的に、「時間という概念」を本当に持っているのか、因果関係を理解しているのか気になる。
今日家に帰ったらすぐ試してみるつもりだ。
私は大量の音声時系列データを扱っていて(単語があるわけでもなく、微妙な変動も多い)、今回の方式が伝統的な統計手法と比べてどれだけ性能を出せるのか確かめたい。
彼らはhuggingfaceにリポジトリを作ってモデル重みを一部アップしている。
公式ホームページ、論文、GitHubにはまだそのリンクが見当たらない。
OpenTSLM huggingfaceページ
claude codeが自分の心拍時系列をリアルタイム監視して、ベッドで寝返りを打つ時間まで検知してくれたらいいのにと想像してしまう。
私の理解が正しければ、このモデルは時系列の分類と解釈向けに学習されているようだが、予測(フォーキャスティング)でもベンチマークしたのか気になる。
説明や推薦はしばしば予測と密接に結びついているので、その点でもモデルの特性が出そうだ。
面白いリトマステストとして、S&P500のトレンドを除去した後、500銘柄ごとの構成要素に分解して各銘柄の寄与度を分析・ランキングできる。
ただし、こういう作業だけでRentecやNSAの仕事を得るのは難しい。
商業・医療分野ではたいてい信号は正常でホワイトノイズ(無相関ノイズ)とともに使われる一方、NSAやRentecでは主に非定常信号に加え、レジームチェンジや相関ノイズを扱う。
こうした信号は情報損失なしにデノイズすることができない。
この種の分析の目的は次のティックを予測することというより、できるだけ素早くパターン変化(レジームチェンジ)を検出し、それを既存の株式取引パターンや情報活動パターンに照合することだ。