- "Overview of SHARD: A System for Highly Available Replicated Data" 1988
- データベースのシャーディングを紹介した最初の論文として数多くの論文で引用されているが、「存在しない」
- "Integral Neural Networks"
- "Blue Is the New Black (Market): Privacy Leaks and Re-Victimization from Police-Auctioned Cellphones"
- "Latency Lags Bandwidth"
- "Liquid solution centrifugation for safe, scalable, and efficient isotope separation"
- "Co-cultivation enhanced microbial protein production based on autotrophic nitrogen-fixing hydrogen-oxidizing bacteria"
- "Enso: A Streaming Interface for NIC-Application Communication"
- "Search-Based Regular Expression Inference on a GPU"
- "Mastering Chess and Shogi by Self-Play with a General Reinforcement Learning Algorithm"
- "FP2: Fully in-Place Functional Programming"
- "Enabling tabular deep learning when d ≫ n with an auxiliary knowledge graph"
- "A Holistic Approach to Undesired Content Detection in the Real World"
3件のコメント
Integral Neural Networks はとても印象的ですね。
重み分布を離散化するという概念が核心のようですが、サンプリング理論のように連続関数で表現された重み分布を離散化して、演算量を最適化できるという話のようです。
最近の LLM を見ても、モデルを量子化して、似たような性能でより少ない演算量しか必要としないモデルを作ることがありますが、それと似た方法論だと思います。
最初の項目はちょっと突飛ですが、面白いですね
Where is the original "Overview of SHARD" paper?
リンク先のコメントを見ると、著者本人が最近そこで返答していたようですね。
企業・研究所の内部向け文書だったため、公開でアクセスできる方法はなかったそうです。
"I'm the Ronni Rosenberg. This was an internal CCA paper (not from academia or a published journal), from 35 years ago! I don't have a copy and I have no idea how to get it. Sorry about that. It does seem to be the earliest reference to data "sharding." (The other early reference mentioned in Wikipedia is from much later, 1997.)
Fortunately, you need not go back 35 years to read about sharding; it's easy to get current info. Cheers."
実際、こういうケースはわりとよくありますが、元の内容を確認できないにもかかわらず引用を付ける理由は、論文で言及している固有の概念や研究の出典を明確にするためでもあります。自分の研究で言う Sharding が、他の人たちもまったく同じ意味で考えている Sharding なのか、それとも名前だけ同じで別の人が提案した別概念としての Sharding なのか、あるいは実在しない概念なのにごまかすために Sharding という名前を使って言及しているのか、という点は他の研究者にとって確認が必要なんですよね。
ディープラーニングでも、名前は同じなのに互いに異なる研究成果であるネットワークモデルがしばしばあります。