honglu 2025-02-26 | 親コメント | トピック: キャリアの悩み相談でよく受けた悩みのまとめと、私の考え (zzsza.github.io) 文章がお上手ですね。 とても興味深く拝読しました! riskatcher 2025-02-25 | 親コメント | トピック: Anthropic、Claude 3.7 Sonnetをリリース (anthropic.com) かなり高くて、コスパはよくありません。実運用ではむしろo3-miniのほうがまだ良さそうですが、コーディング用途で使うなら推論段階が短く、中間トークンの問題も解決する必要があるので、その用途で見れば最適だと思います。価格も…… riskatcher 2025-02-25 | 親コメント | トピック: Claude 3.7 SonnetおよびClaude Codeを発表 (anthropic.com) flash 2と比べるには価格差が大きすぎるけど……ちょうどo1proとo3-miniの中間クラス hahnlee 2025-02-25 | 親コメント | トピック: HWP文書ファイル形式: HWPフォーマットの構造を見てみる (tech.hancom.com) hwp.js (https://github.com/hahnlee/hwp.js) を開発していた hahnlee です :) 私はそのプロジェクトを開発していた当時も、そして今も、HWP はあまり好きではありません。特に公開性のレベルについてはです。 ただし、「HWP フォーマットは AI 学習に有利な要素を持っている」という点については、ある程度共感します。 RAG を構築したときの経験から言うと、韓国では特に表を多用するのですが、PDF の場合は印刷を前提に作られたフォーマットなので、「表」というものは PDF にはありません。あるのは線分とテキストだけです。 そのため、複雑な表情報からデータを抽出する作業は、PDF 文書をベースにすると難しかったです。特に表がページをまたぐ場合はなおさらです。 大まかにたとえるなら、hwp が一種のリッチテキスト文書だとすれば、pdf は txt 文書のような感覚でした。もちろん「表」に限った話です。 ただ、これが hwp フォーマットの特長なのかと言えば、そうではないと思います。簡単なものは Markdown で十分ですし、もう少し複雑なら HTML で定義するほうがよいと思うからです。 そして決定的なのは、docx や odt も同じ利点を持っていることです。 iolothebard 2025-02-25 | 親コメント | トピック: HWP文書ファイル形式: HWPフォーマットの構造を見てみる (tech.hancom.com) Netscape は IE に完敗したあと、ソースを公開したり何だりと、後追いで必死に対応していましたよね。 riki3 2025-02-25 | 親コメント | トピック: HWP文書ファイル形式: HWPフォーマットの構造を見てみる (tech.hancom.com) HWPは好きではなく、今のハンコムという会社の製品については良いことは言えませんが、昔は製品自体はWordよりはるかに優れたソフトウェアだったと思います。 torioppa 2025-02-25 | 親コメント | トピック: Amazon、Kindleで電子書籍購入時にライセンス購入であることを明示 (blog.the-ebook-reader.com) 正確にお答えすると、同じ本でもフォーマットが異なればISBNを別途発行してもらう必要があります。しかも、epubとpdfの電子書籍もそれぞれ別個のISBNを取得しなければなりません。 上の方のお話にお答えすると、国内の電子書籍の場合は本文で言及されているように「サービス権限」を購入する概念であり、コンテンツそのものを所有する概念とは少し異なります。書店ごとに異なるDRMを別々に適用することもありますし。だから、自分のお金を払って購入した電子書籍を、どの環境でも快適に使えないので、時代に合った法律が必要です。 個人的には、金融業界のマイデータのように、デジタル資料もどこで購入しても自分が望む形で利用できるといいと思います。 jic5760 2025-02-25 | 親コメント | トピック: HWP文書ファイル形式: HWPフォーマットの構造を見てみる (tech.hancom.com) ああ.. なるほどですね..(笑)(笑)(笑)(笑) jwh926 2025-02-25 | 親コメント | トピック: HWP文書ファイル形式: HWPフォーマットの構造を見てみる (tech.hancom.com) えっ、本当に? killdong 2025-02-25 | 親コメント | トピック: Next.js の未来が気に入っています。本当に素晴らしくなってきています (tigerabrodi.blog) なぜキャッシュが必要なのか理解できない。従来のやり方ではキャッシュなんて不要だったし、キャッシュを使わなければならない状況はごく限られているのに、無駄にキャッシュに命を懸けているのか? carnoxen 2025-02-25 | 親コメント | トピック: HWP文書ファイル形式: HWPフォーマットの構造を見てみる (tech.hancom.com) 世界標準になれなかった不運な存在 unsure4000 2025-02-25 | 親コメント | トピック: 英国は世界の安全を弱体化させている (blog.thenewoil.org) 政治家によるセキュリティ破壊は、「自分だけは使う」という態度以上でも以下でもないと思います。数人の補佐官を引き連れていながら、この程度の技術を理解できないなら、それは職務怠慢でしょう。 wook3910 2025-02-25 | 親コメント | トピック: HWP文書ファイル形式: HWPフォーマットの構造を見てみる (tech.hancom.com) ワードプロセッサは「アレアハングル」で覚えましたが、今では大韓民国の発展のために消えるべき遺物ではないかと思います。 colus001 2025-02-25 | 親コメント | トピック: 英国は世界の安全を弱体化させている (blog.thenewoil.org) ロシアでもTelegramをあれほど弾圧しておきながら、いざ戦争になると結局Telegramを使っているし、韓国政府もTelegramを悪の枢軸のように追い立てておきながら、自分たちは結局Telegram、さらにはSignalまで使っていたことが明らかになりました。自分にだけ都合のいいセキュリティなんてこの世には存在しないのに、技術に対する理解が不足しているのではないかと思うこともあります。 iamchp 2025-02-25 | 親コメント | トピック: HWP文書ファイル形式: HWPフォーマットの構造を見てみる (tech.hancom.com) 私もその部分を読んで不思議に思いましたが、元のドメインを見て納得しました(笑) yeorinhieut 2025-02-25 | 親コメント | トピック: HWP文書ファイル形式: HWPフォーマットの構造を見てみる (tech.hancom.com) 「HWPフォーマットはAI学習に有利な要素を持っている」 これ本当ですか..? doolayer 2025-02-25 | 親コメント | トピック: HWP文書ファイル形式: HWPフォーマットの構造を見てみる (tech.hancom.com) あまり共感できませんね。本文でも言及されていた hwpx ならまだしも… plumpmath 2025-02-25 | 親コメント | トピック: なぜClojureなのか? (gaiwan.co) なぜ Clojure なのか? Jank Jank~! aer0700 2025-02-25 | 親コメント | トピック: Suckless.org - もっとイライラしないソフトウェア (suckless.org) かなり気合いの入ったマニフェストですね(笑)。かっこいいです。 colus001 2025-02-25 | 親コメント | トピック: AIが設計したチップ、人間には理解できないほど奇妙だが性能は史上最高水準 (livescience.com) AlphaGoに似た感じですね。なぜあんな手を打つのかは分からないものの、勝率はこちらのほうが高い。人間が理解するために本質を歪めてしまう(?)ケースをうまく見つけられれば、最適化に大いに役立ちそうです。 コメントをさらに読み込む
文章がお上手ですね。
とても興味深く拝読しました!
かなり高くて、コスパはよくありません。実運用ではむしろo3-miniのほうがまだ良さそうですが、コーディング用途で使うなら推論段階が短く、中間トークンの問題も解決する必要があるので、その用途で見れば最適だと思います。価格も……
flash 2と比べるには価格差が大きすぎるけど……ちょうどo1proとo3-miniの中間クラス
hwp.js (https://github.com/hahnlee/hwp.js) を開発していた hahnlee です :)
私はそのプロジェクトを開発していた当時も、そして今も、HWP はあまり好きではありません。特に公開性のレベルについてはです。
ただし、「HWP フォーマットは AI 学習に有利な要素を持っている」という点については、ある程度共感します。
RAG を構築したときの経験から言うと、韓国では特に表を多用するのですが、PDF の場合は印刷を前提に作られたフォーマットなので、「表」というものは PDF にはありません。あるのは線分とテキストだけです。
そのため、複雑な表情報からデータを抽出する作業は、PDF 文書をベースにすると難しかったです。特に表がページをまたぐ場合はなおさらです。
大まかにたとえるなら、hwp が一種のリッチテキスト文書だとすれば、pdf は txt 文書のような感覚でした。もちろん「表」に限った話です。
ただ、これが hwp フォーマットの特長なのかと言えば、そうではないと思います。簡単なものは Markdown で十分ですし、もう少し複雑なら HTML で定義するほうがよいと思うからです。
そして決定的なのは、docx や odt も同じ利点を持っていることです。
Netscape は IE に完敗したあと、ソースを公開したり何だりと、後追いで必死に対応していましたよね。
HWPは好きではなく、今のハンコムという会社の製品については良いことは言えませんが、昔は製品自体はWordよりはるかに優れたソフトウェアだったと思います。
正確にお答えすると、同じ本でもフォーマットが異なればISBNを別途発行してもらう必要があります。しかも、epubとpdfの電子書籍もそれぞれ別個のISBNを取得しなければなりません。
上の方のお話にお答えすると、国内の電子書籍の場合は本文で言及されているように「サービス権限」を購入する概念であり、コンテンツそのものを所有する概念とは少し異なります。書店ごとに異なるDRMを別々に適用することもありますし。だから、自分のお金を払って購入した電子書籍を、どの環境でも快適に使えないので、時代に合った法律が必要です。
個人的には、金融業界のマイデータのように、デジタル資料もどこで購入しても自分が望む形で利用できるといいと思います。
ああ.. なるほどですね..(笑)(笑)(笑)(笑)
えっ、本当に?
なぜキャッシュが必要なのか理解できない。従来のやり方ではキャッシュなんて不要だったし、キャッシュを使わなければならない状況はごく限られているのに、無駄にキャッシュに命を懸けているのか?
世界標準になれなかった不運な存在
政治家によるセキュリティ破壊は、「自分だけは使う」という態度以上でも以下でもないと思います。数人の補佐官を引き連れていながら、この程度の技術を理解できないなら、それは職務怠慢でしょう。
ワードプロセッサは「アレアハングル」で覚えましたが、今では大韓民国の発展のために消えるべき遺物ではないかと思います。
ロシアでもTelegramをあれほど弾圧しておきながら、いざ戦争になると結局Telegramを使っているし、韓国政府もTelegramを悪の枢軸のように追い立てておきながら、自分たちは結局Telegram、さらにはSignalまで使っていたことが明らかになりました。自分にだけ都合のいいセキュリティなんてこの世には存在しないのに、技術に対する理解が不足しているのではないかと思うこともあります。
私もその部分を読んで不思議に思いましたが、元のドメインを見て納得しました(笑)
「HWPフォーマットはAI学習に有利な要素を持っている」
これ本当ですか..?
あまり共感できませんね。本文でも言及されていた
hwpxならまだしも…なぜ Clojure なのか?
Jank Jank~!
かなり気合いの入ったマニフェストですね(笑)。かっこいいです。
AlphaGoに似た感じですね。なぜあんな手を打つのかは分からないものの、勝率はこちらのほうが高い。人間が理解するために本質を歪めてしまう(?)ケースをうまく見つけられれば、最適化に大いに役立ちそうです。