15 ポイント 投稿者 hongminhee 2021-10-09 | 12件のコメント | WhatsAppで共有

こんにちは。GeekNewsにアカウントを作ってから、これまでただ楽しく読んでばかりいたのですが、ハングルの日になって、今年の初めに作った《日・中・韓 計算機科学用語対照》表を思い出したので、Show GNとして共有してみます。

どの専門分野にもそういう傾向はありますが、最近は便宜上、計算機科学の用語を、以前からすでに定着している訳語を使わず、英語を外来語としてそのまま使うことが多いです。たとえば最近では「値」も、ただ value と言って、書くときもそうすることが多いですよね。

とにかく、韓国語にもすでに数十年前から定着している良い計算機科学の訳語が多くあります。そのうちかなりのものが、同じ漢字文化圏である日本や台湾と共有されていることを知り、面白半分で作ってみた対照表です。ハングルの日の記念に、一度ご覧いただければうれしいです。

ソースコードは < https://github.com/dahlia/cjk-compsci-terms > にあります。各用語は tables/ ディレクトリ内に分類ごとのYAMLファイルとして整理されているので、用語の追加や誤りを修正するPRも歓迎します。

読んでいただきありがとうございます!

12件のコメント

 
dhsung 2021-10-10

お問い合わせがあります。

YAML にある中国語と日本語の表記を見ると、韓国で使用する漢字表記を使い、その下位に term として繁体字、簡体字、日本式の略字表記を入れていることを確認しました。

どのような意図で開発したのか気になります。

例えば Source Code については、

中国大陸(zh-CN)では韓国語の漢字表記表現として "源代碼" と "源程序" を使用するとされていますが、

term には簡体字表記をきちんと入れているのを見ると、一貫性が取れていないように見えます。

参考までに Source Code は、

中国大陸では 源代码、源码、源程序 を主に使用し、

台湾では 原始碼、原始程式碼 を使用します。

香港では 原始碼、源碼 を使用すると聞いています。

そして、Computer の場合、

中国大陸では公式には "电子计算机" であり、多くの書籍や文書では Computer に対する表記として "计算机" を使いますが、

台湾・香港の影響で、人々は "电脑" も混用して多く使っています。

参考1: https://zh.wikipedia.org/wiki/…

参考2: 电脑吧 https://tieba.baidu.com/f?kw=%B5%E7%C4%D4&fr=ala0&tpl=5

京東ドットコム CPU コーナー : https://pcdiy.jd.com/

京東ドットコム ノートPC コーナー: https://list.jd.com/list.html?cat=670,671,672

そのため、この部分は政府の公式表記を中心に進めるのかどうか、確認すべきことが多そうです。

中華圏で使われる表記がそれぞれ異なり、使う人ごとに頻度も異なる場合があるので、考慮すべき対象も多いように思われます.

 
hongminhee 2021-10-10

貴重なご意見ありがとうございます。

まず、先にWebで公開されているページをご確認いただければ、大陸中国語の用語のうち、簡体字ではなく韓国式漢字表記で表示されている項目がないことをご確認いただけると思います。YAMLデータでは term フィールドだけが実際の画面に表示される内容なので、おっしゃる通り term でのみ各地域で使われる表記方式で記してあります(ただし、韓国語についてはハングルではなく韓国式漢字で表記)。

では、その上のほうに書かれている《康熙字典》体の文字列は何かというと、これは単にデータ内で異なる言語(または方言)間の同系語を束ねるための任意のグループ識別子です。任意のものなので、別に漢字である必要はなく、単なる数字やハッシュを使っても構いません。しかし、たとえば日本語の「科学」と台湾中国語の「科學」は1つの同系語としてつながって表示されるべきなので、同じグループ識別子を共有する必要があります。同様に、韓国語の「コンピュータ」と日本語の「コンピュータ」も、同じグループ識別子で束ねられる必要があります。

識別子を単に「foobar」のような任意の無意味な文字列にしてもよいのですが、便宜上、内容が分かり、かつ一貫した規則に従って命名したほうが管理しやすいと考えました。そのため、英語由来語はローマ字で、漢語は漢字で表記するのが最も思いつきやすい規則でした。ただし、漢字表記にもさまざまな方式があり得るため、複数の俗字や異体字などを正規化する必要があり(グループ識別子なので1つにまとめる必要があります)、この過程で自然に中国の簡体字や日本の新字体は候補から外れました。各地域の基準で読みが同じだとして異なる文字を統合している場合がかなりあり、正規化には不向きだからです(分類情報の損失)。したがって、選択肢は香港の繁体字や台湾の正体字、韓国式漢字などから選ぶしかありませんが、現存するどの政治体制とも結びついた含意を持たないと見なせる《康熙字典》体を基準にしました。

以上の内容は、リポジトリ内の CONTRIBUTING.md ファイルをご覧いただければ、すでに記載されている内容です。そのほかの部分についても書かれていますので、参考にしていただければと思います。

話者集団が同じ意味を指す複数の語のうちどれを最も多く使うのか、つまり語彙の分布を幅広く把握することは、専門研究者でもない一個人が調査するにはコストも時間もかかりすぎて困難です。コンピュータ科学の研究に従事している人やソフトウェア開発に携わる人々のあいだで、用語使用の分布を調査した先行研究があるなら、私もぜひ積極的に活用したいのですが、そうしたものが特にないのであれば、私としては複数の参加者の助け、とりわけ各言語のネイティブ話者からの提案が切実に必要です。当然ながら、これまでは一人で調査してきたため、中国語版Wikipediaや百度百科などを中心に調べるほかありませんでした。

ご指摘の具体例については、プルリクエストを送っていただければ、より迅速に反映できると思います。

長いコメントをお読みいただき、ありがとうございました。

 
dhsung 2021-10-10

香港政府が刊行している English-Chinese Glossary of IT Terms を参照すると、香港で使われている用語の整理になると思います。

https://ogcio.gov.hk/en/our_work/…

 
alstjr7375 2021-10-09

すばらしいです :D

 
kunggom 2021-10-09

良いまとめをありがとうございます。

今後機会があれば、北朝鮮の電算用語に関する資料も見てみたいですね。統一部北韓資料センターに適切な資料があるかは分かりません。

 
dhsung 2021-10-10

すでに統一部のサイトにあります

南北朝鮮のIT用語比較: https://nkinfo.unikorea.go.kr/nkp/term/skNkItTerm.do

 
dhsung 2021-10-10

南北朝鮮のIT用語比較: https://nkinfo.unikorea.go.kr/nkp/term/skNkItTerm.do

これをスクレイピングすれば、すばやく追加できそうです。

 
kunggom 2021-10-10

よく見ると、スクレイピングする必要もなく、該当内容を丸ごと xls 形式のファイルで提供しているんですね。

 
luavis 2021-10-09

koko-krko-kp に分けて、北朝鮮のコンピュータ用語も付けるとよさそうですね

 
hongminhee 2021-10-09

Markdownのように <> で囲めば URL の境界が認識されると思っていたのですが、違ったようですね。😅 リポジトリのリンクはこちらです: https://github.com/dahlia/cjk-compsci-terms

 
xguru 2021-10-09

Markdown対応の作業をしないといけないのですが、まだできていません(泣)

私のほうで、URLがクリックできるように前後に空白だけ追加して修正しておきました。

でも本当にハングルの日にぴったりなShowですね。楽しく見させていただきます!

 
hongminhee 2021-10-09

本文も修正してくださってありがとうございます!