40 ポイント 投稿者 tominam2 2024-04-13 | 14件のコメント | WhatsAppで共有

自分のコンピューター上で、制限なく日英-英日のAI翻訳が可能です。

  1. 一般的な機械翻訳に比べて品質が優れています。
  2. txtファイルとepubファイルの翻訳が可能です。
  3. 翻訳文(原文)ファイルと翻訳文ファイルの、2種類のファイルとして出力されます。翻訳がおかしい場合は原文とすぐに比較できます。
  4. 使い方はとても簡単です。翻訳が必要なファイルをドラッグした後、「翻訳を実行」ボタンをクリックするだけです。自動で日↔英に翻訳してくれます。
  5. 別のAIモデルに置き換えることも可能です。現在はコストパフォーマンスに優れたNHNDQを使用しています。

14件のコメント

 
upkit2 2024-04-16

こんにちは。インストールの途中でcmdを終了してしまったのですが、その後はフォルダを削除して新しくインストールしても、インストールが進まなくなってしまいました、、、解決方法はありますか?T_T

 
tominam2 2024-04-17

もちろんです。解決します。
ただ、まずは何がどのようにうまくいっていないのか、状況を把握する必要があります。

https://github.com/vEduardovich/dodari/issues
上記の Dodari の GitHub で New issue ボタンを押して新しい Issue を作成したうえで、

何がうまくいっていないのか、スクリーンショットや状況をもう少し詳しく説明していただけますか。
必ず解決します

 
illuza 2024-04-15

わあ、すごいですね。
私はDeepLを使ってはいますが、比較しながらじっくり確認してみます。
特に、英語文学のテキストを早く比較してみたいですね。

 
tominam2 2024-04-15

ご指摘の点が、現時点で私が最も惜しいと感じている部分です。
現在ドダリで使用しているモデルはNHNDQモデルで、facebook-nllbという200言語対応の多言語翻訳モデルを韓国語に特化してファインチューニングしたモデルです。ですが、これはGoogle翻訳よりは良いものの、DeepLと比べるとかなり劣ります。

解決のためにさまざまなモデルをテストしている中で、韓国語では0ティアとされるyanolja-eeveモデルを動かしてみたところ、驚くほど良かったです。体感ではDeepLの80〜90%くらいの水準には達しているように感じました。

ただし、このモデルを使うにはユーザーのコンピュータのVRAMが23GB以上必要です。また、翻訳速度が数十倍遅くなるため、高速化のためにvllm技術を適用する必要があります。そうすると速度はかなり改善されますが、Linux OSが必須になります。つまり、「4090とLinux OSを運用している開発者」だけがヤノルジャモデルを試せるということです。

今まさに悩んでいる部分です。残念です。

 
kunggom 2024-04-15

これ以上の説明が必要ですか?

 
tominam2 2024-04-15

NHNDQの親モデルは、facebook-nllbという200言語対応の多言語翻訳モデルです。
そのため、たまにそんな宇宙語みたいな訳をします。

 
kunggom 2024-04-15

まだ韓国語の翻訳品質がやや劣る部分があることから、フリゲート事件の主人公 ドドリ のニックネームを取って製品名を付けたように思えたため、その事件で生まれた空前絶後の翻訳機使用ミス「必要韓紙」に触れないわけにはいきませんでした。

 
roxie 2025-06-14

必要なのか?に、こんな悲しい歴史が……

 
tominam2 2024-04-15

何か複雑な出来事があったみたいですね。読んでもよく理解できませんでした……

「トダリ」という名前は、mixtral-7bx8モデルとの対話で作りました。
最初にAIは「言語の橋」という名前を勧めてくれたのですが、私は何か描きやすいはっきりしたイメージが必要だったので、冗談半分で「トダリ」はどうかと聞いてみました。自分でも突拍子もないと思っていましたから。

ところがAIは、トダリが「助けになる橋」という意味でとても良いと答えてくれました。思いもよらなかった解釈なので斬新だと思いました。そうして生まれた名前がトダリです

 
kunggom 2024-04-15

かなり昔の出来事ですが、当時の韓国のインターネットコミュニティではそれなりに有名な事件でした。
ざっくりまとめると次のような流れです。

  1. あるNAVERカフェの運営者 도더리 が、限定版の日本の音楽CDを7万ウォンで共同購入するという告知を掲載
  2. その後、第1回共同購入の参加者名簿が公開されたものの、名前や住所がどこかおかしく、人々が疑い始める
  3. あるカフェ会員が、そのCDは限定版でもなく価格も3万ウォン台にすぎないことを突き止めて問いただすと、도더리 がその人物をカフェから追放し、騒ぎが大きくなる
  4. 도더리 が日本企業とやり取りしたメールだとして公開した内容の中で、「必要韓紙」のようなあきれた翻訳機の誤用が見つかり、外部にも広く知られるようになる
  5. その後に明らかになったところによれば、도더리 はいわゆる虚言癖がかなり強い人物で、彼がインターネットに載せていた自己経歴の大半は、でたらめな見栄と嘘で塗り固められていた

とはいえ、大規模言語モデルがときどき思いもよらない解釈を出してくることがあり、それが妙にもっともらしいケースは私もたまに経験したことがあります。
人との会話の中で、自分ひとりでは思い至らなかった点を指摘される現象を、今では機械との対話でも経験しているのかもしれません。

 
tominam2 2024-04-15

なんということだ。でも、捕まってはいないみたいですね。
個人的にChatGPTは生真面目すぎて面白みに欠けますが、Mixtralは検閲がないからか、会話がとても興味深いです

 
kunggom 2024-04-15

Wikiの内容によると、告訴までされたものの、平身低頭で謝ったのか寛大な処置を受けてそのまま不問になったそうです。告訴された当時の彼の身分は公益勤務要員だったとか。

私は個人PCの性能的に、まだローカルLLMを直接使ったことはありません。GPT-4程度だけ使っていますが、Claude-3は追加で契約してみようかと思っています。

 
savvykang 2024-04-14

Hugging Faceモデルの実行からvenvの構築、Webサービスの実装まで、完成度の高い実例でとても参考になりました。共有してくださりありがとうございます。

 
tominam2 2024-04-14

お役に立てたのであれば、とてもうれしいです。こちらこそ、ありがとうございます。