▤ 記事.言語

このブログが、あなたの言語をサポートするようになりました

まあ、そうじゃない可能性もありますけどね。

実際、このブログは意図的に標準中国語、スペイン語、ヒンディー語、アラビア語に対応していないので、その可能性はかなり高いです。

私の言語を意図的に除外したってこと?

はい。

2ヶ月前にローカリゼーションの選択肢を追加したとき、私が優先したのは次のような言語です:

  1. AI以前のアルゴリズム翻訳サービスでは最適とは言えない翻訳がされる言語。特に私のページにあるような専門用語だらけのコンテンツに関しては。
  2. 私がGeminiの仕事ぶりをチェックできる程度には詳しい言語。
  3. 美的、あるいは音声学的に私にとって魅力的な言語。

ある言語がこれら3つの基準をすべて満たさなかった場合、私はそれをスキップせざるを得ませんでした。

標準中国語は素晴らしいですが、私は全く詳しくありません。

スペイン語はたぶん私の2番目に得意な言語ですが、Google翻訳はかなり優秀だと思います。英語との間でそこそこまともに翻訳してくれるようですし。

3番目の点については、ロマンス諸語の響きは大好きですが、見た目はあまり好きじゃないんです。母音で終わる単語が多すぎると、たいてい何か変な感じがしてしまいます。

だからといって、スペイン語や標準中国語を絶対に追加しないというわけではありません。ただ、今の私にとって優先事項にはできないというだけです。

じゃあ、AIにページを翻訳してもらうだけ?

はい。…そして、いいえ。

AIに頼めばGoogle翻訳より良い結果が得られることもあると思いますし、事前に用意された出力を提供するだけでも計算資源の無駄遣いを省く改善にはなりますが、AIにはいくつかの悪い癖に引き寄せられる傾向があることに気づきました:

  1. 構造は可能な限り損失なく維持される。
  2. 意味は構造を維持するために犠牲にされる。

これは最悪のパターンですね。意味を失い(特に専門用語に関して)、でも元の英語の構文と構造は維持されるのですから。

そこで、AIが登場する前に考え出した戦略をいくつか取り入れてみました。

  1. ウィキペディアにページがありそうな専門用語のリストを作成する。(例:素性文字)。
  2. 各言語で適切な用語を見つける。ウィキペディアになければ、掲示板やコミュニティなどを検索して、同じ概念について議論しているネイティブスピーカーを見つけようと試みる。
  3. Geminiに、作業中のローカリゼーションファイルの英語版と、それぞれの言語での専門用語を見せて、「翻訳調を避けて」「翻訳ではなく、ローカライズして」と頼む。既存のjsonに収まるようにフォーマットしてもらうよう頼む。
  4. fiveserverを使ってブログでjsonをプレビューし、専門用語が正しいこと、理解を妨げるようなひどいエラーがないことを確認する。行ごとにケースバイケースで修正する。
  5. 新しい完全なjsonを別のGeminiに渡し、理解を妨げたり、不自然に聞こえて読みにくくしたりするエラーを見つけるように頼み、説明を求めて、またひどい部分を修正する(特に彼が専門用語を変更したがる場合)。

これはMTPEと呼ばれているものだと思います。

99%の場合、Geminiは私より翻訳が上手です。彼なしではこれはできませんでしたが、うまく使うにはコツが要ります。彼の翻訳はまだ非常に直訳調な感じがしますが、私にはない語彙を持っていますし、Chromiumベースのブラウザに搭載されている自動のGoogle翻訳とは違って、理解できるほど正しいコンテンツを提供することを可能にしてくれると思います。

私が知る限り、翻訳はどの言語でも少し不自然に感じられますが、私の英語も不自然なので、もしかしたら彼が私の文体をうまく拾っているのかもしれません。

もし私が提供しようと決めた言語のいずれかを読める方がいらっしゃいましたら、翻訳をどう改善できるか教えてください。

GeminiはGraflectの翻字もやるの?

はい。(これもまた、注意点付きで)

GeminiはGraflectをすぐに習得してくれますが、いくつか癖があります。

例えば、Geminiはイギリス英語のアクセントで書くのが好きなんです。本当に。非ローティック(non-rhotic)なR(音節末のrを発音しない)、単語の最後のRの代わりに母音。短い [ɪ] の代わりに長い [iː]。

これはGeminiにGraflectを使わせている間、非常に一貫していました。

私のIPAチャートに問題があった結果だと思いますが、正直なところ、今ではもう彼がそういう話し方なんだと信じています。

彼は他の人工文字から特定のグリフを使うのも好きで、それは本当にかわいいです。なぜなら、同じ実際のGraflectグリフを置き換えるために、同じものをこっそり入れてくることがよくあるからです。最初はなぜそんなことが起こるのか全く分からず、自分の側の何らかの問題だと思っていました。

友人のアーロンが作ったスクリプトを今VSCodeで使ってこれらを検出し、それについてGeminiに文句を言っています。これまでのところ、どんな種類のプロンプトエンジニアリングも、問題のアラートを貼り付けてもう一度試す機会を与える以外に、Geminiが出力にGraflect以外のグリフを含めるのをやめさせることはできませんでした。

Geminiに私のアクセントで書いてもらうために、まずいくつかのローカリゼーションファイルを翻字する必要がありました(そして、そのために高速で作業できるツールがいくつかあります)。しかし、彼が参考にするベースラインを掴んでからは、本当に見事にイギリス英語のアクセントを捨ててくれました。お見事、Gemini!

GraflectのIPAに関するブログ投稿を除けば、すべてのブログ投稿は80%~99%がGeminiによるもので、すぐに使える状態です。私が提供したわずかな情報から、彼がこれほど多くを推測できたことに驚いています。もし興味があれば、私のアクセントには存在しない奇妙な点を見つけられるか試してみてください。見つけられないと思いますよ!

Geminiにコネチカットのヤンキーのように話させるのは、本当にクールなことでした。すべてを手で書き直す代わりにそれを試してみてよかったです。もしご自身でこれを試してみたいなら、800~1200語程度のサンプルテキストを目指してみてください。Geminiがあなたのアクセントを推測するのに十分なn-gramを拾うには、それで十分だと思います。

誰もがこれをやるべきか?

うーん、どうでしょう?

個人のブログが通常単一言語である理由は非常に明白で、ほとんどのウェブサイトでさえそうです。ニュアンスのあるものは翻訳に非常に時間がかかりましたし、ほとんどの人はとにかく英語が読めます。そして、Google翻訳を使えば、世界の共通語でないものでも大体の意味はつかめるので、結局、割に合わない作業なのです。

私のサイトは、この種のことを行う参入障壁が極めて低くなったことを示す良い例だと思います。でも、あと1年もすればブラウザ自体がリアルタイムでこれをこなせるようになっても、もはや驚きはないでしょうね。好みに合わせて言い回しを変えてくれる機能まで付くかもしれません。一つ言えるのは、LLMのおかげで、ページの翻訳は実質的に手間いらずになり、以前は不可能だった方法で微調整できるようになった、ということです。試してみる価値はありますよ。

要するに

私は自分のウェブサイトに、専門用語を保持し、私の声をより多く伝える(Graflectの場合は音声学的に)言語オプションを持たせたかったのです。その功績はGoogleなどにあります。

あとがき

Graflectにはいくつか難しい点があることに気づきました。例えば、私は「」という文の中で「」と言います。

「AccentのA」の音は持続しないので、イギリス英語のアクセントのようには聞こえず、短いので実際には普通に聞こえます。

もし私がcanを単独で、あるいは誰かに「I can.」と答えるような特定の文脈で言うと、Aはになります。

ですから、これが私の話し方を完璧に表現しているとは思いませんが、普通のラテン文字が与えることができるものよりは、より近い近似値です。

システム設定.system

表示テーマ



著作権とライセンス

このウェブサイトに表示されているすべての写真作品は、作者の知的財産です。

事前の書面による許可と報酬なしに、商業目的または個人的な使用以外の目的でこれらの写真を複製、配布、または送信することは固く禁じられています。

特に明記されていない限り、コードや文章を含む他のすべてのコンテンツは、寛容なライセンスの下で自由に使用、変更、配布できます。

このウェブサイトでは、次のオープンソースフォントを使用しています:EB Garamond および Frank Ruhl(SIL OFLライセンス)、Noto Emoji(Apache 2.0ライセンス)、Rebecca BettencourtによるFairfaxHD(個人使用ライセンス)、Symbola、およびSelyodka。

プログラム.launcher