20200327

Google翻訳を試してみたら<2>

(日本語の未来、AIとともに)<1>からのつづき

日本語から英語、英語から日本語への翻訳は、本当のところどちらが難しいのだろう。

もう一度、日本語から英語のテストを別のタイプの文章で試してみよう。日本語から英語は、どんな文章でも易しいのかどうか。

Google 英訳:
"When the economy is good, you can eat from first-class to second-class, third-class, and fourth-class. When the economy is normal, you can eat part of the first-class, second-class, and third-class. When the economy is bad, It means that you can eat some of the first and second parts, which means you can eat regardless of the economy. “


原文:
「景気がいいときというのは、一流から二流三流、四流まで食えるんです。景気がふつうのときは、一流から二流、三流の一部が食っていけるんです。そして、景気が悪いときというのは、一流と二流の一部が食っていけるということです。つまり、一流は、景気にかかわらず食っていけるんです」
ほぼ日刊イトイ新聞「今日のダーリン」より

英訳文を素直に読むと、景気がいいときは、ファーストクラス以下の何か(食べ物)が食べられる、という風に受け取れる。このyou can eatというのは、日本語でいう生活できるという意味にはならないと思う。普通、you can eat these applesのように目的語に食べ物がくるはず。あるいは「敵を圧倒する、打ち負かす」というときや「使い尽くす」といった場合にもeatは使えるようだが。

ここで言う「食える」は、たとえば「you can feed yourself」あるいは「you have enough to feed yourself」のこと、あるいは「you can live」とも言えるかもしれない。「一流から二流、三流の一部が食っていける」は、「一流から二流、及び三流の一部の人が」という意味だから、if you are from a first-class professional to the second-class and part of the third-class professionalとなるだろうか。

part ofがつくのはsecondやthird、fourthであって、firstにsome of とか part ofがかかってしまうと、この文の意図はまったく伝わらない。「景気が悪いときは」以下の文章は英訳では矛盾が起きている。ここは日本語の方を「一流と、二流の一部が」とすればうまく英訳できるのではないか。あ、やってみたらダメだった。読点を入れても、Google翻訳は、
When the economy is bad, you can eat some of the first-class and some of the second-class.
と出してくる。

「一流の人と、二流の一部が」とすると初めて、
When the economy is bad, you can eat top-notch people and part of the second-class.
としてくれる。

この文章は日本語として、日本語人が読んだとき、わかりにくい文章ではない。むしろわかりやすい文章かもしれない。しかしそれが英文に訳すというプロセスでは、訳しにくい、意図の伝わりにくい文章になってしまう。

この辺が英訳を意識した日本語文を書く場合の、ポイントになってくるかもしれない。

もう一つ、文学作品の翻訳を試してみよう。

Google 英訳:
It was three years ago in the summer. I carried Ryuk Satsuk on my back like a person, and tried to climb Mt. Hotaka from a hot spring inn in that Kamikochi. As you know, there is no way back to Azusa River to climb Mount Hotaka. I had climbed Mt. Yariga as well as Mt. Hotaka before, so I climbed the valley of Azusa River where the morning fog fell without getting a guide.


原文:
三年前の夏のことです。僕は人並みにリユツク・サツクを背負ひ、あの上高地の温泉宿から穂高山へ登らうとしました。穂高山へ登るのには御承知の通り梓川を溯る外はありません。僕は前に穂高山は勿論、槍ヶ岳にも登つてゐましたから、朝霧の下りた梓川の谷を案内者もつれずに登つて行きました。
芥川龍之介「河童」より
It was the summer three years ago. の方がすっきりするような気がする。おそらく「三年前」が冒頭にきているので、重要なワードと見たのかもしれない。Ryuk Satsukは綴りとしてはrucksack、あるいはbackpackでもいいかもしれない。like a personとは「人並みに」の訳。like othersとかlike everyone elseとか?

in that Kamikochiのthatは何を意味しているのだろう。日本語で「あの上高地」となっているからだが、それを説明するような文章は、これ以前の文にはない。景勝地として有名なあの上高地と言っているだけなのか、他に何か意味があるのかはっきりしない。これは日本文のせい。

「梓川を溯る」はback to ではなく、up the Azusa Riverまたはgoing upstream on Azusa RIverの方がよさそう。槍ヶ岳がMt. Yarigaになっているけれど、これはMt.をつけたのでtakeを外したのかもしれない。Mt.Fujisanのようにならないようにと。しかしここはYarigatakeでないと、固有名詞だから。こういった言葉の慣習的な使用法、ケースごとに対処が変わってくる変換にはAIはなかなか対応しづらいようだ。

では普通ではない文章、詩のようなものはどうか。

Google 英訳:How do you do what you doBlow the blue walnutBlow the sour or rinHow do you do what you do

原文:
どっどど どどうど どどうど どどう
青いくるみも吹きとばせ
すっぱいかりんも吹きとばせ
どっどど どどうど どどうど どどう
宮沢賢治「風の又三郎」より
あ、これは面白いかも?!
「どう」がhow do you doになってるのだろうけれど、「どう」と「do」が音的に似ているせいで面白い効果を生んでいる。意味のない言葉(擬音)を意味あるようにしている。もうちょっとこれをリズミックにして、

How do you do you what do you do

にしたらどうだろう。sour or rinは、sour karinでいいかなと思うけれど、なぜor rinとなったのかは不明。「青いくるみ」はblueではなくてgreen(熟していない)の方がよさそう。

そのつづき。

Google 英訳:There was a small school on the shore of Tanigawa.There was only one classroom, but there were no third grade students, and there were everyone from one to six years. The playground was almost like a tennis court, but right behind was a beautiful grass mountain with chestnut trees, and there was a rock hole in the corner of the playground that blew out the water.

原文:
 谷川の岸に小さな学校がありました。
 教室はたった一つでしたが生徒は三年生がないだけで、あとは一年から六年までみんなありました。運動場もテニスコートのくらいでしたが、すぐうしろは栗くりの木のあるきれいな草の山でしたし、運動場のすみにはごぼごぼつめたい水を噴ふく岩穴もあったのです。
宮沢賢治の文章は、翻訳に適しているように見える。ただ「たった一つでしたが」の「が」をbutにしてしまうと、意味が変わってきてしまう。ここはたとえば、

… and though there were no third grade students, there were everyone from …とすればよさそう。ただ「一年から六年まで」だと訳語がyearsになってしまうので、日本語の方を「一年生から六年生まで」として訳し直すと、there were everyone from first grade to sixth grade.と訳してくれる。機械翻訳は意味をとって訳しているわけではないので、こういうことはよく起きる。
rock holeという言い方があるかどうか。a hole of the rockとか? 

…there was a hole of the rock that blew out the cold water in the corner of the playground.

の語順の方がいいような気がする。でも印象として、宮沢賢治の文章は、機械翻訳の読み取りに比較的あっているかもしれない。

こうして見てくると、日本語を英語に、の場合も元テキストの書き方によって、成果はかなり違ってきそうだ。

このことは今後の日本語の書き方のスタンダードとして、ちょっとしたヒントとなるかもしれない。つまり日本語として読みやすく、意味がとおり、意図や感情が伝わるというだけでなく、他の言葉に訳されるときのことを考えて、日本語を書くということだ。そのような日本語を書くと、ときに日本語としては「美しくない」あるいは「もたもたした」表現になることもあるだろう。たとえばあらゆる文章に主語を入れるなど。日本語だけのことを考えれば、主語を省いても文脈から誰のことを指しているかわかっても、英訳するとなると、それを入れてやらないとAIが判断できない。

AIが理解しやすい日本語をしゃべる、というのは、たしか演出家の平田オリザさんも言っていた気がする。日本人にとって言わなくてもわかることをわざわざ書くのは、粋じゃない、無粋である、という考えもあると思う。ただ今の世の中、いろいろなことが地球的な広がりを見せている時代に、日本語は日本人のものだから、という説はおそらく通りにくい。

日本語は、日本人専用のものではない。誰がつかってもいい。誰が習ってもいい。その点では英語と同じだ。日本語が翻訳しやすいような、AIが理解しやすいような、つまり万人にわかる言葉に変わっていくことは悪いことではないと思う。

言葉にとって「美」というものがあるとしたら、それはなんだろう。言おうとしていることの意図がスピーディに、ストレートに、ある感覚(感興、臨場感)をともなって伝わることは美しさの一つではないか。リズムというものもあると思うが、ある程度、慣れの問題かもしれない。ここでは「日本らしさ」があるかどうかは、あまり問題にならないだろう。「らしさ」などというものは、時間の経過で変化する。

Google翻訳をつかって、日本語の書き方を勉強するのは一つの方法かもしれない。論理的に破綻がなく、誰にもわかりやすい、簡潔で平明な言葉づかいの文章。宮沢賢治の文章のように、初めての人に初めてのことを伝えるような表現、フラットでオープンな言葉。自分の書いた日本語を英訳してみて、おおよそうまく英訳できていれば、新しい日本語としては合格なのではないだろうか。

AIの言語能力というのはなかなか面白い。Chromeで英文のメール(Gmail)を書いていると、書く先々で言葉を予測して提示してくる。たとえば、
I will let you know when the article と書いてところで、 is publishedが出てくる。それでOKであればタブで決定。予測違いであれば自分でその先を書く。綴りを間違えたり、前置詞が抜けているときも教えてくれる。

いつだったか、アメリカ人の友人にメールを書いているとき、思わぬ提案があって驚いたことがある。そのメール内ではひとことも書いていないのに、たしか「book」だったか特定の単語を提案してきた。「本は届いたか?」のような文章で。おそらくそのメール内にはないけれど、同じスレッドのメールのどこかに「本を送った」という文章があって、そこから類推したのだと思う。ちょっと驚いた。

Google翻訳も含め、AIは人間の言語能力を強化してくれる。まだまだのところがあっても、AIとともに学びあって、精度を高めていくのは悪くない。AIに英語の間違いを直してもらったり、こちらがAIに人の名前の表記を教えたりと。そうやって協力しあって、社会をよくしていく、住みやすいものにしていくのが、人間とAIとの正しい関係なのかもしれない。



20200313

Google翻訳を試してみたら<1>

(日本語から英語、英語から日本語)

日本語と英語の自動翻訳は、他の言語間(たとえば英語とスペイン語など)よりかなり劣るとずっと思ってきた。実用的ではないな、と。特に英語から日本語への変換は意味をなさないことが多かった。ブラウザをChromeにしていると、ブラジルからのポルトガル語のメールなども、Gmailでは日本語にしてくれたりするが、それもかなーり酷かった。

ある時期、Google翻訳をつかっていると、他の提案訳語、候補はあるかと聞かれることがあった。それに協力すると機能がアップするのかなと思い、ときどき書き込んだりもしていた。AIの機械学習においては、多量の実際的なデータが必要になる。それが多ければ多いほど、AIの能力が高まるはず。日本語への翻訳能力が低かったのは、そのデータが少ない、つまり日本語をつかう人の協力度が低いのかな、と思ったりもしていた。もちろん基本的には、他の方法で大量のデータを入れ込んではいると思うが。

日本語と英語などヨーロッパ系の言葉は、語順が違ったり、ものごとの捉え方が違っていたり、その結果として言語間に距離ができているのも原因の一つではあると思う。

と、思っていたら、いつの間にか、Googleの日本語↔英語の翻訳能力が画期的に高まっていることに気づいた。きっかけはあるサイトに記事を寄稿したとき、取材相手(ドイツ人)から「記事を読むのを楽しみにしている」と言われて、「いや、残念ながら日本語なんですけど」と返したところ、「Google Translateで読むから大丈夫」と言われたこと。いや、あれはダメでしょ、日本語の場合、と返そうとして、試しに自分の書いた原稿をGoogle Translateに投げ込んでみた。

相手はドイツ人だったけれど、英語でやり取りしていたので、翻訳先の言葉は英語を選んだ。ドイツ語はできないので、ドイツ語では翻訳の精度は確認ができない。それが、、、、なんか、、、良かった!! 素晴らしいといってもいいくらいの訳だった。えっ、こんなに進歩してたの??? という感じだ。たとえばこんな風。

Google 英語訳: 
The exhibition "RE: ECM", celebrating the 50th anniversary of ECM Records, and the sound installation "Small Places", one of its contents, are currently in progress in Seoul, Korea. It starts at 12:00 on October 18 and ends on February 29 next year. You can experience the same sound on the net simultaneously with the Storage by Hyundai Card in Seoul, and listen to all ECM albums in real time streaming.

原文はこれ: 
韓国・ソウルで進行中の、ECMレコード50周年を祝うエキジビション「RE: ECM」とそのコンテンツの一つであるサウンド・インスタレーション「Small Places」。10月18日12時にスタートし、来年2月29日に終了します。ソウルの会場ストレージ・バイ・ヒュンダイ・カードと同時進行でネットでも同じ音の体験ができ、ECMのすべてのアルバムをリアルタイム・ストリーミングで聴くことができます。

完璧じゃないでしょうか? 訳としても英語としても。言ってることが誤りなく通じてる。この文章は事務的な文なので、訳しやすいということがあるかもしれない。ただ文の構造はまったく単純というわけでもない。

しかし全文を訳してみると、いくつか間違った訳文もあった。たとえば:

It's almost like that, but it's a bit like Steve Reich. Examining Marx Stockhausen, it appears that there is a trumpet player and composer born in Germany in 1957, who plays music between jazz and chamber music and opera. The latter also has a lot of collaboration with his father.

この赤字の部分は、日本語では「マルクス・シュトックハウゼンを調べてみると、1957年ドイツ生まれのトランペット奏者、作曲家とあって」である。「he is a trumpet player…」の方がいいと思う。多分「とあって」というのを「there is」と訳したのだろう。それと固有名詞、ここでは3人の名前が出てくるが、スティーヴ・ライヒとシュトックハウゼンのつづりはOK、でも息子のマルクス・シュトックハウゼンはまだデータに載っていないようで、マルクスは「Marx」になっていた。実際はMarkus。

さらには「ジャズと室内楽・オペラを行き来する音楽をやっているらしい。あとの方は父親とのコラボレーションが多いとも。」という文章が、「between jazz and chamber music and opera」となっていて、通常2つのものの間につかわれるbetweenが、jazzとchamber musicとoperaと三つの間になっている。これは「室内楽・オペラ」の間にある中黒(・)をandと訳したためだ。それで最後の文章の「The latter」(あとの方、ここでは室内楽・オペラを指す)が何を指しているのかが曖昧に、あるいは最後のオペラのみを指しているように読めてしまう。

中黒は名前のところ(スティーヴ・ライヒやマルクス・シュトックハウゼン)では、「and」ではなく、名と姓の間をつなぐものとして理解されている。

Google Translateでこの訳文をタップすると、「Improve this translation」の文字が出てくるので、上に書いた箇所を修正してサブミットすると、文全体がオレンジ色に変わり、下のコーナーに「Thank you for your contributing. あなたの寄与はたくさんの利用者の役に立ちます」と出てくる。そうか今も使用者の協力を促しているのだなあ、と。

他にもいくつか、原文の読み間違えによる誤訳があったと思う。それは日本語の特徴から、あるいは英語との違いから出てくるもので、たとえば日本語では主語がなくてもわかる場合、書かない方がすっきりする。しかし英訳では、それが誰なのか類推できないらしく、たいがい「he」で代用される。あるいは「you」のこともあるかもしれない。あと二重否定のような文章も、たしか苦手だったような記憶がある。いまちょうどいい例を思いつかないのだけれど。

では英語から日本語への翻訳はどうか。Hitomi YOSHIO氏による「Japanese Literature in English Translation」(WASEDA RILAS JOURNAL NO. 6)より、例文をGoogleの翻訳にかけてみた。

Google 日本語訳: 
2.日本文学の翻訳:1950年代から1990年代次に、日本文学の翻訳の歴史を振り返りたい。 エドワード・ファウラーは、「言葉の表現、文化の横断:現代日本フィクションの翻訳の芸術と政治」(1991年)の記事で、1950年代に日本文学、特に現代フィクションが積極的に英語に翻訳され始めたと書いています。 

英語原文:
2. Translation of Japanese Literature: 1950s to 1990s 
Next, I want to look back at the history of translation of Japanese literature. In the article “Rendering Words, Traversing Cultures: On the Art and Politics of Translating Modern Japanese Fiction” (1991), Edward Fowler writes that Japanese literature, particularly modern fiction, began to be actively translated into English in the 1950s. 

訳として大きな問題はないと思われる。エドワード・ファウラーのカタカナ化は、日本で標準的に使われているもののようだ。原文ではあとに回っている「Edward Fowler writes that」が文頭に来ているのも、日本語としてわかりやすい。

「現代日本フィクション」というのは何を指しているのか、と言えば「現代日本文学」と言われているものと同等だと思う。日本ではノンフィクションというジャンルは、もっとあとから一般的になったことから、フィクションかノンフィクションかという分類は、言葉として厳密に分類する必要がなかった、あるいは文学と言えばそれで済んでいたのかもしれない。

また「翻訳の芸術と政治」は「翻訳の芸術性と政治学」くらいの方が、日本語としては通りがいいかもしれない。その先を訳してみる。

Google 日本語訳: 
小佐良次郎の帰郷(紀要、1949年;ブリュースター・ホルヴィッツtr。1955年)および谷崎潤一郎の幾らかのイラクサの出版(タデ・クムシ、1929年;エドワード・G・サイデンステッカー; tr.1955)の出版から始まる 1955年に、グローブプレスやニューディレクションズなどの他の主要出版社も日本の小説を発表し始め、翻訳のアンソロジー。 以下は、ファウラーの記事で紹介されたこの期間の翻訳のリストです。⑶
 英語原文: 
Beginning with the publication of Osaragi Jirō’s Homecoming (Kikyō, 1949; tr. Brewster Horwitz; tr.1955) and Tanizaki Jun’ichirō’s Some Prefer Nettles (Tade kū mushi, 1929; tr. Edward G. Seidensticker; tr.1955) by Knopf in 1955, other major publishers such as Grove Press and New Directions also began to release Japanese novels and anthologies in translation. Here is a list of translations from this period introduced in Fowler’s article: 

「小佐良次郎」は大佛次郎だろう。「帰郷」はいいが、次の(Kikyō)が「紀要」になってしまっている。カッコ内の説明との関係を理解していない。原文では本のタイトル「Homecoming」が斜体になっているので「帰郷」とするべきだが、ウェブの自動翻訳ではなく、Google Translateに自分で英文を入れる場合は、イタリック指定ができない。そういう場合を考えると、原文を“Homecoming”のような表記にしておく方が安全かもしれない。

谷崎潤一郎の名前はOK。データにあるのだろう。「Some Prefer Nettles」は「イラクサ(タデ・クムシ)」となっているが、実際の作品名は「蓼喰ふ虫」。これについては英語のnettlesのみ訳している。「イラクサが好きな虫(人)もいる」としてもよかったかも。あるいは「人それぞれ」とか。AIは意味がよく取れなかったので「Some Prefer」の部分を省いたのだろう。イラクサと蓼が同じ植物なのかはよくわからない。nettleはイラクサのようだが。イラクサも蓼と同じように辛いのだろうか。Wikipediaによると棘の基部に刺激性の液が入っているとか。おそらくそのような性質から蓼に当たるものとして、nettleとしたのではないか。そんなものでも好きな人はいる、という。

エドワード・G・サイデンステッカーの表記はOK。「ホルヴィッツ」は「ホロウィッツ」の方が一般的かもしれない。tr. はこのままでいいかどうか。「1955年、エドワード・G・サイデンステッカー翻訳」とした方がわかりやすい。

このあとがかなり怪しい訳になっている。文の構成が理解できていないのだろうか。最後が「翻訳のアンソロジー。」で終わっていて、意味をなしていない。ここはたとえば:

1955年のクノップによる大佛次郎の「帰郷」(...)や谷崎潤一郎の「蓼喰ふ虫」(...)に始まり、グローヴ・プレスやニュー・ディレクションズといった主要出版社も、日本の小説やアンソロジーを訳して出版し始めた。

となるだろうか。「began to release」が述語に当たるのだが、頭に長い「Beginning with」ではじまる修飾語があるため、主語と述語を見失っているようだ。AIも英語の苦手な日本の学生のように、長い文の読み取りに苦労している。主語は「other major publishers」。よって日本語では、主語「他の主要出版社」、述語「出版し始めた」となる。英語の構文としてはそれほど複雑ではないが、日本語に移すとき、混乱が起きている。(...)による説明がたくさん挟まっていることも原因かもしれない。
次回につづく