翻訳・通訳の自動化の進展
近畿本部 化学部会・繊維部会・農林水産部会・環境研究会 四組織合同講演会
メインテーマ:【万博関連:イノベーションと循環型農業の構築】
講演1 翻訳・通訳の自動化の進展
日 時: 2023年7月15日(土) 13:30~16:30
場 所: おおきに会議室 ZoomによるWeb併用
講 師: 隅田 英一郎 氏 工学博士 国立研究開発法人情報通信研究機構(NICT)フェロー
アジア太平洋機械翻訳協会(AAMT)会長
1.AI 翻訳の到達点
機械翻訳は第二次世界大戦後から始まり80年ほどになる。初めの40年間は文法を使った翻訳をしていたが、行き詰ってしまい、1980年頃から情報通信技術の進歩と共に、翻訳の事例、つまり対訳を沢山作って対応する学習する方法に変えて、急激に進歩し第3世代と言われTOEIC 900 点レベルに達しており、現在はChatGPTも含め第4世代に入っている。
2.通訳の近未来
現在の翻訳レベルの例としてAP通信の英文ニュース記事をAI翻訳すると、非常に滑らかな日本語で誤訳もなく翻訳文ができ、音声認識の技術もAIで高精度になったので、誰でも口述筆記ができるようになった。
又、文字を音声にする技術での機械発声的な声が人間の声に近づいてきたため、真に“時は来たり”で、同時通訳も可能になってきた。
コンピューターによる同時通訳は人間による通訳と違って自由度が大きい。
人間の場合は音声出力だけであるが、コンピューターでは、音声出力・文字出力の両方可能である。
また、コンピューターでは、短く切る、長く続けて喋る事も可能であるので、聞く人に適した長さでの出力も可能になる。更に、短い単位で素早く音声で翻訳し、文単位で纏めて文字で翻訳するなど併用も可能である。
3.AI 翻訳の仕組み
AI翻訳は、対訳データから、深層学習で翻訳用のモデルを構築する。データが多ければ翻訳精度が高くなる。この対訳データを多く集めるほど、その分野の翻訳システムが高精度になるが、どのようにデータを集めるかが重要である。
WEBからは新しい大量のデータ、政府・会社から信用性の高い物の両方が必要である。そのために、“情報通信研究機構”で『翻訳バンク』を創設した。
『翻訳バンク』に集まった専門分野のデータを使ってモデルを構築すると分野専用の高精度モデルが出来る。実際に“汎用”と“金融専用”データによる翻訳精度比較したところ、大きな改善が明らかになった。
【補足説明】ChatGPT
ChatGPTの本質は、大規模な言語モデル(Large Language Model、LLMと略す)で、次に来る確率が最大になる単語予測の繰り返し手段を利用するもので、ChatGPT-3で3000億語のWEBデータから作っている。LLMの限界は、現在取得不可能な情報に基づく処理はできないことである。一方、LLMの有用性は大きく、研究はどんどん進展するだろう。
(文責:釜谷 彰郎 監修: 隅田 英一郎)