« 海外の翻訳会社との取引1続 | Main | 検索置換の不具合を見付ける 1 »

2018.04.15

用語辞書の切替適用と順次適用

翻訳に使う用語を自分のシステムの辞書に取り込んでおけば、訳語を逐一手で入力する必要がなくなる。そこで用語辞書を作り必要な言葉を入れておくことになる。

ところが言葉はさまざまに訳される。一般に使われている言葉がある分野の専門用語になる場合があるし、同じ言葉が分野により異なる訳語になる場合もある。つまり原語と訳語とは1対1で対応するのではなく、その対応は1対多となっているのである。そこで複数ある訳語の中から適切なものを選ぶ(訳し分け)ことが必要になってくる。

それをどのように実現するのか。それが今回のテーマの「用語辞書の切替適用と順次適用」である。

(1)辞書が小さいときには、そこに搭載されている訳語を個別に修正するというやり方で対応できる。一つの文書の中では同じ用語に複数の訳語を充てることは少ないからである。たださまざまな分野の仕事のために訳語を毎回書き換えるのは大変である。

(2)そこで訳し分けのために分野別の複数の辞書を用意して仕事に応じて切り替えるという発想が出てくる。これにより辞書内部の訳語の書き換えは大幅に減る。ある文書を翻訳するとき、最初にその内容に応じた辞書を実行するように指定しておけば、あとはその訳語に手を付ける必要はなくなる(その分野で新たな訳語を追加することは必要であるが)。

(3)けれどもよく考えてみると分野を問わず同一に訳す言葉がある。また地名、国名、固有名詞などもほぼ決まった訳がある。「太平洋」はどの分野でも「太平洋」の表記である。そこでこのような一般語の辞書を別に用意する必要が出てくる。さらに数字や金額などは、原文のままにするか、または一定のルールで表記を改めるという操作が必要になるので、それ専用の辞書を用意する。

(4)これらの用語辞書には、併用してはならず個別に切り替えねばならないものと、その必要のないものがある。このような辞書の性質の違いをはっきりさせておけば、各種の辞書を順番に適用していくことができる。幸いなことに機械の処理能力が向上していることから、複数の辞書を直列的に順次適用してもそれほどもたつかなくなってきている。

ただこのときには適用する辞書の優先順位を考えねばならない。

優先順位については、まず、(1)入れ子となっている文字列の問題がある。辞書を適用するとは、ある文字列を検索し別の文字列に置換することであるが、長い文字列の一部分が置換されると検索で認識されないという事態が生ずる。

例えば「smiles:笑み」と「mile:マイル」という2つの単語が辞書に載っているとする。ここでmileの検索置換を先にすると、「smiles」は「sマイルs」になってしまい、あとでsmilesの検索置換をしようとしてもヒットしなくなる。そこでまず長い文字列の検索置換を先に実行するか、正規表現で部分置換を防ぐようにする。実際には正規表現を使っている。

(2)同じ考え方は、ある単語を含む熟語とその単語の単体とでも生ずる。

辞書には単語だけではなく、熟語や特有の表現も組み込んである。例えば法律文書や契約書などでは定形表現が頻出する。それをフレーズとして専門用語の辞書のうちの法律用語辞書に登録しておくのである。これにより同じ表現を何度も手で入力する必要がなくなる。

しかし熟語や定形表現の中に使われている単語が、それ自体として辞書に入っていることがある。例えば特許に特有な「tax base:年金起算日」という熟語と「tax:税金」とが辞書に登録されていたとする。ここで先にtaxという単語の検索置換をしてしまうと、「tax base」は「税金 base」となってしまい、「tax base」を検索しても存在しないので、年金起算日という訳語を割り当てることができなくなってしまう。そこで最初に熟語の検索置換を優先してから、単語単体の検索置換をすることになる。

(3)辞書についてもこれと同じような考え方ができる。ある辞書を使って検索置換をしたために、本来なら別の辞書で検索したい用語がヒットしないという事態が起きる可能性があるのである。そこで辞書の適用に優先順位を付ける必要が生じてくる。

では何を優先するのか。原則は、確度の高い訳語を優先させること、そして部分置換を避けることである。

前者については、ある分野の文書に使われている用語が専門用語であると同時に日常用語でもあるときには、その用語は専門用語である可能性が高いと仮定してみることで実現できる。それでその言葉をまずは専門用語として訳しておくのである。そのうえでその訳が正しいかはあとで文脈から検討する。

後者については、長い文字列を優先適用すれば実現できるので、熟語の処理を単語の処理の前に実行する。

このように考えると、各種辞書の優先順位は次のとおりとなる。

前処理
専門用語(優先処理+一般処理+劣後処理)
一般熟語(優先処理+一般処理+劣後処理)
一般単語(優先処理+一般処理+劣後処理)
後処理

前処理では、括弧や引用符その他の役物の処理、原語のままの固定、年月日の変換、数字単体や通貨単位付き数字の変換、固有名詞の定訳処理などを行っている。後処理では、不要な文字や記号の削除をしている。専門用語の辞書は手で切り替える。

実際に用語辞書を動かしてみると優先適用上の不都合が出てくる。それは同じ辞書の中で優先処理に回したり劣後処理にするという工夫が必要になる。さらに前処理の辞書に移し替えることもある。手直しは常にしていかねばならない。

なおこれと併せて大切なのは、構造解析の段階で用語集にあるフレーズがうまく切り出されるようにしておくことである。ひとまとまりの熟語が用語集にあるのなら、前段階の構造解析でも同じひとまとまりで区切られ途中で分断されないようにしておく。こうすることで構造解析辞書と用語集とが連動して、検索でヒットする割合が高くなる。

これで手入力がかなり少なくなり、文章推敲に専念できる。

|

« 海外の翻訳会社との取引1続 | Main | 検索置換の不具合を見付ける 1 »

Comments

Post a comment



(Not displayed with comment.)


Comments are moderated, and will not appear on this weblog until the author has approved them.



TrackBack

TrackBack URL for this entry:
http://app.cocolog-nifty.com/t/trackback/20048/66612070

Listed below are links to weblogs that reference 用語辞書の切替適用と順次適用:

« 海外の翻訳会社との取引1続 | Main | 検索置換の不具合を見付ける 1 »