« ワードから秀丸を動かす2 | Main | 転記か削除か »

2014.05.12

正規表現を使った翻訳のマクロ

正規表現を使ったマクロで仕事が楽になる。寄与しているのは構造解析辞書による区切り精度向上、原文から訳文への転記用正規表現の充実、用語辞書への登録単語数増加である。

これを実現できたのはマクロ処理のプラットフォームをワードから秀丸に変えたことが大きい。ワードでも同じことを試していたが、大量のデータを処理するため、動作が遅く実用にはならなかった。ワードは何でも出来る強力な文書作成ソフトであるが、それ故に重い。

偶々暫く前にハードディスクがクラッシュしたのを機に、ワードでの作業をやめ、代わりに秀丸で作業をすることにした。ワードで使っていたマクロと同じものを秀丸で再現したところ、動きが軽く十分に使える。秀丸はテキストエディターなので書式情報を含まず動作が敏捷になる。勿論調整を幾つもしながらのことであるが。例えばワードのように書式情報を使った正規表現は使えなくなるので、別の工夫をする必要が出てくる。正規表現の書き方も違うが、それは方言のようなもの。

とはいえ、秀丸単独でこのような作業環境が実現したのではない。色々な効率化を積み上げたからである。以下にそれを記録しておく。

構造解析は、当初は意味で区切り内容を把握しやすくするためと考え、ピリオドがあれば改行をする、或いはカンマ+which があればそこで区切る、というような簡単なものであった。適当なところで区切れるので、内容の詰まった新聞雑誌の記事を読むのにも役に立った。

しかし区切りの規則が次第に集積していくと、論説や随筆を読むには区切りが細かすぎるようになってきた。ところが翻訳作業で訳文を生成するにはそれが重要である。そこで大まかに切れば済む読書用の解析辞書の整備は一段落とし、仕事用の解析辞書の精緻化に専念した。

区切りを細かくするのは、日本語と外国語の語順の入れ替えの問題に関わる。原文と訳文での語順の違いは、例えば「不動産の所有者」が「owner of the property」となるように、小さな文節単位でも生ずるし、もっと大きな文章の中での動詞の位置のような違いもある。それらの場合分けを細かくすることが、正確な入れ替えを容易にするのである。では細分化してどのように語順を入れ替えるのか。

そこで縦積み方式が出てくる。縦積み方式とは、原文を構造解析により意味で区切って縦に長く積み上げ、帯のような形にするやり方である。訳文も同じようにする。原文の右隣に、まずは訳文の核となる翻訳された単語や表現を、原文と同じ位置に縦積みで並べる。そこから翻訳が始まる。

(ここで横道となるが、転記についても触れておく。

最初は左を見ながら右に手で入力していた。そのうちに色々な自動化が始まる。そもそもの効率向上の試みはこの転記の自動化であった。例えば数字は左のものをコピーして右に貼り付ける。それを機械にやらせる。人間が転記すると間違いが生じやすい。さらに転記せねばならないと思えば心理的な抵抗もある。それがなくなると画面に向かうのが楽になる。

原文どおりに転記すべきテキストは、数字に限らず年月日、固有名詞、術語、略語などかなりある。それを識別して自動的に右側の帯で、原文と対応する位置に貼り付けるにはどのようにしたら良いのか。更に転記の際に多少の加工をするにはどうするのか。例えば年月日では、数字はそのままに語順を入れ替えたり文字を付加したり削除したりする必要がある。そのための正規表現を考える。このような小道具的なマクロは、探せばあちこちにある。なければ自分で作る。)

秀丸は動作が軽いとわかったので、区切りの場合分けを増やし構造解析辞書のサイズを大きくすることが可能になった。対訳の用語集も気兼ねなく増やすことができる。用語集にも正規表現を組み込んで、訳を付けながら単位を付加したり、順番を入れ替えたりという操作を行う。

ここまでした段階では、縦積みの帯に書かれている訳文の語順は、原文の語順のままである。それを小さなマクロを使いながら入れ替える。基本的に語順の入れ替えは行の入れ替えになる。縦積みにしてかつ、精密な区切りをしておくのは、そのためなのである。

順番が正しくなれば、あとは不要な改行マークを除去し、文字間の空白や括弧の統一その他の表記統一をするだけとなる。それ専用のマクロを動かせば、整理された訳文が得られる。

以上、どなたかの参考になれば幸いである。個別の正規表現についてはこのサイトの該当各所をご覧いただきたい。

|

« ワードから秀丸を動かす2 | Main | 転記か削除か »

Comments

Post a comment



(Not displayed with comment.)


Comments are moderated, and will not appear on this weblog until the author has approved them.



TrackBack

TrackBack URL for this entry:
http://app.cocolog-nifty.com/t/trackback/20048/59630810

Listed below are links to weblogs that reference 正規表現を使った翻訳のマクロ:

« ワードから秀丸を動かす2 | Main | 転記か削除か »