« October 2016 | Main | February 2017 »

January 2017

2017.01.29

並列の意識 政策文書を例に

何かを言おうとしたとき、同列のものがあれこれ思い浮かぶことがある。それを表現するときには並列を明らかにする工夫がいる。工夫は漢文の四六駢儷体や対句、日本の和歌や長歌、日常の慣用句や歌謡など、さまざまなところに見られる。その事情はどの言語でも同じである。

では並列の工夫とはどのようなものか。文章の中で並列になっている状況を観察すれば、並べられているものは文節であることも、動詞であることも、形容詞や副詞であることもあるが、そこで大切なのは同じ品詞、同じ文法構造に揃えることであるというのが見えてくる。そのうえで欲を言えば似た音韻、内容的にも同類か近類にすれば趣も出てくる。

詩歌などは別にして、日常的な散文や実用的な文章では並列を明らかにすれば、読者が理解しやすくなる。例えば上の「並列は文節であることも、動詞であることも、形容詞や副詞であることもある。」という文では、「あることも」を繰り返して、同列の要素をわかりやすくしている(しかし同じ表現を機械的に繰り返すのではあまり芸がなく、適度な変奏があった方が楽しいが)。

上に述べたことは書くときの注意であるが、読むときにも同じような意識を持てば誤読が少なくなる。動詞の並列や形容詞の並列に着目してみる。そのうえで意識を視覚化すればさらに理解が楽になる。

実はこれが翻訳のうえで役に立つ。並列を意識することが、正確な原文理解とその先の縦横変換で力を発揮するのである。例えば政策文書。抽象度の高い言葉遣いで、ともすると理解が上滑りになる。促進、奨励、誘導、振興、持続的、重点的、連携的、ガバナンスなどお役所言葉満載となる。

そのときには、書かれている文章の中に、並べられている概念がないかを探してみる(ときには品詞変換が必要になるが)。見つかったらその並列項目を箇条書きにする。お役所文書をそのまま使うわけにはいかないので、上の例の文章を使ってやり方を示せば、次のように区切るのである。

  並列は
  文節であることも、
  動詞であることも、
  形容詞や副詞であることも
  ある。

ここまですると、正確な理解ができるだけではなく、縦横変換(翻訳)もやりやすくなる。

幸いにして今の文書はすべてテキストが電子化されている。そこで並列概念に着目して文書を区切って縦積みにする。区切るのは手でするのではなく、機械にやってもらう。区切る部分を正規表現を使って指定し(上の例なら「ことも」という文字列に着目)、それを構造解析辞書に組み込む。そのうえでマクロを実行すれば文章が区切られる。こうすれば並列概念が簡単にわかるようになる。

原文が日本語でも外国語でも考え方は同じ。これで作業の効率が格段に良くなる。

| | Comments (0) | TrackBack (0)

2017.01.20

動詞活用の正規表現

動詞をその活用形まで含めて検索するにはどうするか。一番簡単なのは、それぞれを順番に検索することである。まずはそれが出発点。しかしもう少し頭を使ったやり方はないものか。そこで正規表現を使うことになる。

ではどのような正規表現を書けば良いのか。例えばlisten、listens、listened、listeningをすべて検索することを考える。

これを観察すると、原形、原形+s、原形+ed、原形+ingというパターンになっている。しかしこれらは並列の関係ではない。まずは言葉で表現してみると、これは「原形だけ、または原形+s もしく原形+edもしく原形+ing」という形である。それを論理式で書けば
  (原形だけ) or ((原形+s) or (原形+ed) or (原形+ing))
となっていて、入れ子構造であることがわかる。ここまで分解すれば正規表現を書きやすくなる。

活用を含めlistenをすべてを検索する正規表現は秀丸なら
   listen(s|ed|ing)?
となる。listenを検索するが、そのあとにs、ed、ingのいずれかが付いても付かなくてもいい、という意味である。

次にcombineという動詞はどうか。combine、combines、combined、combiningであるが、前のeatとは活用パターンが違う。活用するときは末尾のeを外してから活用形を付ける。

原形を出発点にするとeの処理のため正規表現が複雑になり、2段階処理をせざるを得なくなる。そこでcombinまでを仮の原形と考えて正規表現を作る。

論理式を書けば
  (仮の原形) and ((e) or (es) or (ed) or (ing))
であり、正規表現は
  combin(e|es|ed|ing)
となる。これは上記の例と違い正規表現の末尾に?が付かないことに注意。仮の原形のあとには括弧の中のいずれかの要素が必ず続かねばならないからである。

さて、このような考え方を何に使うのか。活用する動詞の一括検索の主たる用途は、英文の構造解析である。動詞の前後で区切り、その動作を明らかにすると共にあとに続く目的語との区別をするときに役立つ。

上記2つのパターンを構造解析辞書に組み込むだけで、かなりの比率で動詞を検索できる。残りは手作業でやっても十分である。構造解析についてはこちら(原文の構造解析1)。

今はさまざまな形態素解析エンジンがあるが、それを使うよりもまず自分に必要な部品だけ作ってみて、それを少しずつ改善していく方が、仕事がやりやすくなるように思える。

| | Comments (0) | TrackBack (0)

« October 2016 | Main | February 2017 »