« 重複処理の防止 | Main | 行の入れ替え »

2014.03.12

原文の構造解析4

今は古典や著作権の切れた名著のテキストが簡単に手に入る。現役で活躍している人たちも自分の論説を公開しているし、各種機関や新聞・出版メディアでも相当のものが得られる。例えばガーディアンへの寄稿者たちの書くものなどもたちどころに入手できる。

しかしこれらのテキストは優れた内容を行間を詰めみっしりと書いたもので、気合を入れて読んでいかないと頭に入らない。そこでテキストを読むときに、意味のまとまりで適当に改行を入れ、内容を理解しやすくする工夫が必要になる。

その際に内容理解の手助けになる前作業を機械にやらせれば、人間はもっと読むことに集中できる。その前作業をするのが以下の構造解析辞書である。ここに公開するのは秀丸マクロで作ってあるが、ワードでも同じことができる。処理速度はテキストだけを扱う秀丸の方が、書式を含むワードのマクロよりかなり速い。

ファイル単体でも秀丸マクロとして使えるが、他のマクロにこのルーチンを組み込み、ショートカットのキー登録をしておくのが便利。例えば文章をコピーして秀丸に貼り付けるときなど、コピー貼付が終わるとすでに適度に改行されていて、すぐに読んだり次の作業を進めることができる。

中身は正規表現を交えた検索置換であるが、各行に書かれている「考え方」を読んで理解すれば、自分なりの改造の余地がいくらでもある。要はどのようなところで意味が区切れるかを考えることであるが、それと同時にその区切りが他の処理と干渉しないようにする(重複処理の防止)ことも大切である。

ある言葉の前後で区切れると思っても、その前後関係を見ないと区切れないことがしばしばある。多くの区切りは一つの条件だけでは決まらないのである。区切れる条件をできるだけ詳しく書き出して、それを正規表現にしなければならない。重複処理を避けるとは、場合分けを細かく行い一義的に決まる条件を見つけることである。

とはいえ言語は考える以上に複雑で、予め設定した条件に該当しない場合が必ず出てくる。そこでまた構造解析辞書を改訂することになる。

現在の構造解析辞書はこちらからダウンロードができるので、よろしければお使いください。

|

« 重複処理の防止 | Main | 行の入れ替え »

Comments

Post a comment



(Not displayed with comment.)


Comments are moderated, and will not appear on this weblog until the author has approved them.



TrackBack

TrackBack URL for this entry:
http://app.cocolog-nifty.com/t/trackback/20048/59280151

Listed below are links to weblogs that reference 原文の構造解析4:

« 重複処理の防止 | Main | 行の入れ替え »