grep-sort-uniqでGo!

最終更新:
2008-xx-xx
初出:
2007-05-26

フリーソフトで自動校正

 その昔、作家どころか日常的に文章を書く習慣すらなく、ましては編集者でもない文章の素人、あくつ が所謂二次創作を公開している作者様のサイトにアクセスしたときのこと。

 ときのゲストからの質問がなんだったのかは思い出せませんが、作者様が『キャラクターの名称等の固有名詞が統一されてどうかのチェックに一番気を使う』と答えていたことが引っかかりました。

 その作者様自身は具体的にどうやってチェックしていたのか明かされませんでしたが、読んでいた私はそのとき「えっ? そういうのって検索すりゃ一発じゃん? なのになんで? あ、そうか! 正解はひとつだけど、間違うパターンは無数にあるから、単なる検索じゃチェックできないんだ!」とひとりで急上昇と急降下を演じたものですが、でも何かやり様があるのではないか? と、それ以降もずっとどこかで気になっていました。

 そして時は流れて、“正規表現”というものを知ったある日思いつきました。

――正規表現を用いれば、タイプミスによる表記の不統一や用語の間違いを簡単にチェックして校正できるのではないだろうか?――と。

 Unixの世界では、こういう場合grep→sort→uniqとフィルタ処理を重ねることで割と簡単にできるようですが、どうもWindowsでは『Perlをコマンドラインから云々』以外の方法はあまり一般的ではないらしく、検索してもヒットしなかったのでフリーソフトを複数組み合わせて試してみたところ、そこそこのことはできるようになったので、公開します。

 今回考案した手順は以下の通りです。

#まぁ誰でも考えつくことですが。

  1. 対象となるテキストファイルを用意する
  2. 文字列検索ツールで任意の文字列を抽出する
  3. 抽出したものをエディタで順番に並べ変える
  4. 重複した行をエディタで削除する
  5. 残った中に似て非なる表記がないか確認する

 最後のだけはどうしても肉眼に頼りますか、それでも手間や負担はずっと少なくなるはずです。

フリーソフトとその使い方

 説明文が結果的にどれもほぼ同じ文面になっていることをお断りしておきます。

謝辞

 素晴らしい作品を無償で公開して下さった各フリーソフトの作者様と、米田淳一大先生にこのメソッドを捧げます。


Presented by あくつ / e-mail:gfd04163@nifty.com / Copyright(c)1999-2015 acts labo〈アーカイブ〉 (無断転載を禁じます)
inserted by FC2 system