電子索引に物申す

(「ぶっくれっと巻頭エッセイ」NO.139号 1999 NOVEMBER)

林 望

 当今は、なにごともコンピュータのアシストを得て、すこぶるに便利な世の中になった。なにせ、私どもが学生だった時分には、まだコンピュータは、理科系の学生がコボルだのフォートランだのいって、人工衛星の軌道計算などをするのに用いる道具で、われわれ文科系の人間にはまったく無縁の存在だったが、それがいつのまにか、世の必需品になったのは、かえすがえすもめでたい。たとえば、昔は、なにかの解釈のために、当該の言葉の用例を検索するという過程において、冊子になった索引があれば御の字で、たいていの作品には、そんなものも出来ていなかったから、私たちはただひたすら額に汗して、あれこれの作品を「片端から読んで」用例を書き抜いたりしたものだった。それが、いつしか、多くの作品のテキストデータがデジタル化されるにいたり、そのおかげで、コンピュータによる用例検索が一瞬にしてできるようになった(ように見える)。

 あるとき、私は、「滝」ということについて話をしてくれという依頼を受けた。そこで、折りしもわが書架に入庫したばかりの『二十一代集総索引』という便利な(はずの)デジタルデータを使って、いそいそと「たき」という用例の検索をしてみたのだった。

 さて、検索ソフトを起動して、「たき」という検索文字列に一致する用例を抽出してみたら、驚いたことに二千例ほども出てきた。まさか、滝の歌がそんなにあるはずはないと思って、良く見ると、「めでたき」だの「ありがたき」だの「たたき」だのという用例が夥しくならんでいて、私は、それらの膨大なデータのなかから、手作業で「滝」に該当する用例だけを抜き出さなければならなかった。やれやれ。

 要するに、この「総索引」なるものは、ただ、無批判に『二十一代集』の和歌を、平仮名で書き並べただけのもので、その検索のアルゴリズムは、単に「一致文字列を返す」というコマンドを働かせるだけという、安易極まるやりかたがしてあったのである。こういうものを何十万というような金額で売り付けるというあこぎな商売に、私は心底あきれ返った。あまりにあきれ返って、私は、このソフトを以後二度と使用しなかった。

 思うに、欧米諸語のテキストデータの場合、文章はすべて「単語」に区切られてい、検索はその単語ごとの一致を照合する方法で行われる。しかも、単語には、スペルという固有の文字列があって、各語彙をアイデンティファイすることは極めて容易である。しかし、日本語は、単語で区切られて記述されることがなく、また、同音異義語が夥しいから、平仮名だけでは語彙を同定することが容易でない。その結果、「滝」のはずが「めでたき」まで検出してしまうというまことにおめでたいことが出来するのである。しかも、同じ単語でも人により本により、宛てる漢字が違ったりするから、ことはすこぶる面倒だ。

 だから、もし、まじめに役に立つ索引を作ろうとするなら、すべてのデータを単語に区切り、なおかつ、その単語に対して適切な漢字等を宛て、なおかつ、各単語の属性(文法的性質)や意味の重複(掛けことばなどを考慮して)などをインデクスとして付けておく、というくらいの周到な用意が必要だということである。そういう作業をきちんとしたうえで、CD-ROMなりの形でリリースするのでなければ、じっさい、「索引」の名には値しない。アルバイトの学生などを安易に使役して、ただもう闇雲に羅列的に仮名入力しただけのような不真面目なものは、酷評すれば、一種の詐欺的商法にほかならないのである。

(はやし・のぞむ 作家)

「ぶっくれっと」一覧  巻頭エッセイ一覧  三省堂HPトップ・ページ 



Copyright (C) 2006 by SANSEIDO Co., Ltd. Tokyo Japan