2015年7月18日土曜日

OCRにお願い

現代国語の先生が言っていた。

「世界でもっとも経年劣化に強い、文献の保存方法は、和紙に墨書である」

羊皮紙や、パピルス紙よりも、和紙は墨の定着がよく、和紙そのものも、高温多湿な日本でも耐久性が高い。虫に食われさえしなければ、一千年は持つという。

大人になって、博物館でいくつも古文書を目にすると、まさに先生の話が紛れもない事実であったことを痛感した。

平安時代ばかりか、奈良時代の文書などを見ると、感激してしまう。

古文書学の講義を取っていたが、結局は場数を踏むように、という根性論が先に立って、今でも大して読めない。博物館にいくたびに、もうちょっと努力する方法がなかったのか、などと、密かに後悔していた。先年前の文献が残り、学ぶ機会もあったのになぁと。

ところが、である。

凸版印刷が筆で書かれた文献をOCRスキャンして、テキストデータに変換する技術を実現したのだ。すごいぞ、凸版印刷。編集仕事してた時は、うっかりな営業マンに結構泣かされたけど、凄いぞ凸版印刷。

つまり世界でもっとも強い書類で書かれた、古文書をgoogleの手を借りずに、国産の技術でテキストデータに変換できるのだ(http://goo.gl/p04qMv)。

(なぜ、全世界的に、このニュースが取り上げられないのか、不思議である。)

くずし字、と分かりやすく言っているが、何のことはない。

これが文字だったのだ。現代の我々が使っている文字は百年程度。明治以降、グーテンベルク式活版印刷技術が、入ってきてからのものである。江戸時代の瓦版も、筆で筆記されたものを木版にして印刷していたのだ。そもそも活字(文字を組み合わせて、文章を構成する)という概念がなかったのだ。

だから、国会図書館のデジタルコレクションなども、見開きで撮影したものを影印本として公開している。

皮肉にも、大正時代、活版技術をもって、国内の仏教典籍をまとめた大正新脩大藏經は、宗派を超えて文献としての資料価値を確立し、今でも研究の一次資料にされている。
これがデジタルとして公開されたのは、結構早い。SAT大正新脩大藏經テキストデータベース

このおかげで、図書館で文献をなぞらなくても、検索窓に入力して実行キーを押せば、キーワードが一斉に検索されるのだ。これも凄い。(かつては秘密にされていた経典も、あっさり見ることができる。読むのは大変だけど)

表音文字であるアルファベットに比べて、表意文字たる漢字は、画数や用例が煩瑣でデジタルにしにくい。

だから、日本はだめなのだ、というようなそそっかしい、不勉強な意見をきくとうんざりする。

文化の特徴と、経済成長やポップカルチャーとは、直接的な因果関係はない。

むしろ、これまではマニアが一定数いるからと、江戸時代の随筆は活字化されてきたが、今回の開発で、もっと広い資料がデジタル化されていく。

知識のストックがより広く、より深く、より簡易にアクセスできるようになるのだ。

わお。やっと、未来キター。

先日、図書館にいったら、女性によからぬいいたずらをする
犯人への警告文が掲示されてた。そんな犯人は即時鉄拳制裁じゃ。

0 件のコメント:

コメントを投稿