少し間が開いてしまったが、このシリーズ最終回を書こうと思う。
テーマはその2で予告したとおり、電子化の方法論としてPDFでのメタデータ埋め込みや自動組版での情報の埋め込みの可能性について。
電子化の方法論としてのPDFでのメタデータ埋め込みについては、今現在大規模に電子化を進めている各団体で、既に色々試みられているだろう。それはPDFに限らず、TIFFやJPEGなどでも行われていると思われる。
その方法については、The Web KANZAKI内の「写真/画像とメタデータ:ExifからRDFへ」や、アンテナハウスサイト内の「XMP™ (Extensible Metadata Platform)仕様についてのメモ」を見ると勉強になる。
The Web KANZAKIでは、PDFに限らず画像データに何らかのメタデータを埋め込む方法と、その応用例が書かれている。
その中で特に目を引いたのが、「RSSを使った、さまざまなメタデータの連動」という部分だ。複数の人物が映った写真にマウスを乗せると名前が表示される例や、RSSなどとの連動により検索可能な画像になるという実に魅力的な内容だ。
アンテナハウスの方では、さまざまな画像ファイルに埋め込むことができるXMPというメタデータの仕様について、特にPDFへの埋め込みについて書かれている。ここだけでは少しとっつきづらいが、同じアンテナハウスサイトのPDF 千夜一夜というブログの中で、「PDFのメタデータ(1)~(4)」という一連の記事を読むとわかりやすい。
それによると、XMPのツールキットについては誰でもソースコートを改良してアプリケーションに組み込んで再頒布できるらしい。ということは、どこかで学術雑誌用のツールを開発して公開していても不思議ではないのだが、果たしてどうだろうか。
学術雑誌は、和文抄録、英文抄録、和文キーワード、欧文キーワード、和文著者名、欧文著者名、参考文献、それと本文などの情報で出来ている。その他、各学術分野によっていろいろ付加されるが、これらの部分は(たまに英文抄録がないとか、参考文献がないとか、そういうことはあるが)大体において共通している。つまり、とても構造化しやすい分野なのだ。
さて、既に紙になっている雑誌の電子化についてはこれらの方法がとられるわけだが、これから作られる雑誌については何もスキャンしなくたって、データを作る段階から考える方が自然だろう。
自動組版の際に上記の各項目に当てはめたスタイルとXMLタグをリンクさせれば事は簡単だ。InDesignのように標準でXMLデータとスタイルをリンクさせる機能がある組版ソフトを使えば、原稿データを予めXMLでタグ付けして読み込み、修正後書き出せばそのままメタデータになる。本文画像はPDFへ書き出せばよい。
ただ、学術雑誌の場合、問題もある。本文が少なく図版や数式の方が多いことがしばしばなのだ。これらの配置にはどうしても人手による試行錯誤が必要だ。
その点については、従来から多く使われているのはTeXで著者自ら入力する方法がとられていた。が、DTP化の流れの中で、新世代の著者や印刷業者の方でとっつきにくくなり、今ではWordを使用する方法が増えてきたのではないだろうか。中にはXHTMLで図版から数式まですべてのデータをレイアウトして作ってもらう試みをしている会社もある。
一方では図版の多い学術雑誌でなく、抄録誌に焦点を当ててほぼ完全自動化をウリにしている会社もある。これは戦略上なかなかうまいなぁと思う(^^)
さて私はというと、Word派だ。文字データについてはWordのスタイル情報をInDesignに読み込み、InDesign上でスタイルを編集する。Wordに貼り込まれた画像や数式についてはそれを可能な限り綺麗に変換する方法をとる。当然図や数式が多いとかなり手間がかかるわけだが、それは仕方ない。でも、抄録や参考文献など、構造に目をつけてスタイル付けされていれば、本文については結構楽になる。
私が主に使っているDTPソフトは、上記のInDesignとEDICOLORだが、EDICOLORについては8までバージョンアップしてきたが、InDesignについては2.02で止まっていた。InDesignのXML機能は今までも試験問題解説集のように同じ内容を毎年順繰りに体裁を変えていくようなものに使ってきたが、その後随分力を入れて使いやすくなっているらしい。効率化の面での投資は惜しんではいけないな(もちろん無理のない範囲で)と思い、この際大変遅ればせながらバージョンアップすることにした。
一方、EDICOLORのXML機能でいいところは、タグテキストがXMLで作れるというところだ。最初に雛形を画面上で組み、それをXML形式でタグ書き出しし、流し込むべきXMLデータをXSLTなどを使ってタグテキストにすることで、文字体裁から何から全部指定されたタグテキストを一気に読み込むことができる。この機能を使ってページ数の大変多い名簿などを作ってきた。
が、問題もある。第一は重さの問題。それとタグテキストの難解さだ。
XSLTを作ってでもという仕事は、定期的に来ることが決まっているものに限られる。その労力が馬鹿にならないからだ。ページごとに数パターンのレイアウトが切り替わるようなものではその労力はさらに膨らむ。
が、これについては、手前味噌だが「HTML差込ツール EXCEL2HTML Pro」を活用することで解決できることに気づいた。
つまり、数種類のデザインパターンの雛形を作り、可変項目のタグを入れておく。そしてそれをタグ書き出しし、ツールのテンプレートにすればいいのだ。
ツールによって、データは各頁ごとに一気に書き出されるが、それを必要な分だけ必要な順番にXSLTなどを使って一気につなげれば大幅に楽ができる。このつなげるためのXSLTは簡単だ。
と、ここまで威勢の良さそうなことを書いてきたが、これがなかなか仕事と結びつかないのよねぇ(^^; なんだか私の得意分野は需要が難しくて(^^; しかも「帯に短したすきに長し」という部分もおおいにあり(^^; だものだから、昨年から今年はぐらんぐらん揺れてしまった。
でも、つい最近ドンピシャな仕事が入った。ラブレターズやユーミンカタログ、皆様のお部屋などで普段からXMLやXSLT、ASP.netを触っていたのが幸いしたのだけど、これでこの方向でやっていく自信が少しついた。これからはこの方向を伸ばしていくべく、このワークショップで出てきたjunii2の仕様書を読んだり、NIIメタデータ・データベース入力マニュアル2.0版など、積極的に目を通していこうと思っている。