5.（2005年）各種デジタルアーカイブが提供するコンテンツの統合検索を目指して

# 5.（2005年）各種デジタルアーカイブが提供するコンテンツの統合検索を目指して国立国会図書館における国のデジタルアーカイブポータルの取り組み「行政とADP」（2005年） ## 目次 ```table-of-contents title: minLevel: 0 maxLevel: 0 includeLinks: true ``` ## 1. 背景国立国会図書館（NDL）では、2004年2月に「電子図書館中期計画2004」を策定した。この計画はNDLが所蔵している図書のデジタル化、オンライン系情報資源の収集によるデジタルアーカイブの構築、インターネット上にある情報を一つの大きなデジタルアーカイブとして利用できるようにする「国のデジタルアーカイブポータル」の構築と提供を目指すものである。デジタルアーカイブの構築は、NDL蔵書の利用における地域間格差を改善し、利用者の利便性を高めるために当館所蔵の資料の電子化を推進することと、インターネット上の情報資源を広く収集し、消失を防ぐとともに、永続的な利用を確保することを目指す。インターネット上の情報資源の収集では、ウェブ情報を可能な限り発信時と同様な構造をもったウェブアーカイブとしてサイト単位に収集し、時系列的認識が可能な形で蓄積・保存・提供する。また、知的な著作単位で取り扱うべき情報資源を対象として、個別に収集・組織化・保存・提供する。ポータル機能は，利用者の必要とする情報をワンストップで入手できる窓口を構築する。当館のデジタルアーカイブにとどまらず、国等の公的機関を中心とした電子的情報資源や情報提供サービスに利用者を適切に案内するものである。 ## 2. 当館が目指すポータルのサービスは？ NDLが構築するポータルは、NDLが保有している資料をデジタル化したデジタルアーカイブ、ウェブアーカイブ、図書館としてのナレッジ情報や、冊子体の資料の目録と、図書館に限らず他の機関が提供している情報を「いつでも、どこでも、どこにあっても」一つの窓口で、探し出し、閲覧もしくは入手できるようにする。「いつでもどこでも」は、インターネットでのサービスとしてごく当たり前のことだが、NDLの開館時間に関係なく、また、遠路NDLまで足を運ばなくても資料を検索、閲覧できるようにすることであり、「どこにあっても」は、閲覧したい資料を、NDLが提供しているデジタルアーカイブを含めて、どこのデジタルアーカイブに格納されたものであっても所在場所を指定せずに、探し出せるようにするっことである。また、デジタルコンテンツが、ウェブページとして作成された、いわゆる表層ウェブにあっても、データベース化されて検索条件を入力しなければアクセスできない、いわゆる深層ウェブにあっても、１つの検索窓で探して、一覧表示できるようにする。（図１）また、それに加えて、どんな形態であってもデジタル化されたコンテンツであれば、Webブラウザでその場で閲覧できるようにする。有料のデジタルコンテンツの場合は、そのコンテンツの閲覧申し込みページへ、またデジタル化されていないものは、その資料を所蔵している図書館等への遠隔複写申し込み、販売している書店へのオンライン注文ページなどへ案内する。さらに、数年後には、図書館業務として、専門調査業務やレファレンス業務で得られた知識をナレッジデータベースとして構築し、この情報を含めて検索できるようにする。このようなナレッジデータベースに関しても、デジタルアーカイブと同様に統合検索できる環境の提供を目指す。そのために、NDLのデジタルアーカイブ内のコンテンツを含めて、インターネット上で色々な形で提供されているデジタルアーカイブを、１つの巨大なアーカイブとして、検索・閲覧できる基盤を構築して、様々な機関がその共通の基盤の上で、それぞれの対象とする利用者に対して、情報やサービスに付加価値を付けることにより、きめ細かなサービスを提供できる世界を目指す。 ## 3. デジタルアーカイブのコンテンツをポータルから検索できるようにするために現状の大半のデジタルアーカイブは、個別コンテンツの特性に応じて、Webブラウザでの閲覧用システムでのみ提供している。利用者はデジタルアーカイブ毎の閲覧システムで個別に検索して利用しなければならない。また、Webブラウザでアクセスすることが目的のインターフェースであり、他のシステムとの機械的な連携機能ではないため、ポータルのような他のシステムからは容易にアクセスすることはできない。 NDLが目指す方法は、ポータルとのデータプロバイダの間のインターフェースとして共通仕様を策定して、その共通仕様を満たすインターフェースをそれぞれのデジタルアーカイブで実装する方法。共通仕様は、このポータルのための仕様ではなく、他のシステムからも利用できる国際標準、業界標準に従ったものを想定する。デジタルアーカイブ側が連携機能を実装する形になれば、どのデジタルアーカイブでも、機械的なアクセスが容易になり、統合検索の対象が自然に広がる。このような形での実現を目指している。 ### 3.1. ポータル成功の鍵はメタデータの収集ポータルが有用なものになるためには、多くのデジタルアーカイブ内のコンテンツが検索・閲覧できるようになることであり、その鍵は、いかにコンテンツのメタデータを収集できるかにある。過渡期の技術としては、表層ウェブにあるコンテンツはRSS[[5.（2005年）各種デジタルアーカイブが提供するコンテンツの統合検索を目指して]]により収集することを想定する。ごく一般のサイトでも普及している仕組みであり、容易に実現が可能と思われる。RSS等の提供ができない場合は、ページ内容情報を機械的に判断してメタデータを作成するツールや、メタデータを自動生成するウェブサイトの利用を想定する。深層にあるコンテンツは、OAI-PMH[[5.（2005年）各種デジタルアーカイブが提供するコンテンツの統合検索を目指して]]、SRW[[5.（2005年）各種デジタルアーカイブが提供するコンテンツの統合検索を目指して]]（Webサービス化したZ39.50）のようなインターフェースでメタデータを収集することを想定する。デジタルアーカイブ側できちんとメタデータを付与することは大変な労力が掛かるが、ウェブサイト側でコンテンツ管理システム（CMS）[[5.（2005年）各種デジタルアーカイブが提供するコンテンツの統合検索を目指して]]等の利用が進めば、一次情報、二次情報にメタタグが付与され、機械的に意味解析が容易になり、いわゆるセマンティックWeb化が意識せず進むと思われる。そうすると、メタデータの収集が容易になる。 ## 4. 16年度プロトタイプの概要 NDLでは、各機関が保有するデジタルアーカイブ内のコンテンツを統合検索するために必要な技術を実験的に適用したプロトタイプシステムを構築し、その試験的提供を通じて、適用する技術の妥当性及びサービスの有用性を検証している。 ### 4.1. どんなことができるのか複数のデジタルアーカイブ内の対象コンテンツを一つの検索窓から一元的に検索でき、検索結果が一覧で表示され、1次情報の提供画面へ辿り着ける。また、デジタルアーカイブ内のコンテンツまでは一元的に検索できないが、有用なコンテンツを持つウェブサイト及びデータベースへは、その入り口までナビゲーションする。 ### 4.2. 構築方針プロトタイプの構築に当たっては、下記のような方針で実施した。 - 先進的かつ将来標準的な仕様となることが見込まれる技術の適用 - 適用事例が多いオープンソースの活用。可能な限り新規開発はしない。カスタマイズは必要最低限とする。 - 各々の機能は独立したWebサービス機能として、他システムからも容易に利用できるものを目指す。その仕様としては、図書館界のみならず、デジタルアーカイブの世界で標準となり得る仕様を採用 ### 4.3. 適用技術構築方針を踏まえ、以下の技術を採用した。 - フロントエンドとして、XOOPSの利用 - 日本語の分かち書きをするため、Chasenを採用 - データの通常の全検索にはNamazuを採用 - 連想検索にはGETAを採用 - メタデータの収集にはOAI-PMHを採用。横断検索では、SRWを採用。 - システム間連携はWebサービス化 - 書誌データの保存システムには、OAISに準拠したDSpace及びDIASを利用 - 画像のデジタル化フォーマットとして、JPEG2000を適用 ## 5. デジタルアーカイブおよびポータル構築に向けてデジタルアーカイブ及びデジタルアーカイブポータルは、NDLが自ら構築・運用に向けて努力するとともに、関係機関との連携・協力を求めることなしに実現することはできない。 ### 5.1. 公的機関のデジタルアーカイブ構築の推進 - 公共機関の情報を広く一般が簡便に利用できるようにするために、公共的な情報資源のデジタルコンテンツ化と、そのアーカイブを積極的に推進することが望まれる。 - デジタルアーカイブの構築に当たっては、関係機関はデジタルコンテンツの長期保存とアクセスの保障に必要な機能と標準的な仕様の研究開発・技術開発に協力することが望まれる。 - また、制度的な課題解決として、デジタルアーカイブとその利活用の推進に向けて、国有財産に属する電子情報の利用の自由化あるいは利用手続きの明確化及び簡素化を図ると共に、図書館等で所蔵する書籍等のデジタル化及びその提供に関し、著作権者の不明な著作物を利用するための手続の効率化が望まれる。 ### 5.2. デジタルアーカイブポータルの推進関係機関には、デジタルアーカイブ内の情報を安定的かつ効果的に利用できるようにするための以下の技術的課題の解決に協力を得ることを期待する。 - 改廃等により消滅してしまうシステム環境の中で、電子情報格納フォーマットから情報を再現することが可能な長期保存技術 - メタデータの収集技術 - 情報提供者によるメタデータ付与を容易にする技術 - 新しい概念の検索方式や共通検索技術また、デジタルアーカイブを構築する公共機関等には、デジタルコンテンツはデータ連携を可能にする標準的な仕様で提供していただくことが必要となる。 - 標準的なフォーマット、インターフェース仕様の適用 - 標準的なメタデータの付与各種ポータルサイトでは、デジタルアーカイブへの標準的なアクセスのための仕様を実装し、それぞれのポータルがシステム的に連携して、相互補完しあい、全体で相乗効果を発揮できるようになることが望ましいと考える。 ## 6. おわりにデジタルコンテンツの利用を取り巻く環境は大きく変わりつつある。技術の進化により、提供可能なサービスが拡大し、そのサービスを受け入れた利用者からは、より高度なニーズが生まれてきている。デジタルアーカイブポータルは、図書館の枠を越えて、国、公共機関、学界に加えて民間、個人が保有する情報をワンストップで的確に閲覧利用できるようにするものである。インターネット上にある膨大な情報を、「意味ある情報資源」として活用するための研究開発、技術開発を進めるとともに、情報の提供者はその技術を適用した情報提供することにより、巨大な知識ベースが構築できる。デジタル情報を日本の文化遺産として後世に残し、新たな知識を創出するための知識として、現在及び将来にわたって活用できるようにするために、データプロバイダ、サービスプロバイダのそれぞれの機関がお互いにインセンティブをもって実施し発展していけることが重要であり、関係機関・関係各位の御協力を願いたい。 [1] RSSとは、Rich Site SummaryもしくはRDF Site Summaryの略。Webサイトの見出しや要約などのメタデータを構造化して記述するXMLベースのフォーマットで主にサイトの更新情報を公開するのに使われている。 [1] OAI-PMHとは、Open Archives Initiative Protocol for Metadata Harvestingの略。OAI（Open Archives Initiative）が策定した、ウェブ上のメタデータを収集（メタデータ・ハーベスティング）するためのプロトコル [1] SRWとは、Search/Retrieve Web Serviceの略。データの検索およびデータの取得に使用することを想定したWebサービスのインタフェース仕様 [1] CMSとは、コンテンツマネージメントシステム。Webコンテンツの作成、更新及び管理を行うシステムで、トップページも最新情報を含めて動的なページとして容易に配信することができる。 [1] XOOPSとは、コンテンツマネジメントシステムの１つで、オープンソースライセンスに基づいたソフト。コミュニティサイトを容易に構築できる。 [1] GETA(Generic Engine for Transposable Association)とは、連想検索のエンジンで、入力した文章から「連想」されるような、文章と関連性の高いと思われるコンテンツを検索するもの [1] OAIS（Open Archival Information System）とは、情報を長期保存するために必要とされる機能要素と、そこで扱う情報の構成の規定がなされた技術標準 [1] DSpaceとは、マサチューセッツ工科大学図書館とヒューレット・パッカード研究所が共同開発した,OAIS参照モデルに準拠したデジタル情報保存システム [1] DIAS(Digital Information Archiving System)とは、オランダ国立図書館とオランダIBMが共同開発した、OAIS参照モデルに準拠したデジタル情報保存システム [1] JPEG2000は、画像圧縮方式の一つ。国際標準規格であるJPEGを発展させた形で、高圧縮かつ高品質なデータ圧縮が可能