# 4.(2004年)デジタルアーカイブの構築イメージとして想定したこと 平成26年9月1日 総務部 中山 今後のナショナルアーカイブ関連の議論のために、過去の経緯を総括する目的で、電子図書館中期計画2004の完成形をイメージする。 まず、「国のデジタル・アーカイブ・ポータルの構築 : 国立国会図書館電子図書館中期計画2004の実施に向けて」(情報の科学と技術 Vol. 54 (2004), No.9) [http://ci.nii.ac.jp/naid/110002826958](http://ci.nii.ac.jp/naid/110002826958) から再確認したいポイントを抜粋する。 ## 目次 ```table-of-contents title: minLevel: 0 maxLevel: 0 includeLinks: true ``` ## 1. 2004年に想定したこと ### 1.1. デジタルアーカイブ・ポータルの構築に当たっての考え方 - まず、自らが所蔵している膨大な図書のデジタル化およびオンライン系の情報資源の収集によって、デジタルアーカイブを構築する。その際には**他機関のデジタルアーカイブとの連携を意識した仕様を適用**する。 - 次に、**各デジタルアーカイブの提供機関に対しては、連携を意識した仕様の適用を求める。**そして、連携が可能になったデジタルアーカイブを統合して利用できるようにしたデジタルアーカイブ・ポータルを構築する。 - **様々な利用者層、利用形態に応じ**、様々な機関が自らの優位性を生かして**情報に到達するための情報、ナビゲーションの仕組み**などを付加価値として提供するポータルを構築する。 - **NDL****は、ポータルの1つ**として、自らが保有する膨大な情報を、広く一般に提供するためのポータルの構築を目指し、様々なポータルとともに、日本のデジタルアーカイブ・ポータルを構築し、利用されることを目指す。 ### 1.2. 情報探索行動における図書館の方向性 - 図書館は、紙の資料の時代から「情報探索することを助けること」を仕事としてきた。しかし、現在のように多くの情報が氾濫し、かつ様々なジャンルでの情報探索のニーズに応えるためには、図書館自身の業務のやり方も変わっていかなければならない。 - 一つ目は、**「個別の図書館から、壁のない図書館へ」** - 個別の図書館が、自館の所蔵資料に関する情報提供だけでは、利用者の情報収集行動を支援できない。「個別図書館サービスの横断的利用が可能になるようなサービスの提供を目指す」必要がある。 - 二つ目は、**「図書館サービスの枠を越えて」** - 図書館だけでは、利用者の情報収集行動を支援できない。「同じ分野、同じ利用者層をターゲットにした複数の専門情報サイトが連携して、利用者がワンストップで利用できるようにする」ことが大切と考える。 ### 1.3. デジタルアーカイブへのアクセス #### (1) 二次情報の統合検索サービスの提供 - 図書館、学術ポータル、電子政府、民間ポータル、専門情報サイト等の目録、インデックスを、商用あるいはライセンス付きの電子資源に制限されることなく、異なる対象資源に対する統合的な探索及び情報検索をできるようにすることである。 - その際は、記述的メタデータの統合的な検索・情報探索を提供し、ポータルは、探索の設定・コントロール段階でユーザを支援し、探索結果が確実に再現されることを保証する。 #### (2) 一次情報の統合閲覧サービスの提供 - 目録の検索結果から、自組織及び他機関が提供する一次情報を直接閲覧する機能を構築することであり、検索結果がインターネットで提供可能なデジタルコンテンツの場合はイメージ、フルテキストで閲覧できるようにし、デジタルコンテンツがなかった場合は、NDLの遠隔複写サービス等のドキュメントデリバリのサービスへつなげる。 - 将来的には、有料コンテンツであった場合はそのコンテンツの注文サービス等へ誘導する。**オンライン出版の各サイトや、comのようなインターネット書店、いわゆる古本屋もWebサイトで注文を受け付けており、それらも誘導先の1つ**と想定する。 ## 2. ポータルから見たデジタルアーカイブの要件 - デジタルアーカイブ・ポータルが提供すべきサービスを実現するためには、デジタルアーカイブは次の要件を持つ必要があると考える。 - デジタルアーカイブとしてコンテンツを提供するデータプロバイダは、一次情報としてのコンテンツ、一次情報へのアクセス手段のために編集された二次情報を保有する。 - デジタルアーカイブ内のコンテンツに対して付加価値を付けたり、検索を支援する**サービスプロバイダは、必要な検索語を導出するための辞書、案内情報、コンテンツに関する解題等の情報をデータベース化して保有**する。 - データプロバイダが持っているコンテンツを統合的に利用するためには、それぞれのデータプロバイダが持っているコンテンツに関するメタデータが機械的に利用できる必要がある。またそのメタデータの利用に関しては、横断的な検索をしていく仕組みと、メタを収集しておいてそれを検索に利用していく仕組みがある。 ### 2.1. コンテンツ仕様 - 情報の内部形式は、**完全に一つの形式で統一することは非現実的だが、統合利用のためには外部インターフェースの共通化が必要**であり、そのためには、コンテンツやメタの内部形式も、ある程度共通化している必要がある。 - コンテンツに関しては、**将来的にも広く普及が見込め、利用が保証される形式を採用**する必要がある。メタの記述内容に関しても、検索のヒット率をあげるためには、**記述されるべき項目とその記述内容に関して、目録規則等を意識してある程度は統制された形**でなければならない。 - また、人手で全てのコンテンツにメタを付与していくことは膨大な工数がかかるため、メタデータの自動付与も実現する必要があるが、 - そのためには、**コンテンツからメタを自動生成できる要素がコンテンツそのものに存在**しなければならない。 - 将来的には、Webページやテキスト系文書は、HTML文書やPDF文書ではなく、**文書に構造と意味を持たせたXML文書の形で公開されていくことが望まれる**。また、画像・音声系の情報のファイル形式に関しては、多くの標準が存在しており統一していくことは困難であるが、少なくともそれぞれのファイルのプロパティには最低限のメタ情報が付与されていくことが必要である。 ### 2.2. インターフェース仕様 - ポータルが対象とするデジタルアーカイブは、最終的には**図書館界だけでなく**、政府及び政府関係機関、公共機関、民間問わず広く世の中にあるWebサイトであり、様々な業種・業態を対象とする。 - そのようなサイトを対象とした連携のためには、**広く普及が見込まれているインターフェース仕様を採用**する必要がある。 - 共通インターフェースのレベルとしては、 - 個別に仕様の異なるデータベースのデータ操作言語レベル、仕様がある程度統一されたデータベースでの登録・更新・検索処理のアクセスメソッドレベル - それぞれがサービスとして構築されているシステムに対するリクエストとレスポンスの形での情報の受け渡しのレベルが考えられる。 #### (1) データベースへのアクセスレベル - これは、それぞれのデータベースに対して、その**データベースのスキーマに従ってSQL等のレベルで操作する**もので、データベースの論理構造そのものを把握していなければならず、他機関との連携では、仕様変更の影響を受けやすい。 #### (2) データアーカイブへのアクセスレベル - これは、OAI-PMH でのメタデータハーベスティングプロトコルのように、**レポジトリの内容そのものでなくアクセスの際の論理データのレベルを規定**することにより、レポジトリとプロトコルを用意したサイトから共通の仕様のデータを得られるものである。 - **XML****での受け渡しのため、リクエストとレスポンスのデータ項目の並びとか過不足は処理に影響しなく自由度が高い**。 - メタデータをOAI-PMHでアクセス出来る形のレポジトリとしてサイト内において、サービスプロバイダ側が必要なメタデータで収集していく形である。 - 小規模で変化の少ないサイトでは、データベースを構築せずに、静的レポジトリとしてXMLファイルで設置する方法もある。このようなレポジトリを用意することにより、メタデータのハーベスティングが可能になり、深層Webとされていたデータベースは表層Webと同様に扱うことが可能になる。 #### (3) Webページへのアクセスレベル - また、Webページに関しては、**RSS ファイルを設置して、Webサイトの見出しや要約などのメタデータを構造化して記述する**XMLベースのファイルにより、Webサイトが持っている情報のメタを公開する方法も広く普及している。 - そのファイルそのものを収集することにより、メタデータの収集ができ、データ提供者、収集者に負荷が少なく、ニュースサイトや著名なサイトでは、更新情報を機械的に収集されることにより、その情報を使って利用者はアクセスできるため、情報提供に力を入れているサイトを中心に利用が広まっている。 - 最近のWebページは、**CMS により、プログラムにより動的なHTML文書が作られることが多くなっている**。それにより、表層Webとして機械的収集が困難な深層Web化しているが、**サイト内の情報をRSSファイル等で公開することにより、従来よりも機械的に認識可能な情報として扱えられる**ようになってきている。 - しかし、もともとはデータベースの形で論理構造を持った情報であるので、さらにもう一段進んで、**近い将来的には、本格的なセマンティックWebの普及を期待**する。 - 従来のWebページは、HTML言語で作成されているが、**HTML文書は、ページの見た目を定義する言語であり情報を区別するための属性情報を持っておらず、機械的に内容を認識することを困難**にさせている。 - セマンティックWeb は、従来のHTML形式のように人が見て内容を理解する形のページを検索エンジンなどによって検索し、得られたデータや情報の意味を人間が判断する形ではなく、**情報記述言語であるXML文書で、キーワードをキーワードとして認識できるメタデータを付与することによって人間の代わりにコンピュータが理解し、ソフトウェアで自動処理できるようにする新しいWebの形態**である。 - **Web****ページの個々の情報の意味情報であるメタデータを集約し、その知識を抽出して構造化することにより、インターネット上に散在するさまざまな情報全体をひとつの巨大な知識データベースと見なし、ソフトウェアの自動処理により効率的に処理し、コンピュータとの自然なやり取りで必要な情報が取得できるしくみが実現できる。** - また、XML文書をスタイルシートであるXSLTの定義に従ってHTML文書化する形であれば、**スタイルシートを変えれば、印刷用、PC画面用、携帯電話用やWebコンテンツアクセシビリティのガイドラインを満たすWebページを動的に作成できシングルソース・マルチユースを実現**できる。 ### 2.3. Webサービス(API)としての連携 - WWW関連の技術を使い、ソフトウェアの機能をネットワークを通じて利用できるようにしたもので、**コンポーネント化された複数のWebサービス同士をつなぎ合わせてアプリケーションを構築する形**である。 - この形は、検索キーを与えて検査結果を得るというデータベースアクセスというレベルではなく、**複数のWebサービスサイトに処理要求のレベルでのリクエストを出して、各サイトの処理結果を、XML形式でのレスポンスとして返すもの**である。 - このシステム連携イメージは、B2B、B2Cでのシステム連携の基盤技術であり、それが、G2B2C での連携によるサービス提供につながる。 - 同業種・業態でのそれぞれにWebサービスとしての連携仕様は確立しつつあるが、**デジタルアーカイブとしての連携においては、図書館の枠を越えて様々な機関が提供するポータル、サービスプロバイダ、データプロバイダ間での共通の規約を整備することが必要**である。 - しかし、**この仕組みの技術基盤はすでに確立**しており、属性名、属性値の必要最低限の記述規則(目録規則)を調整すれば、早期に実現は可能となっている。 ## 3. デジタルアーカイブ・ポータルの構築・運用に関しての考察 - ポータルの構築にあたっては、情報提供者の意志と権利を十分に尊重しなければならない。 - また情報は、ある分野において最も影響のある情報が統合利用の対象外になっていては、真に有用なポータルとして使えない。 ### 3.1. コンテンツへの直接ナビゲーションが必要 - **ポータルは単なるサイトへのリンク集ではない。**ポータルがポータルを指して、どこまでアクセスしても、一次情報に辿り着かないポータルは敬遠される。 ### 3.2. ナビゲーションすべき情報へは確実に - ポータルとして機能するためには、**連携しやすいサイトではなく、連携すべきサイトであり、重要な情報を持つサイトが対象外であってはいけない。**ロボット検索できるところでなく、含めるべきサイトは、ポータルから見えるようにしてもらうことが必要である。 ### 3.3. 情報提供者の意志を尊重する - しかしながら、機械的に情報を収集されたくないと思っているサイトや、第三者権利等のため収集されては困る情報を、無理して対象としてはいけない。**提供者がポータルに登録されることを望むものと、ポータル側が見えるようにしたいものが一致できるようにすることが重要**。 ### 3.4. 誰でも付加価値をつけて運営できるように - ポータルは、**ポータルとしてナビゲーションできる情報に付加価値をつけて情報を提供する**もので、**日本のポータルとして一つである必要はない**。 - 多種多様な利用者ニーズに応えるポータルは、いくつあってもいい。**それぞれがポータルのサービスコンポーネントを取捨選択して特色を持ったポータルを作れるようにすることが重要**と考える。ポータルは既製品を押し付けるものでなく、**利用者が自由にサービスコンポーネントを組み合わせて利用できるもの**でもある。 - 既にあるポータルをリンクするのではなく、それぞれのポータルのサービスをワンストップで使える1つのコンポーネントとして組み込んだポータルが作れることが望ましいと考える。 ### 3.5. データプロバイダは、情報収集ソフトからのアクセシビリティを確保 - **Web****ページは、人間に対しての対話型提供のアクセシビリティだけでなく、機械可読型提供に対してのアクセシビリティに配慮してもらう必要がある**。 - ポータル側から、**データプロバイダ側に用意して欲しい機能を提示して、インプリメントしてもらう。**その際は、将来的に普及する見込みのある技術を適用することが重要である。 - **国の情報の場合は、パブリックドメイン化と利用促進のための仕組みを用意がさらに重要で、個別に利用許諾したり、独自仕様で提供して、ポータル側に個別のアクセスインターフェースを用意させるような形ではいけない。** ### 3.6. 考察のまとめ - そのような考察のもとで、日本のデジタルアーカイブ・ポータルの構築を目指すNDLは、「ポータル構築のインキュベーション役」なのかもしれない。**全ての人を満足させられるポータルを運用することは困難**であり、NDLは、日本のポータルを提供する一機関として、**日本のポータル構築のために、情報を提供したい人が、情報を提供しやすくするための環境の普及を加速させることが、重要な役割**と言えるかもしれない。 ## 4. デジタルアーカイブおよびポータル構築に向けて ### 4.1. 公的機関のデジタルアーカイブ構築の推進 - **公共機関の情報を広く一般が簡便に利用できるようにするために、公共的な情報資源のデジタルコンテンツ化と、そのアーカイブを積極的に推進** - デジタルアーカイブの構築に当たっては、関係機関は、**デジタルコンテンツの長期保存とアクセスの保障に必要な機能と標準的な仕様の研究開発・技術開発** - また、制度的な課題解決として、デジタルアーカイブとその利活用の推進に向けて、**国有財産に属する電子情報の利用の自由化あるいは利用手続きの明確化及び簡素化を図ると共に、図書館等で所蔵する書籍等のデジタル化及びその提供に関し、著作権者の不明な著作物を利用するための手続の効率化** ### 4.2. デジタルアーカイブ・ポータルの推進 関係機関には、デジタルアーカイブ内の情報を安定的かつ効果的に利用できるようにするための技術的課題の解決に協力を得る。 - 改廃等により消滅してしまうシステム環境の中で、**電子情報格納フォーマットから情報を再現することが可能な長期保存技術** - **メタデータの収集技術** - **情報提供者によるメタデータ付与を容易にする技術** - **新しい概念の検索方式や共通検索技術** - また、デジタルアーカイブを構築する**公共機関等には、デジタルコンテンツはデータ連携を可能にする標準的な仕様で提供していただくことが必要**となる。。 - **標準的なフォーマット、インターフェース仕様の適用** - **標準的なメタデータの付与** 各種ポータルサイトでは、**デジタルアーカイブへの標準的なアクセスのための仕様を実装し、それぞれのポータルがシステム的に連携して、相互補完しあい、全体で相乗効果を発揮できるようになることが望ましい**と考える。 ### 4.3. ウェブ・アーカイブ構想の推進 国内外の複数の主体によるウェブ・アーカイブが相互に連携し、一つのウェブ・アーカイブとして機能するための技術的課題の解決が求められる。 - **ウェブページの保存・検索等に要するメタデータ・フォーマットや自動情報収集等の技術の共通化・標準化** - その仕様を満たした収集システムの開発 - **ウェブページ間の関連性・更新履歴を踏まえた情報解析等の研究開発** ウェブでデジタルコンテンツを提供している各機関には、NDLが行うウェブ・アーカイブ構築に関して、それぞれの機関が提供しているウェブページを、**機械的に収集しやすくするための機能を実装する等の協力を得ることも重要**である。 - ウェブページにある情報のメタデータファイルの設置等 - 第三者の権利を侵害する恐れのある情報の収集拒否設定等 ## 5. おわりに - デジタルコンテンツの利用を取り巻く環境は大きく変わりつつある。技術の進化により、提供可能なサービスが拡大し、そのサービスを受け入れた利用者からは、より高度なニーズが生まれてきている。 - デジタルアーカイブ・ポータルは、**図書館の枠を越えて、国、公共機関、学界に加えて民間、個人が保有する情報をワンストップで的確に閲覧利用できるようにする**ものである。 - インターネット上にある**膨大な情報を、「意味ある情報資源」として活用するための研究開発、技術開発を進める**とともに、情報の提供者はその技術を適用した情報提供することにより、**巨大な知識ベースが構築**できる。**デジタル情報を日本の文化遺産として後世に残し、新たな知識を創出するための知識として、現在及び将来にわたって活用できるようにする**ために、**データプロバイダ、サービスプロバイダのそれぞれの機関が「Win-Win」の関係で実施し発展していけることが重要**であり、関係機関・関係各位の御協力を願いたい。