# 9.(2008年)DA/PORTAの今後(将来像)【詳細箇条書き】
平成20年11月12日
関西館 中山
## 目次
```table-of-contents
title:
minLevel: 0
maxLevel: 0
includeLinks: true
```
## 1. 概要
### 1.1. 現状認識
- 指数的に増大するデジタル情報
- 組織、マスメディアに加えて、個人が多くの情報を発信
- 情報の質がフラットに(専門家の情報も個人の情報も等価に)
- 利用者の情報探索行動の目的は、問題・課題の解決
- 検索エンジンで見えない情報はないも同然
- 有用な情報は、民間、個人のデータベース、ブログ等に多い
- インターネット上の情報は、すべてを1つの組織で収集・保存することは不可能
- 専門家の人海戦術では、情報の組織化は無理
- 個人の知は、専門家を凌ぐ
- 膨大な情報を検索できる時代に、従来の図書館的な指向で目録検索から入るような形では、利用されなくなる。
### 1.2. 何をすべきか(Web2.0時代の次を見据えて)
- データベース内の情報の「見える化」(可視化)
- 情報を全体で集合知化
- 組織を超えて知識を集約
- 専門家の知識を集約
- 個人の知識を活用
- 集合知の永久保存
- 情報の組織化
- 情報に属性付与
- 情報と情報の関連付け
- 利用者情報の組織化
- 利用した人の属性把握
- 人と人の関係付け
- 情報と人の関係付け
- 的確な情報の検索(情報の選択範囲の拡大・絞込み)
- 的確な情報の閲覧(利用者属性・利用環境に応じた情報閲覧)
### 1.3. どのように実施するか
- アーカイブシステム構築において、先進的な研究開発成果の適用
- 関係機関の技術開発成果の活用が必要
- コレクション構築において、図書館の枠を越えた連携協力
- すべてのデータプロバイダが連携できる仕組みとビジネスモデルが必要
以降、個別説明(デジタルアーカイブシステムの構築・国のデジタルコレクションの構築)
## 2. 何をすべきか(Web2.0時代の次を見据えて)
### 2.1. データベース内の情報の「見える化」(可視化)
- 検索の入り口は、まずは検索エンジン。検索エンジンで見えない情報はないも同然。
- 多様な検索ニーズに答えるためには、多様な入り口(ポータル)が必要
- 各データベースが他のシステムから「見える化」すれば、様々なポータルサイトが実現できる。それは、データプロバイダが提供する検索サービスよりも使い勝手のいいものが実現される可能性も高い。
### 2.2. 情報を全体で集合知化
- 組織を超えて知識を集約
- 図書館、公文書館、博物館はそれぞれが書物を所蔵しているが、明確な分担保存の基準はない。
- GoogleやPORTAで「源氏物語」を検索して見ると、様々な機関、個人が情報を発信している。
- 原本を交換し合うのは難しいが、デジタルコンテンツなら、組織を超えて、必要なコンテンツを持ち合える。
- 専門家の知識を集約
- 図書館等の専門組織の強みは、司書、学芸員等が持つ知識。これらを集合して使えることが大切。
- ナレッジのデータベース化
- 専門家の知識は重要。
- 当館では公共図書館員による「レファレンス協同データベース」や「ナレッジデータベース」を構築しているが、専門家によるWikipediaのようなものは作れないか?
- 個人の知識を活用
- CGM(Consumer Generated Media)の活用
- ここ2~3年で、一般利用者が直接生成する情報は、膨大になってきた。それらは、断片であっても、集合すると有用な情報になっている。
- 多数の意見、類似嗜好の人の行動を情報として提供することにより、利用者の行動の参考となるようにする。
- Wikipedia、はてな、Yahoo知恵袋。。。。
### 2.3. 集合知の永久保存
- 今、そして将来も利用できる形で保存
- インターネット上の情報は消え行くもの。すぐに公開できなくても保存
- 現在の媒体、ファイルフォーマットは、将来読めなくなる。→国際標準、業界標準を策定した団体、その仕様に基づいて製造したベンダの協力のもと、マイグレーション、エミュレーションができるようにすることが必要
- インターネット上の情報は、すべてを1つの組織で保存することは不可能
- 複数のアーカイブ組織で分担保存
- 各アーカイブ組織が、自らの組織のタスクに応じて、必要なコンテンツを交換し合って保存
- ディザスタリカバリの面からも有効
### 2.4. 情報の組織化
- メタデータは一義的にはコンテンツの作成者が付与するのが望ましい
- blog、wiki、CMS(Contents Magage System)のような環境で構築されたコンテンツは、自然にメタデータが作られる。
- また、html文書に、マイクロフォーマットを使うことで、アプリケーションから使える意味ある情報をもたらすことが出来る。
- 情報に属性付与
- 情報のクラスタリング
- 著作の類似性(内容、レベル)等で著作物を把握
- FRBR、書誌ファミリーの概念での組織化
- 同一著作、原作から様々な媒体や形式に派生した著作物を書誌事項で体系的に把握
- CGM(Consumer Generated Media)の活用
- たとえば、フォークソノミーの1つとしての、ソーシャルタギング(はてなブックマーク等)
- 統制語彙のようにあらかじめ定められた言葉でものごとを分類するのではなく、各人が任意のタグ(自然語)を追加するもの 。ほかの利用者が目的のファイルを見つけられる確率が大幅に高まる。(@ITより)
- ソーシャルタギングにおいて、専門家による統制語が使われていけば、より確実な分類になっていく。
- 自動組織化(自動メタデータ付与)
- 文書構造、文脈、画像・音声特徴の自動認識
- はてなブックマークでは、ブックマークすると、自動的にカテゴリ分類とキーワードが生成される。
- 主題分類も付与されれば。。。
- 情報と情報の関連付け
- セマンティックウェブ技術の活用
### 2.5. 利用者情報の組織化
- 利用した人の属性把握
- 趣味、嗜好があらかじめわかれば情報の絞込みが可能に
- 図書館の世界でほとんど利用されていない
- 実在する個人の行動を把握するためのものではない
- 利用情報の把握
- 利用者の利用傾向から、ユーザの特性・属性を推定
- その属性を元に、情報を推薦
- 注意することは、ユーザには、公的、私的で別の嗜好を持つ
- 例えば、情報処理の仕事をしているが、草花が好き。どちらも自分であるが、それを一人の興味・嗜好と認識すると推薦する情報は混乱する。
- ユーザの特別な行動は排除されなければならない。(人から頼まれて調べた。。。)
- 人と人の関係付け
- ユーザ同士の類似度を、同じアイテムにつけた評価の相関係数などで把握
- 類似性で、人と人のコミュニティは作られる。類似した人の情報は、自分にも有効。
### 2.6. 情報と人の関係付け
- 利用者が興味・嗜好を共有して、情報群を作っていく(あらかじめでなく)
- 利用者が主体のアーカイブ
- 利用者の観点で分類(クラスタリング)
- 図書館、公文書館、博物館、美術館、、、、ではない
- 一次、二次、三次情報ではない
- 一般人、児童、専門
- 学術、娯楽、、、、、
- 文学、科学、、、、
- 同じ嗜好を持つ人の利用傾向から自分にも役立つ情報の絞込みが可能に
- 他の人の利用実績から、こんな情報もあると提示されれば、ロングテールにもつながる
### 2.7. 情報検索手段(利用方法)の変革
- 情報の関連を活用した検索(情報の選択範囲の拡大・絞込み)
- 全文検索だけでは、的確に絞り込めない。また、検索語など、適切な検索条件を与えることは困難。
- 連想検索、あいまい検索
- 多角的な絞込み検索
- ファセット検索、クラスタリング検索
- 異業種、異文化圏の情報の検索
- オントロジー等の技術を活用した検索語の翻訳、検索結果の自動翻訳
- 組織を越えた統合検索と関連する情報への芋づる的なナビゲーション
- 組織を越えた大きな集合知の中から、多角的に絞込み、関連しそうな情報を例示
- 利用者属性、利用情報を活用した検索および閲覧(利用者属性・利用環境に応じた情報閲覧)
- パーソナライズ
- 利用者の背景、属性、行動履歴を参考に
- 利用場所、利用機器に応じて最適なコンテンツを自動選択
- 同一原本から、様々な媒体、形式に派生したコンテンツを、利用場所・利用機器により閲覧可能なコンテンツを選別
- 利用場所:図書館内、移動中、自宅等
- 利用機器:PC、携帯電話、PDA等
- 今や、インターネットはPCだけで見るものではない。携帯電話や携帯端末での利用は多い。携帯電話で近代デジタルライブラリーのようなイメージ画像は読みづらいが、青空文庫なら読める。また、朗読ならもっといい。
- 協調フィルタリング
- 他人の利用情報により推奨する検索
- 協調フィルタリング(Collaborative Filtering, CF)は、多くのユーザの嗜好情報を蓄積し、あるユーザと嗜好の類似した他のユーザの情報を用いて自動的に推論を行う方法論である。協調フィルタリングはリコメンデーション(推薦)やパーソナライゼーションに利用されている。実際にcomの「おすすめの商品」や、はてなアンテナの「おとなりアンテナ」などに応用されており、Web 2.0においてロングテールを支える要素技術として捉えることができる。(Wikipediaより)
### 2.8. 利用のまとめ
- 利用の仕方も、技術の進展とともに変化している。
- 書誌項目の完全一致、部分一致とかの検索ではニーズを満足しない
- ニーズとしての利用の仕方の調査研究も必要
- 技術の進展とともに、ニーズも変化している。新たなニーズに対応して、技術シーズも生まれてくる
## 3. どのように実施するか
### 3.1. NDL-DA、PORTAシステム開発における技術導入の考え方
- サービス構築
- 基本的には作らない。OSSの組合せ、サービスのマッシュアップ。
- 技術開発、利用者ニーズに速やかに対応するためには、研究開発成果のタイムリーな実装が必要。
- 研究開発成果や、先進機能を使ってタイムリーにバージョンアップされていくOSSを組み合わせていくことが有効。(図書館用の商用パッケージでは、タイムリーに対応できない。)
- システムはWeb上にあるサービスを組み合わせて、マッシュアップで構築することが効率的。
- 各機関のサービスを活用しあうサービス連携
- Webサービス連携から、コンピュータ資源やサービスを共有しあうクラウドコンピュータの世界へ
- デジタルアーカイブ機能
- 対等な関係での分散デジタルアーカイブを指向
- 当館は国のデジタルアーカイブを構成するデータプロバイダの1つ。日本中のデジタルコンテンツを1つの機関ですべて収集・保存することは不可能。
- 分散デジタルアーカイブが連携して、1つの巨大なデジタルアーカイブとして利用できるようにすることを目指す
- メタデータ交換の統合検索連携は第一歩。次に、コンテンツの相互交換による連携。
- 必要なコンテンツを交換し合う方法として、セキュアなPeerToPeer(P2P)ネットワークでの連携が有望
- ポータル機能
- 一般の利用者にとって、データベースの所在を探すのも含めて、実質的な入り口は、GoogleやYahooのような検索サイト。
- Google、Yahoo等の表層ウェブを中心にした検索エンジンと、検索エンジンからはアクセスが困難な深層ウェブとのワンストップ検索サービスの融合が必要。
- 目的とするコンテンツを直接検索・閲覧できるサービスが求められている。たらいまわし的なナビゲーションは好まれない。
- 利用者層、直接統合検索できるコンテンツのカバレージなど、目的を明確にして、ユーザニーズに対応したポータル機能が必要。
- PORTAは?
- 当館が所蔵する資料をデジタル化したコンテンツに加えて、インターネット上から収集したコンテンツと、各機関が構築し提供しているコンテンツを検索できるようにしたデータプロバイダ。
- PORTAの統合検索は、統合検索先のメタデータを検索用データとしてハーベストして保持するリポジトリ機能と、検索要求の都度横断検索することにより実現。
- データプロバイダとして、検索機能をWebサービスのAPIとして、他のサービスプロバイダーに提供する。
- PORTAが持つGUI機能は、このAPIを利用して提供しているもので、デジタルコンテンツをアクセスするための入り口の一つ。デジタルアーカイブがWeb上で「見える化」されるのを加速させ、各機関のデジタルコンテンツの利活用が促進されることを目指すもの。
### 3.2. デジタルアーカイブシステムの構築に必要な技術の適用
- 技術
- 収集を容易にする技術
- _収集効率を高める技術(差分収集と再現技術を含む)_
- _収集品質を高める技術_
- _収集したサイトイメージから著作物を切り出す技術_
- 組織化(メタデータの付与等)を省力化する機能
- _可能な限り自動化_
- _セマンティックウェブ技術の活用_
- _クラスタリング技術_
- _FRBR__の概念を適用した組織化も_
- 検索を容易にする技術
- _キーワードマッチングだけでなく、推定する技術も活用した検索技術_
- _検索、クラスタリング検索等_
- 長期保存を実現するストレージ技術 (次世代ストレージ)
- 進め方
1. 国際標準、業界標準の積極的な適用
2. 政府機関、民間を問わず、国内外の研究機関、研究者等と連携して調査研究
3. 各機関の研究成果を組み合わせて機能を実現
4. まずは、海外ではIIPC、国内では研究開発を行っているJST、NII、NICT、AIST、IPA等の政府機関、大学の研究室等との連携
5. 有用な検索サービスを実施している商用ポータル機関(Google、Yahoo等)との連携
- 産官学の研究開発プロジェクトの成果の活用
- DA及びPORTAにおいて必要な技術であるが、技術的な課題がありパッケージやOSSが存在しない技術に関して、政府機関、大学等の研究機関に対して技術的なニーズを提示して、研究開発成果の技術移転を目指す。
- 縮減された予算の中でも機能強化を可能とする方策の一つ。
- 文明開化プロジェクト(総務省:21~23年度)
- 概要
- 「ICT 成長力強化プラン」に基づき、国立国会図書館、国立公文書館、他府省庁、地方公共団体、図書館・博物館・美術館、大学等との連携を図り、産学官を挙げてデジタル化を推進、日本中の知的財産を総デジタル化してつなぐ「デジタル文明開化プロジェクト」を実施する(重点計画2008(案)(6月11日)IT戦略本部)
- デジタルアーカイブ構築のために必要な技術開発
- 複数のデジタルアーカイブの統合に関する技術
- 分散型・大規模デジタルアーカイブの長期保管・利用に関する技術
- デジタルアーカイブの多目的な利活用に関する技術
- 地域公共図書館等がデジタルアーカイブシステムを導入するための資金援助
- 状況
- 総務省での予算要求のために、技術開発が必要な分野、テーマ候補の提示、説明資料等の作成に協力
- 予算が確保された場合、来年度の実施に向けて、今年度末までに調達の準備をするとのこと
- 大航海プロジェクト(経済産業省)
- 経済産業省情報政策課に対して、今年度の「共同活用基盤を用いた実証実験」及び、来年度以降の「大規模図書館が将来的に活用可能なモデルサービス等の実証実験」として検討していただきたい研究開発テーマの一覧を提示。具体的なアクションにまでなっていない。
- 情報爆発IT基盤(文部科学省)
- 「情報爆発IT基盤」に対して、直接具体的な申入れはしていないが、このプロジェクトの個別研究開発テーマの研究者(木俵先生、黒橋先生)とはコンタクトを取っている。どの程度、当館で成果を活用できるかはわからない。
- 民間の技術開発、製品開発 ()
- 図書館パッケージベンダー (図書館が利用する冊子体OPACからデジタルコンテンツの目録提供システムへ)
- 共通仕様・技術提供
- 日本規格協会 (メタデータ交換、サービス連携のための、通信プロトコル、メタデータ記述要素・記述規則)
- 電子情報技術産業協会(JEITA) (製品開発者として、各種デジタルフォーマットの適用、長期的な利用を保証するためのエミュレーション、マイグレーション技術の提供、現在、オーディオアーカイブに関して仕様検討会が開催され、NDLはオブザーバ参加)
- IIPC
- 国際インターネット保存コンソーシアムへの加盟 (International Internet Preservation Consortium : IIPC)
- IIPCは、Webアーカイビングに資する相互運用可能なツールや技術の開発・標準化を推進し、国際的な利用を促進することを目的として結成された機関
- 現在、各国の国立図書館や公文書館など38の機関が参加
- IIPCを通じて国際的に貢献することはもちろん、相互運用可能なツールや技術を国内に還元することで、日本のWebアーカイブ進展に資する
- ワーキング
- スタンダード
- 短期的にはWARCの標準化、将来的にはメタデータ、評価基準の標準化等の標準化
- ハーベスティング
- Heritrixの開発、WARCフォーマットの開発とサポート、クローラに特化した要望、深層ウェブの収集、ビデオやストリーミングの収集
- アクセス
- アクセスツール(Wayback machine,WERA)改善、NutchWAXを使った全文検索のテスト、ユーザ認証、ユーザ権限、アクセスコントロール、アーカイブのコンテンツ解析のためのツール、アーカイブの構造解析のためのツール
- プリザベーション
- デジタル情報の保存をめぐる技術的課題への取り組み、ストレージの拡張性に関する研究、WARCフォーマットの保存機能の向上、ウェブをめぐる技術環境の変化の記録、再現できなくなりつつあるファイルフォーマットの特定
## 4. 国のデジタルコレクションの構築に向けた連携協力
### 4.1. 主な連携協力先
- これは、連携協力先のリストです。予定も含んでいますが、コレクションの構築、システム構築、国際協力の観点で、様々な機関と連携協力のための調整を行っています。
- ナショナルデジタルコレクションの構築
- 内閣官房
- 知的財産戦略本部 (知財計画2008で示された、NDLのデジタルアーカイブ化、図書館資料の利用の促進、著作物のフェアユース規定の日本版、、、)
- IT戦略本部 (e-Japan重点計画I・重点計画2008?)
- 美術館、博物館、文書館、図書館連携(MLA連携) (関係機関のサイトへのアクセス、来館利用が促進される形での連携・協力、デジタル文化資源ラウンドテーブルを設置予定)
- 国立公文書館 、東京国立博物館 、各美術館、博物館、公文書館、図書館
- 学術情報 (学術情報、科学技術情報の統合検索、コンテンツの長期保存、学位論文の保存と提供、NDLと大学図書館との連絡会議の下に学位論文電子化の諸問題に関するWGを設置して検討してきた)
- NII、JST 、大学図書館 、電子ジャーナル出版者
- 公共図書館(各図書館での郷土資料のデジタル化とアーカイブ構築を支援、公共図書館の総合目録ネットワークの便利さをデジタルの世界でも実現)
- 都道府県立図書館 政令指定都市立図書館 、市町村立図書館 、専門図書館
- 出版者等 (電子書籍作成支援、電子出版用に出版者へ提供、各出版者へのナビゲーション、出版者等のビジネスが拡大できる形での連携・協力)
- 日本電子出版協会(JEPA) 、日本印刷技術協会(JAGAT) 、冊子体書籍出版 、電子書籍出版者 、インターネット書籍販売者
- 民間デジタルアーカイブ (色々あるがその一つとして)
- 歴史的音盤アーカイブ協議会(HiRAC) (SPレコード3万タイトル6万曲、その他記録音盤、音源フォーマット、メタデータ仕様、デジタル化分担、統合検索、歴史的音盤を将来に亘って聞くことができるように)
- 商用ポータルサイト (実質的なインターネットの入り口、色々考えられる)
- Google、Yahoo等 (デジタル化、深層ウェブの可視化、サービス連携、商用ポータルが保有する情報の利用、検索システム構築の技術トランスファー) 、ソーシャルブックマークサイト
- 政府情報
- 総務省行政管理局(e-GOV) (政府サイト情報の統合検索、収集保存)
- 各府省支部図書館 (政府情報のデジタル化、長期保存、デジタルコンテンツの統合検索)
- 国立印刷局 (政府刊行物のデジタルフォーマットとしてXMLベースの原本作成)
- 国際協力
- World Digital Library (歴史的文化遺産を世界中の国立図書館が協同でデジタル化して提供するもの、NDLは日本として、東アジアの一員として参画し、世界規模でのデジタルライブラリが構築されることを目指す)
- LC LCが発行するガイドラインや施策は、今後の図書館を考える上で、とても参考になる。毎年、情報交換を行っている。
- IIPC (ウェブアーカイブに関して、標準、収集、提供、長期保存の観点から、研究開発、NDLも4月より参加、構築中のデジタルアーカイブシステムでの適用と成果のフィードバックを目指す)
- 日中韓連携 (漢字文化圏の三国が協力してデジタルアーカイブを構築して、コンテンツの長期保存と提供を目指す。昨年度協力の合意をして、現在各国の現状をまとめている。まずはパイロットシステムを構築して、メタデータ交換、横断検索を試行する予定)
### 4.2. 政府の施策(2008年度)
- 今年度は、NDLのデジタルアーカイブ事業に直接関連する政府の施策として、このようなものがあります。
- まず一つ目として、「e-Japan重点計画特命委員会自民党デジタルアーカイブ小委員会」が、平成20年3月12日に公表した「デジタルアーカイブの推進に向けた申入れ」。
- 主な内容は、
- 平成16年6月の「国立デジタルアーカイブ構想」の提言に沿って、わが国のデジタルアーカイブの総合ポータルとなるPORTAが開設された。
- 国立国会図書館のウェブアーカイブの本格実施のための法制度の実現
- 全国図書館のデジタルアーカイブの統合化
- 全国の図書館が統合的なデジタルアーカイブの構築。
- 図書館間でのデジタル化された収集資料の相互利用、館内公衆端末での閲覧が可能となる著作権制度の創設。
- 著作権データベースの活用等著作権者が不明な場合の文化庁裁定制度の円滑な利用のための制度改善。
- 国立公文書館と国立国会図書館が協力
- 相互の役割の違いを尊重して、利用者の利便性の向上を図る観点から、連携・協力
- 全国の公文書館、図書館でのデジタルアーカイブ構築について、メタデータ付与等に係る技術面、ノウハウ面における支援、協力を行う。
- 国のデジタルアーカイブの総合ポータルの検索機能の充実等により、各分野でのデジタルアーカイブの利用の拡大を図る。
- 世界最先端のデジタルアーカイブ技術への対応
- 次に、内閣官房 知的財産戦略本部が6月18日に発表した「知財計画2008」
- 「国立国会図書館のデジタルアーカイブ化と図書館資料の利用を進める」ということで、
- 国立国会図書館において行われている貴重な図書等のデジタル化やインターネット情報資源等を収集保存し、ネット上で一般ユーザーの利用に供する取組''''について、その促進が図られるよう一層の連携を進める。
- このため、'権利者の経済的利益や出版ビジネスとの関係を考慮''しつつ、国立国会図書館における蔵書のデジタル化の推進に必要な法的措置を2008年度中に講ずるとともに、国立国会図書館と他の図書館等との連携や図書館等利用者への資料提供の在り方については、関係者間の協議を促進し、2008年度中に一定の結論を得る。(113/157ページ)
- さらに、IT戦略本部が、6月11日に意見招請している''重点計画2008(案)
- 総務省が発表した、「ICT 成長力強化プラン」の中で記述した、「デジタル文明開化プロジェクト」の推進(総務省及び関係省庁)
- 国立国会図書館、国立公文書館、他府省庁、地方公共団体、図書館・博物館・美術館、大学等との連携を図り、産学官を挙げてデジタル化を推進、日本中の知的財産を総デジタル化してつなぐ「デジタル文明開化プロジェクト」を実施する。
- 具体的な内容の一つとして、地域公共図書館支援を想定しています。
- 「ICT 成長力強化プラン」の実施が盛り込まれた形で、「経済財政改革の基本方針」(いわゆる骨太方針2008)として、6月27日に決定されました。
- これに基づいて、スクラップ&ビルドでの新規要求、既存経費の削減を含めて、来年度予算要求が行われています。
### 4.3. 公共図書館支援のイメージ
- これは、連携協力の例の1つとして、地域公共図書館支援のイメージです。
- 公共図書館が、地域情報ハブとして、郷土資料をデジタル化したり、県域の情報を収集して提供する役割を支援するものです。
- 公共図書館が、県内有用サイトの収集もしくは横断検索することを支援
- 公共図書館が、郷土資料をデジタル化することを支援
- 公共図書館が、収集コンテンツ及びデジタル化コンテンツのデジタルアーカイブを構築し、提供することを支援(必要に応じて当館が利用しているデジタルデポジットシステム等を貸与する)
- デジタルアーカイブを構築し運用することが困難な図書館に対しては、当館がASP的なサービスを行う。
- NDLは、各公共図書館のデジタルアーカイブを長期保存もしくはバックアップのために収集保存する。
- NDLは、各公共図書館のデジタルアーカイブのメタデータをハーベストもしくは横断検索して、利用者に対して、全国公共図書館が持つ郷土資料を統合的に検索し、各図書館サイトへナビゲートするポータル機能を提供する。
- また、NDLは、標準として適用すべき仕様のガイドラインや手引き類を提示し、実装を支援します。
- デジタル化及びシステム構築用の手引きの提供
- 「デジタル化の手引き」(公開中)
- 「デジタルアーカイブ構築の手引き」(計画中)
- 「共通仕様及び連携に関するガイドライン」(公開中)
- 「外部提供インタフェース仕様書」(公開中)
- 「メタデータスキーマガイドライン」、「メタデータ記述規則」(策定中)
- 各機関での地域情報収集用及びアーカイブ構築用の汎用ソフトウェアの提供も想定しています。
- 支援のスキーム
- PORTAでの連携協力先の拡大がなかなか進まない要因として、左の枠のように、各機関の対応が困難だったことがあげられます。
- 資料を、デジタル化する費用がない
- 自前で、サーバを立ち上げられない。運用できない
- 意義は理解したが、標準プロトコルを実装できない
- _ウェブページに貼り付けて、データベースとして検索できる形になっていない_
- _データベース化されていても、外部提供インタフェースを持っていない_
- _外部提供インタフェースを実装する費用がない_
- メタデータのマッピング調整に膨大な時間(工数・費用)がかかる
- _DC__をベースにした記述要素を使っていても、使い方がそれぞれまちまち_
- _同じ要素を使っていても、記述規則が異なり、同じ内容として認識できない_
- さらに、統合検索できることのメリットが理解されていないということもあります。
- _アクセスが増えることが不安_
- _サービスが横取りされるのでは?_
- これらを解決することが、関係機関の拡大につながると考えています。
- 支援のスキームとして、
- 当館は、デジタルアーカイブシステムをオープンソースとして開発
- そのシステムをベースに、研究開発で、地域公共図書館用のソフトウェアを作成
- そのソフトウェアを各図書館が実装するために、国から何らかの資金援助
- 同時に、当館は、各種ガイドラインを提示
- このようなスキームで、各図書館の郷土資料が、デジタル化して公開され、それが、インターネットで発見されるようになって、資料の利活用が進み、さらに、サイトや来館での利用者が増えることを期待しています。
### 4.4. 学術機関との連携協力
- 学位論文のネットワーク形成国立国会図書館、国立情報学研究所、国公私立大学図書館の3者により提示された我が国の学位論文のデジタル化とネットワーク化の道筋(国会図書館と大学図書館の連絡会「学位論文電子化の諸問題に関するWG中間報告」平成20年3月27日)に従う。
- 3者による協調の下、デジタル化を推進するため、学位論文をリポジトリに搭載し、JuNii+、国会のポータルサービスなどと相互にメタデータを交換するためのメタデータプロファイルを提案する。各機関はこのプロファイルにしたがい、リポジトリに搭載する学位論文の標準メタデータを作成するものとする
- 学位論文等の検索システムとメタデータの関係機関リポジトリでの学位論文メタデータプロファイルと、NDLが所蔵する紙媒体の学位論文のメタデータ、遡及デジタル化した学位論文のメタデータの関係を整理
- 電子ジャーナルとの相互連携も視野に
- DRF4において合意形成
- 大学において共通のメタデータプロファイルを策定中
- NDLにおいて、紙媒体、及び、紙から遡及デジタル化した資料のメタデータ案(DC-NDLベース)を策定中
- 両者の整合、クロスウォークを可能にすることにより、一元的なアクセスが可能になる。
- 国立情報学研究所(NII)のCiNii、JuNii(平成21年4月頃公開予定)
- CiNii、JuNiiのメタデータのハーベストは、両システムが改修中のため、新システム稼動後に実施することで内諾を得ている。
- CiNiiに関しては、OpenURLによる横断検索の準備は完了したが、CiNiiへの負荷が懸念されるため、メタデータをハーベストすることとした。
- JuNii+に関しては、OAI-PMHでのハーベストの準備は完了。
- 科学技術振興機構(JST)のJ-Stage、Jurnal@rchive(12月頃公開予定)
- J-Stage、Jurnal@rchiveに関しては、メタデータをファイル転送で受領することとして、準備は完了。現在、JSTから学会に対して、PORTAへのメタデータ提供及びPORTAから商用サイトを含めた機関への提供の許諾確認を行っている。
### 4.5. 商用サイトとの連携協力
- 電子書籍ポータルjpの統合検索(11月公開予定)
- PORTAから、jp Webサービス を利用して、hon.jpの電子書籍メタデータDBを統合検索する。冊子体資料として存在しない、「ケータイコミック」、「ケータイ小説」も検索可能となる。PORTAは、関連情報リンクで、既に商用サービスとの連携を実現しているが、統合検索先としての連携はこれが初めてのケースとなる。
### 4.6. Google,Yahoo等との連携の可能性
- 商用ポータルは、実質的なインターネット情報の入り口であり、利用者の利便性向上、サービスの役割分担の上からも、重要連携先の1つ。特定商用ポータルとの排他的な連携ではなく、等距離での連携の実現を目指して、意見交換を行っている。
- Google
- GoogleBookSearchの検索結果から、PORTA(近代デジタルライブラリー、貴重書データベース等)、及び、総合目録ネットワークへのナビゲーション、NDL蔵書のデジタル化、検索用テキスト化の可能性に関して、Google社ストラテジックパートナーディベロップメントマネージャと意見交換。(7月)。現在、日本Google社より、米国Google社に実施可能性について打診中。
- 今後、Googleが保有するデジタル化技術、検索技術等の技術移転の可能性についても意見交換することとしている。
- Yahoo
- Yahooカテゴリ分類ルール、登録されたURLを、有用なサイト・ページとして、PORTAからのナビゲーション先として、また、ウェブアーカイブでの有用なコンテンツの収集起点としての活用させていただくこと、Yahooでの検索キーワードを辞書として利用させていただく等、Yahoo検索事業部と意見交換(8月)
### 4.7. 出版社、著作者等との連携協力
- 資料の長期保存と利用の促進のために
- 当館はデジタルコンテンツを長期保存
- デジタルコンテンツの収集
- マルチユースコンテンツの原本、印刷用原本等、DRMのないもの
- 可能な限り詳細なメタデータの提供
- 資料のデジタル化
- 出版物を当館がデジタル化することの許諾
- 当館からのコンテンツ提供
- インターネット提供が許諾できない場合は、公共図書館内もしくは館内での閲覧提供まで
- 出版者のビジネス支援
- 各出版者の電子書籍作成支援
- 当館がデジタル化したコンテンツを電子出版用に提供
- 各出版者の電子書籍データベースの立上げ支援
- 当館デジタルアーカイブを利用して、出版者が販売することも検討
- 各出版者サイトへのナビゲーション
- 出版者の電子書籍データベースを、PORTAで統合検索
- 電子出版物の購読が促進されるように
- PORTAでの統合検索結果に、入手先として出版者へのリンクを表示
- 日本版「Book Rights Registry」実現の可能性
- 2008年10月、米国の著者団体と出版社団体は、Google社との和解条件の1つとして、著作権料徴収NPO「Book Rights Registry」の設立を発表した。日本国内でも似たようなシステムの整備を求める声は今後高まってくると思われるが、残念ながら現時点では、類似団体として音楽世界のJASRAC等があるが、雑誌や書籍出版業界にそのようなものはない。日本版「Book RightsRegistry」の実現に向けての制度面/法律面/技術面で問題点等を明確にしていく。
### 4.8. MLA連携
- 背景
- 文書館、博物館、図書館においては、これまで大量に蓄積されてきた過去の文化資源のデジタル化は、未だ進んでいない。
- また、デジタル化形式の標準化や、各組織・機関の作成するデータベース間の連携についても、その利活用において、多くの課題を抱えている。
- 目的
- 利用者は、所在場所を意識せず必要な資料を探せるように。
- 検索結果から各機関のDBへ案内することにより、各機関のDBの利活用が進むように。さらに来館して実物を見る利用者が増えるように。
- 状況
- 平成20年3月準備会開催
- 国立公文書館、東京国立博物館、国立情報学研究所、科学技術振興機構、慶応大学、奈良女子大、国立国会図書館
- 横断的アーカイブズ論研究会
- 平成20年度下期に、ラウンドテーブルを発足させる
- 日本国内の博物館、図書館、文書館が、館種を超えたデジタル化による仮想的なコレクションの構築を目指す。
- デジタル化の進展に係る共通の課題について、その解決に向けた協議・検討を行う。
- MLA連携のラウンドテーブルの開催前に一定の連携の実績を積んでおきたい。
- 国立美術館の「所蔵作品総合目録検索システム」(12月頃公開予定)
- 5国立美術館長会議(9月30日)にて、PORTAでの統合検索の承認が得られた。
- 国立美術館(東京国立美術館、京都国立近代美術館、国立西洋美術館、国立国際美術館)の総合目録のメタデータをハーベストする。現在、国立美術館において、メタデータ提供機能の実装作業中。(12月初旬、公開予定)
- 人間文化研究機構の「資源共有化システム」(未定)
- 人間文化研究機構内部の5研究機関(国立歴史民俗博物館、国文学研究資料館、国際日本文化研究センター、総合地球環境学研究所、国立民族学博物館)のデータベースを統合したシステムをPORTAで統合検索するもの。京都大学地域研究統合情報センター原正一郎教授を通じて、意見交換を行っている。
- 人間文化研究機構研究資源共有化事業委員会(8月)において、PORTAとの連携について、話し合われ、好意的な反応であり、人間文化研究機構側で調整を行っている。委員会において再度、議論され、原氏、東京大学史料編纂所の石上理事とで打合せを行うことになった。(10月28日、東京にて)
- OAI-PMHもしくはSRWで、DCベースのメタデータを受領可能と聞いているので、決定後、速やかに統合検索が実現できるものと思われる。
- 慶應義塾大学の「慶應義塾図書館稀覯書画像」、「慶應義塾写真データベース」、「慶應義塾図書館デジタルギャラリー」(実施時期未定)
- 各データベースは別々に構築されているものであるが、メタデータをハーベストする方法で統合検索が可能とのこと。現在、慶應義塾大学メディアセンター本部を窓口として、学内調整を行っていただいている。
- 早稲田大学の「古典籍総合データベース」(実施時期未定)
- メタデータをファイル転送していただくことで統合検索可能とのこと。現在、図書館情報管理課とメタデータのマッピングの調整を行っている。
- 東京大学の「東京大学総合研究博物館データベース」、「デジタル展示館」等(実施時期未定)
- 東京大学大学院情報学環 学環長は、前向きに検討したいとのことで、連絡あり。(10月7日)。
- 正式な依頼状を送ると共に、参加の仕方、プロセスを解説するような書類で説明する予定。それ以後、具体的な検討を開始する。(10月8日、説明資料案送付)
### 4.9. 歴史的音盤アーカイブの構築支援
- 歴史的音盤アーカイブ推進協議会(HiRAC)
- 趣意
- 文化的遺産であるSPレコード原盤が散逸・劣化し始めている
- これをデジタル化して保存し、広く国民に公開することによって、日本の文化と音楽産業界の発展に寄与する
- 対象
- SPレコード:3万タイトル(6万曲)、その他、商業用レコード以外の記録物
- HiRACメンバー
- 日本放送協会、日本音楽著作権協会(JASRAC)、日本芸能実演家団体協議会、日本伝統文化振興財団、映像産業振興機構、日本レコード協会
- 考えられる協力
- 方針
- HiRACへのオブザーバ参加
- HiRACによる音盤デジタル化の支援
- デジタル化音源の当館への納本
- NDLデジタルアーカイブからの公開 (館内、公共図書館、インターネット(?))
- オーディオアーカイブの標準規格の策定作業(JEITA)への参画
- アーカイブ及び公開用システムの構築
- デジタル化、統合検索等に関する研究開発の実装
- 著作権管理機能の研究成果の実装
### 4.10. 日中韓の国立図書館との連携
- メタデータ基準
- 保存のためのメタデータの形式は、各国の基準を尊重する。
- ・メタデータ交換は、DCベースとする。
- ・語彙等の違いは、オントロジー等による吸収を検討する
- 統合的な情報サービス
- コンテンツは3館で分散して持ち、統合検索できるようにする
- 機械翻訳は研究開発の状況をウオッチ
- 統合検索のプロトコルは、ハーベスト系(OAI-PMH、RSS)、横断検索系(SRU/SOAP、OpenSearch、OpenURL、50)のどの方法も3国とも可能
- 3国共通のポータルを立ち上げるのではなく、各国のポータルで見せていく
- まずは、歴史的資料から統合検索
- 長期保存
- DRセンターは、まず各国内で立ち上げ、その後、3国でのDRセンターの立上げを検討する。 その際は、CDNLAOでのシンガポールの提案のように国際的なDRの方向性で検討する。
- OAISはフレームワークであり、実装は各国の開発状況により異なる
- 情報パッケージの仕様は、3国とも手探り状態。まだ共通化する段階にない。
- まだ、コンテンツの交換の候補を提示する段階にない
- 情報交換
- 収集・組織化・保存及び提供機能に関する研究開発成果に関する情報
- デジタルアーカイブに関しての制度化に関する各国状況
### 4.11. World Digital Library構想との連携
- 米国議会図書館(LC)ビリントン館長が打ち出した構想
1. 2005年6月、ユネスコ米国国内委員会のユネスコ米国国内委員会で
- 貴重書など一つしかない歴史的文化遺産を,世界各地の国立図書館等と協同でデジタル化し,無料公開しようとするもの
- 当面のアクション
- WDLサイトに、テーマを特定したコンテンツを提供
- 画像データ、メタデータ、解題
## 5. PORTA
### 5.1. PORTAのAPI提供準備状況
- 「国立国会図書館デジタルアーカイブポータル(PORTA)外部提供インタフェースの提供について」(平成20年2月15日情報化推進委員会)に基づいて、平成20年3月末から、横断検索系の外部提供インタフェースは公開している。「国立国会図書館作成データベース提供方針」(国図総08071701号)により、ハーベスト系の外部提供インタフェースも含めて、商用サービス以外では、許諾手続きなしで、提供できるようになった。また、商用サービスへの提供は、許諾手続きによって行うこととなった。
- 国立情報学研究所Webcat-Plusでの近代デジタルライブラリーへのリンク(平成20年9月29日提供)
- PORTAのOAI-PMHにより、近代デジタルライブラリーのメタデータを提供することにより実現。
- 商用サイトであるjpでのmobile.hon.jpによる書籍検索(一般利用者向け)及び、hon.jpターミナルによる電子書籍出版管理サービス(電子出版社向け)(平成20年10月末提供予定)
- PORTAのOpenSearchによりISBNを提供することにより実現。
- 国立情報学研究所連想情報学研究開発センターNPO法人連想出版の「想-イマジン」での連想検索(11月提供予定)
- PORTAのOAI-PMHにより、近代デジタルライブラリー、貴重書データベース、貴重書サンプルのメタデータを提供することにより実現。
- 検索結果のXML(DC-NDL)形式での出力、及び、OAI-PMHでの出力(11月末提供予定)
- XML出力に関しては、NDL蔵書(和図書、和雑誌)のメタデータのマッピングを修正し再投入中(平成20年11月末完了予定)。
- OAI-PMHに関しては、NDL蔵書(和図書、和雑誌)以外は、先行して提供する。(10月末提供予定)
- その他
1. 広島市立図書館、神崎先生のサイト、Agropedia(農学情報資源システム)、、Ex Libris社の「MetaLib」(手続き未了)
### 5.2. PORTAの20FY開発の状況
- 全体
- PORTAシステムの開発者のスキル不足等により、多くの不具合が発見されており、開発体制を大幅に入れ替えて、不具合の解消と、サービスとして必要不可欠な機能の実装を進めている。
- 現行サービスをDAインフラに移行
- ベンダー依存のミドルウェア(全文検索ソフト、運用管理ソフト)を含めて、全てをオープンスペックのツールにする←ベンダーロックイン状態であるため、今年度開発及び運用保守の調達では、適正な競争入札ができなかった。また、開発方式がベンダー製品の性能に依存しすぎているため
- 機能及び性能の不具合の改善
- SystemWalker→hinemos(OSS)
- ハーベスト機能及びメタデータ管理機能
- ハーベストもしくは横断検索して得られたメタデータを利用して、デジタルデポジットできるようにするための仕組みの実装(有用なコンテンツのブックマーク、RSSフィードを利用して、個別にメタデータを登録する機能等)
- DP登録機能の改善(標準仕様を実装したDPは容易に登録できるようにする)
- (メタデータの精緻なマッピングは求めない)
- PostgreSQL(現行のOSSのRDBMS)
- BizSearch→Solr(OSSの全文検索エンジン)
- 横断検索機能
- 汎用モジュール化
- 関連リンク情報に関して、汎用リンクリゾルバを適用する(商用サービス)
- API提供機能
- DP毎、プロトコル毎の提供可否設定
- GUI機能
- SunJavaPortalServer(ベンダー依存のOSSであるが、オープンコミュニティのOSSに変更することはできなかった。)
- 検索機能の改善(ファセット検索等)
- ブックマーク機能の改善(はてなブックマーク等の利用)
### 5.3. PORTAの21~22年度の方向性
- 全般
- 図書館、公文書館、博物館、美術館、大学、政府機関、民間等が分散して保有しているデジタルアーカイブを統合的に検索・閲覧できるようにして、国としてのデジタルアーカイブを構築する。
- 利用者の種別ごとに検索・閲覧方法は異なる。PORTAは統合検索の方法の1つとしてのGUIを提供するが、基本的には、各DBを統合的に検索できるようにして、その機能を利用した様々な利用者向けの「入り口」が用意されるようにAPIの提供を積極的に行う。
- ポータルの1つとしての「総合ポータル」
- 一般利用者の情報探索行動の段階に応じて、必要とする検索・閲覧が、ワンストップ(たらい回して的なナビゲーションではなく、一回で検索できる形を想定)で行える環境の構築と提供が促進されるようにする。
- Google等の検索サービスで有効な情報が得られなかったときに、デジタルアーカイブ内のコンテンツを統合検索することを想定
- データプロバイダ拡大策
1. 様々な機関が分散して構築しているデジタルアーカイブが「可視化」されて、他のサービスプロバイダから統合的に利用できるように、標準APIが実装されるように働きかける。
- デジタル化、連携のための共通仕様のガイドラインの提示だけでなく、そのガイドラインに準拠したシステムモジュールを提供し、実装を支援していく。
- 成果物をOSS化して、公共図書館等へ提供していく
- サービスプロバイダ拡大策
1. それぞれの機関が提供する情報資源をより多くの人に使っていただくために、アクセスの入り口を広く多様にする。
- 利用者ニーズに応じたサービスプロバイダ(ポータル等)が的確に開設されるように、PORTAでの統合検索のAPIを広く公開する。
- 機能強化策
1. 国等の研究開発プロジェクトの成果を活用して、利用者ニーズ、技術動向を踏まえた機能を実装。
- メタデータ・コンテンツの収集・組織化・閲覧には、先進的な技術の適用が必須。それをNDLの資源で開発することは困難。
- 従来どおり、OSSをベースに開発する。
- 有用な機能モジュールが継続してリリースされ、研究開発成果も実装しやすいものをベースに構築する。
- 閲覧機能
- DAシステムの簡易検索機能はPORTAで実現(個々のコンテンツの詳細検索は、特性に応じた閲覧機能を構築する)
- 運用を効率化する機能
- DPプロバイダ追加を極力自動化したシステムの導入
- 普及啓発
- 有用なデジタルコンテンツを保有している機関に対して、広く連携を申し入れる
- 民間にしかないコンテンツ、サービスとの連携も積極的に行う
- 具体的な連携の打診内容
- 分散デジタルアーカイブを統合的に利用できるようにして国のデジタルアーカイブを構築する意義と、実施のための連携の必要性を説明
- まずは、ウェブアーカイブ/デジタルデポジットでのコンテンツを収集を打診、だめなら、PORTAでの統合検索、それもだめならDnaviでのサイトナビゲーションの実施の可能性を打診
## 6. まとめ
### 6.1. 5年程度までの方向性(クラウドコンピュータの世界の普及をイメージして)
- 過去2~3年の変化。
- Blog、wiki、SNS等で個人の情報が発信されるようになり、ソーシャルブックマーク機能で個人がタギングして情報を分類できるようになった。0でメタデータの配信、RSS2.0やatomでコンテンツの配信まで行われるようになった。
- クラウドコンピュータの世界でのサービスのイメージ(図を作成)
- 5年後には、大きなパラダイムシフトがあると想定していい
- クラウドコンピュータは、ネットワークコンピューティング、グリッドコンピューティング、SaaS(Software as a Service、Webサービス等の技術を融合させた、データセンターのようなもの。
- クラウドコンピュータ自身は、コンピュータシステムの概念であるが、共通インフラの上で稼動することになるサービスは、共通のサービスインタフェースを持つことが必然となっていく。
- 個別の組織が、単独でインフラを抱えて、情報を抱えて、サービスを提供し、利用者が、個別のサービスを利用するような形ではない
- クラウドコンピュータの世界は、単に情報を共有する世界ではなく、サービスを共有する世界になっている
- NDL自身のサービスも、このパラダイムシフトに対応していかなければ利用されなくなる。
- 0が2~3年で爆発的に普及したことを考えると、このような時代が、5年後に到来すると思われる。そのことから予測して、情報の管理の仕方、サービスのあり方を考えていく必要がある。
- クラウドコンピュータの世界で、情報と情報が情報群、サービスとサービスがサービス群、人と人がユーザ群として有機的に関連付けられていくものと思われる。
- 従来のように検索し、コンテンツを閲覧するような形から、クラウドの世界のリソースを、所在を意識せずにサービス群として利用
- 今までは、パーソナライズ、人と人の関係を活用して情報を選択してきた。また、サービスも先進的な機関が提供するWebサービスを個別に利用してきた。
- 次世代は、それに加えて、情報と情報、サービスとサービスの関係を組み合わせて、ユーザ群と情報群の多対多の関係で、より的確な情報の活用が可能になる。
- また、情報と情報、人と人、人と情報の関係を組み合わせれば、今まで見つけられなかった情報の選択が可能になる。
- このような時代には、図書館、文書館とか、博物館、美術館、民間、個人の区別なく集合が作られ、その中で、NDLは、複数のサービス群、情報群の1つとなっている。
- このような状況は、ウェブアーカイブ、ポータルサービスのあり方にも大きく影響する。当館のDAシステム、PORTAは、これらの情報発信の状況に対応したものでなければならない。
- 当館は、
- 国の情報資源を後世に残す役割と
- 現在の利用者のために、当館を収集・保存した情報資源を含めて、国の情報資源を的確に利用できるようにする役割を持つ
- 当館として、
- 情報を利用するというより、サービスを利用する時代に、どのようにして情報を収集するのか?サービスを保存することは意味がない
- また、当館のDAシステム、PORTAのシステム構築においても、それらの仕組みを取り入れていく必要がある。
- 5年後に当館を入り口としたサービスを想定しても、世の中の情報探索、情報入手の入り口として使われるものになるとは思えない。
- これらの変化に当館だけで対応することは不可能。システム構築、デジタルコレクション構築の双方ともに、関係機関との分担と協調なしでは達成し得ない。
- (当館がすべての情報アクセスの入り口になることはない)
- (有用な情報は必ずしも図書館に集約されない。図書館員が作れる有用な解題情報、レファレンス情報はほんのわずか。一般の人の集合知は、少数の専門家の知識に勝る。図書館を中心に考えた世界では利用者ニーズに応えられない)
- また、膨大な情報資源を保有する当館が、保存と利活用の両面で、先導的な役割を果たすためには、広く普及している技術やサービスを、後追いで適用する形であってはいけない。
- デジタルアーカイブシステムや統合検索システムの開発においても、当館からベンダーへの開発請負業務で行っていたり、図書館に閉じた世界でのパッケージ導入では、広く一般の利用者のニーズに応えたサービスは提供できない。
- 研究開発、技術開発の成果を活用させていただくことが重要で、それらを組み合わせて適用することが、効率的でありかつ効果的。(統合検索のAPIから、サービス連携のAPIによる連携を目指す)
- また、コレクション構築においても、当館が収集・保存できるデジタルコンテンツは、国の情報資源のごく一部。
- 公共図書館、大学図書館を含めて、MLAの各機関、民間、政府、さらに個人が持つ有用な情報を「見える化」して、各機関の持つ情報が分散データベース、分散サービスを統合して1つの巨大なデジタルアーカイブサービスとして利用できるようにしていかなければならない。
- そのためには、まず、関係機関のデータベースが相互に利用し合えるようにしていくことが重要。
### 6.2. デジタルアーカイブの今後の構築計画(想定)
- 世界レベルでの電子図書館構築の構想の一翼を担う形で、日本としてのデジタルコレクションの構築を目指していきたい。
- そのために、この線表のように、スケジュール感で進めていきたいと考えている。