ジャパンサーチをご存知ですか
2021/03/23
はじめに
「ジャパンサーチ(Japan Search)」をご存知でしょうか。
ジャパンサーチは、日本にあるデジタルアーカイブをまとめて検索するためのポータル(入口)で、書籍、公文書、美術、学術資産を始めとした多く分野の連携しているデータベースを一括して検索することができます。単に Google などで検索するのと違い、本であれば書誌データを確認したり、画像のあるものであればサムネイルを見ることもでき、いろいろな分野で有効に活用することができます。
今回は、このジャパンサーチについて紹介させていただきます。
ジャパンサーチとは(その概要)
ジャパンサーチのウェブサイト[※1] によると、
ジャパンサーチは、書籍等分野、文化財分野、メディア芸術分野など、さまざまな分野のデジタルアーカイブと連携して、我が国が保有する多様なコンテンツのメタデータをまとめて検索できる「国の分野横断型統合ポータル」です。
また、ジャパンサーチが集約したメタデータを、検索以外にも、利活用しやすい形式で提供し、コンテンツの利活用を促進する基盤(プラットフォーム)としての役割も果たしています。
と紹介されています。簡単にいうと、「日本国内にあるデジタルアーカイブをまとめて検索できるポータルであり、システム」ということです。
デジタルアーカイブに関しては、内閣総理大臣を本部長とする知的財産戦略本部が毎年とりまとめている「知的財産推進計画」で推進・整備が謳われており、その利活用を担う中心的なものとしてジャパンサーチが位置付けられています。2020年度の「知的財産推進計画2020」でも、「5.コンテンツ・クリエーション・エコシステムの構築」の中に「その中で重要な情報基盤である分野横断型統合ポータルサイト『ジャパンサーチ』を通して、多様なデジタルコンテンツが、教育、学術研究、観光、地域活性化、防災、ヘルスケア、ビジネスなど様々な分野で利活用されることが期待される。」と述べられています。
上記の計画に従い、ジャパンサーチは、「デジタルアーカイブジャパン推進委員会」のもとの「デジタルアーカイブジャパン推進委員会・実務者検討委員会(事務局:内閣府知的財産戦略推進事務局)」による方針のもと、さまざまな機関との連携・協力により、国立国会図書館がシステムを開発・運用しています。
ジャパンサーチを使ってみよう
では、実際にジャパンサーチを使用してみましょう。
下記の URL にアクセスしてみてください。[※2]
一番上に「検索キーワードを入力」と書かれた検索窓があるので、「三井倉庫」と入力して窓内の虫眼鏡のアイコンをクリックします(単に “Enterキー押下”でも可)。 すると、左側に「226件見つかりました。」と表示されて、中央にその一覧が表示されます。それぞれの項目には、「所蔵」「つなぎ役」「デジタルアーカイブの名称」が表示されます。この例では、サムネイル(コンテンツの縮小画像)が公開されているものがないので、次に「三越」を検索してみましょう。
同じように検索窓に「三越」と入力して虫眼鏡をクリックします。今度は「7,803件見つかりました。」と表示され、先頭に「三越展覧会画集」が表示されます。サムネイルとして表紙の画像も表示されるので、ここをクリックしてみましょう。すると「国立国会図書館デジタルコレクション」で公開されている「三越展覧会画集」のサムネイル画像が表示されます。サムネイル画像の下にある矢印のアイコンでページ送りができますし、その下にある「収録元データベースで開く」ボタンをクリックすると国立国会図書館デジタルコレクションが開き、公開されている画像が表示されます。国立国会図書館デジタルコレクションでは、許可されているものであれば、PDFでダウンロードすることもできます。
元に戻って、個々の検索結果の右下にあるハートマークをクリックしてみましょう。すると、マイノートと呼ばれるエリアに検索結果が記録され、メモを書くこともできるようになります。何も設定せずに初めて使う時は「最初のノート」という名称のノートに記録されますが、ノートは名前を付けて複数作成することができるので、一連の検索(調査)結果をまとめて一つのノートに記録・整理しておくこともできます。また、このマイノートは、URLとパスワードを知っている人は誰でもアクセスすることができるので、ワークスペースとしてグループで共同編集することも可能です。
ジャパンサーチには、大きく分けて「探す」「楽しむ」「活かす」の3つの機能があり、「探す」では横断検索、分野別検索、西暦/和暦・日本語/ローマ字共通検索などの他、AIを利用して対象画像と似たサムネイルを探す画像検索機能もあります。「楽しむ」では電子展覧会といえるギャラリー機能で、検索しなくてもいろいろな切り口のテーマで集められたコンテンツを見ることができます。最後の「活かす」では、前述のマイノートやワークスペース機能の他、マイノートをファイルとして出力したり、Webパーツを取り出したりすることができます。また、ジャパンサーチに集められたメタデータを利用できるAPI(Application Programming Interface;他のソフトウェアから機能を利用する口)も用意されています。これらの各種機能については、紹介記事[※3] またはヘルプ機能をご参照ください。
ジャパンサーチは何を検索しているのか
今度は「カミングス」と入れて検索してみてください。先頭に藤富保男訳の「カミングス詩集」が表示されると思います。ここをクリックすると出版社や出版年月日が表示されます。さらに下方にある「すべてのメタデータを表示」ボタンをクリックすると目次や本の大きさなども表示されますが、上方にある「収録元データベースで開く」ボタンをクリックして辿っていっても、この本はデジタル化されているものの著作権保護期間中であるため、画像は公開されていません。
次に、「Cummings」で検索してみてください。今度は、作家・詩人である Edward Estlin Cummings に関しては何もヒットしませんが、他の Cummings や関連するものは 8,000件以上ヒットしていると思います。これは、「カミングス詩集」は日本で編集・出版されたもので、現在のところ翻訳ものや原語での E.E.Cummings の出版物は登録されていないこと示します。
今度は「五匹の子豚」で検索してみます。すると 9件ヒットし、DVDを含めアガサ・クリスティーの小説が2人の翻訳者でそれぞれ登録されていることがわかります。ただし「5匹の子ぶた」や英国での原題である「Five Little Pigs」、米国での書名である「Murder in Retrospect」ではこの本はヒットしません。同じような例では、「オリエント急行の殺人」ついては複数の翻訳者による複数の本が、原題である「Murder on the Orient Express」では日本で出版されている英語の本が2種類(他に翻訳本+CD、DVD)ヒットしますが、米国での書名である「Murder in the Calais Coach」では全くヒットしません。
以上の検索結果は、ジャパンサーチが、「日本国内にあるデジタルアーカイブ」の「メタデータ」を検索対象にしていることに起因しています。原語での本が登録されていなければヒットしませんし、翻訳ものでも原題(原語での書名)が登録されていなければ検索されません。また、ジャパンサーチにおける「デジタルアーカイブ」の定義[※4]からして、もともとデジタルで作成されたもの(Born Digital)やデジタル化(電子化)されたデジタルコンテンツ[※5]だけではなく、紙などのアナログ媒体のメタデータ[※6]やサムネイル[※7] も対象にしていること、著作権保護のためにコンテンツが公開されないものも対象としていることによります。
また、ジャパンサーチは、デジタルアーカイブ(2021年3月1日時点で118データベース[※8] )を保有する各アーカイブ機関(2021年3月1日時点で53機関[※9] )と直接接続されているわけではなく、「つなぎ役」[※10]と呼ばれる機関を通して接続されます。つなぎ役は、それぞれの分野や地域コミュニティのまとめ役となる重要な機関で、各アーカイブ機関からの接続を容易にするとともに、メタデータの標準化・共有化を図り、長期的なアクセスを保証する基盤を担っています。(表.1)[※11] これらの機関に接続することにより、先ほどのような検索結果を得ることができるのです。
メタデータについて
ジャパンサーチの検索対象となるメタデータは、図書館における図書目録/蔵書目録/カード目録に相当するもので、書名、著者、出版社、出版年月日、分類、保管されている書架などが記載されおり、書誌情報や書誌データとも呼ばれます。また、博物館や美術館では、目録情報/目録データと呼ばれるものが該当します。デジタルデータを対象とする場合「データについてのデータ」とも言われますが、ジャパンサーチでは、前述のとおり「コンテンツの内容、外形、所在等に関する記述…」[※6]と定義されています。
大量のデジタルデータがあった場合、そのファイル名だけで必要なものを探し出すことは困難ですが、そのファイルについての概要と所在(存在する場所のドライブ番号/メディア番号、ファイルパスやフォルダ名/ディレクトリ名とファイル名)をまとめたものがあれば、検索が容易になります。これがネットワーク上に散在するデータであれば、その所在情報(一般には URL)はさらに重要になります。このように、文書管理においてもその主体がデジタルに移行するに連れ、メタデータの果たす役割は増々重要になってきています。
メタデータの記述規則の標準にダブリンコア(Dublin Core)と呼ばれるものがあり、記述要素や語彙などが定義されています。ダブリンコアは、ウェブ上のリソースを記述する共通のメタデータ標準などを開発、促進する組織である Dublin Core Metadata Initiative によって提唱され維持管理されていますが、2003年には “ISO 15836:2003” として国際標準になり、米国では “ANSI/NISO Z39.85” として、日本でも「JIS X 0836:2005『ダブリンコアメタデータ基本記述要素集合』」として一部が規格化されています。JIS X 0836 による定義では、基本記述要素として 表.2 のものが定義されています。
おわりに
弊社は、国立国会図書館の蔵書のデジタル化に協力させていただいています。弊社でデジタル化した書籍や雑誌は、国立国会図書館デジタルコレクションの一部として公開されています。
図書館や美術館、博物館などに自由に訪問しづらい昨今、ステイホームの時間を、ジャパンサーチを通してデジタルアーカイブで楽しんでみてはいかがでしょうか。また、この機会に、文書管理におけるメタデータの重要性を顧みていただければ幸いです。
——————————————————————————
※1 https://jpsearch.go.jp/about#m4kouw162gazg
※2 ここでの説明は、2021年3月1日現在の使用結果によります。検索日によって結果は変わってくる可能性があるのでご注意ください。
※3 「ジャパンサーチついに正式版公開へ!」 国立国会図書館月報 711/712号 (2020年7/8月) pp.7~9
https://dl.ndl.go.jp/view/download/digidepo_11516814_po_geppo200708.pdf?contentNo=1#page=22
※4 「さまざまなデジタル情報資源を収集・保存・提供する仕組みの総体をいいます。デジタルアーカイブで扱うデジタル情報資源は、『デジタルコンテンツ』だけでなく、アナログ媒体の資料・作品も含む『コンテンツ』の内容や所在に関する情報を記述した『メタデータ』や、コンテンツの縮小版である『サムネイル』も対象とします。」
https://jpsearch.go.jp/about/terms
※5 「アナログ媒体の資料・作品等をデジタル化した高品質なデジタルコンテンツ、あるいはボーンデジタルの作品(デジタルカメラの写真、電子書籍等)であれば、そのデジタルコンテンツ自体を意味します。」
https://jpsearch.go.jp/about/terms
※6 「コンテンツの内容、外形、所在等に関する記述等のデータのことです。図書館における書誌データ、アーカイブ機関の収蔵品等の目録データ、文化財の基礎データ等のテキストデータやURI 参照のデータを指します。」
https://jpsearch.go.jp/about/terms
※7 「『デジタルコンテンツ』を縮小した画像のことです。ジャパンサーチの検索を通じて閲覧できる連携機関の画像(IIIF対応の画像を除く。)は、基本的には、サムネイルです。」
https://jpsearch.go.jp/about/terms
※8 https://jpsearch.go.jp/stats
※9 https://jpsearch.go.jp/organization?from=0
※10 「欧州の電子図書館ポータルサイトであるEuropeana の『アグリゲーター』、米国のポータルサイトであるDPLA(Digital Public Library of America) の『ハブ』に相当する役割・機能を果たす機関のことをいい、分野・地域コミュニティにおけるメタデータを集約し、API 等による提供を行う機関です。メタデータの標準化、用語の統制(辞書・典拠・シソーラスの管理)を行い、コミュニティにおけるメタデータ整備やデジタルコンテンツ作成への支援、長期アクセス保証のための基盤提供、活用コミュニティの形成などの役割を担います。単独の組織が担う場合もあれば、行政、NPO や大学等と分担して行う場合もあります。」
2020年8月25日の正式版公開時点で23機関
https://jpsearch.go.jp/about/terms
※11 国立国会図書館プレスリリース「ジャパンサーチ正式版の公開について」 令和2年8月25日より
※12 https://creativecommons.jp/licenses/