オープンデータ
オープンデータとは、誰でも自由に使える形で公開されているデータであり、以下のような特徴を持つ。
- オープンなライセンス(著作権)
- オープンなアクセス(入手方法)
- オープンな形式(加工方法)
オープンデータの目的はデータをオープンにすることで、新しい価値を見出してもらうところにある。
すなわち、データを保有するだけでは見つからなかった価値を、広く公開することで多くのユーザに分析してもらい、新しい発見をすることにある。
情報分析するにあたり、必ずしもオープンデータを利用する必要はない。
ただし、オープンデータは使いやすい形式で公開されており、多くのユーザが様々な手段で分析・加工を行っている。
そのため、オープンデータを理解することで、情報分析・加工の知識が深まる。
上記を踏まえ、本節では、オープンデータのライセンス、アクセス、形式の条件について説明する。
オープンデータのライセンス
オープンデータを理解するためには、ライセンスを理解する必要がある。ライセンスは、いわゆるデータを使うためのルールとも言いかえることができる。
代表的なライセンスとして、クリエイティブ・コモンズ、いわゆるCCが挙げられる。以下は CC BY 4.0 の条件が記載されたページのスクリーンショットである。
画像引用:クリエイティブ・コモンズWebサイト
この説明が示すのは、ルールを守れば、コピー、再配布、加工OKである。では、このルールは何であろうか。以下の通りである。
- クレジット、引用元を明記
- 加工した場合は、「加工した」と書く
このように、オープンデータには一般的には自由に使える形式になっているが、何らかのライセンスが付与されていることが多い。ライセンスには使用するための条件が記載されているため、オープンデータを利用する際には、ライセンスをよく確認することが求められる。
オープンデータのアクセス
基本的には、誰でもアクセスできることが求められる。
例えば、Webサイト上で公開されており、パスワードなどがかかっていないことが求められる。
そのため、以下のようなものはオープンデータに該当しない。
- お金を払わないとアクセスできない
- 申請しないとアクセスできない
- 特定の団体でないとアクセスできない
オープンデータの形式
基本的には使いやすい形式であることが求められる。
例えば、ダウンロードしたらすぐに利用できること、データがある程度整理されていること、データを閲覧するために特殊なソフトウェアが必要でないこと(テキストファイルやcsvファイルであることなど)が求められる。
特にファイルの形式はできるだけ全員が使えるような形式が必要であり、以下のことが求められる。
- 無料のソフト、多くのソフトで開ける形式(テキスト、PDFなど)
- 有料のソフトが必要な場合、できるだけたくさんの人が使っている形式(Officeなど)
オープンデータによく用いられるファイルの形式は以下のとおりである。
画像引用:オープンデータをはじめよう(内閣官房)