top of page

FAIRデータの理解と実践

  • 6 時間前
  • 読了時間: 5分

(※本記事は、mdpi.comの英文ブログ記事「Understanding and Practicing FAIR Data」 を翻訳したものです)


オープンサイエンスの重要な側面として、データをオープンにすることが挙げられます。データをオープンにすることで、再現性、アクセスのしやすさ、そして完全性が向上します。さらに、世界各地でさまざまな国や機関がオープンかつFAIRのデータ要件を導入しています。



本記事では、FAIRデータとは何か、その背後にある原則、そして研究データをFAIR原則準拠にする方法について概説します。


FAIRデータとは?


オープンデータは、すべての人が特定のデータを自由に利用、再利用、再配布できるデータのことを指します。その際に求められることは、出典の明示や同一条件での継承(改変・二次利用して作成した作品も、元の作品と同じライセンスで公開すること)程度です。


オープンデータには、透明性の向上、協力の促進、イノベーションの促進などの利点があります。同時に、プライバシーやセキュリティ、データリポジトリの運用負荷などの課題もあります。


FAIR原則では、データの量、複雑さ、作成速度の増加に対応するため、標準化機械可読性を強調しています。


  • 見つけやすさ: メタデータやデータは人間とコンピューターが簡単に見つけられるようにする必要があります。

  • アクセス可能性: ユーザーはデータへのアクセス方法を知る必要があります。

  • 相互運用性: データは分析、保存、処理のために他のデータやアプリケーションと統合されなければなりません。

  • 再利用性: データは明確に記述され、異なる環境で再現または組み合わせられるようにする必要があります。


FAIR原則の目標はデータの再利用を最適化することです。「FAIR/O」という略語は、データセットやデータベースがFAIR原則に準拠しオープンライセンスを持っていることを示すために用いられています。


FAIR原則


FAIR原則は、研究者がデータの共有性再利用性を確保するのに役立つものです。ボトムアップでステークホルダー主導、かつ自治的なイニシアチブにより設計されました。



以下に、FAIRの各要素が何を意味するのかを説明します。


見つけやすさ


データを活用するためには、研究者がそのデータを見つけ出せる必要があります。さらに、コンピュータもデータベースやリポジトリに保存するためにデータを見つけ出す必要があります。


これは、データに機械可読のメタデータ、つまりデータに関する情報を示すことで実現されます。


データはグローバルに一意で永続的な識別子(ID)が割り当てられるべきです。これにより、データに一意の名前が与えられます。デジタルオブジェクト識別子(DOI)はその代表的な例です。


メタデータにはできるだけ詳細が含まれ、データの識別子を明確かつ明示的に含め、検索可能なリソースに登録またはインデックス化されるべきです。


アクセス可能性


研究者がデータを見つけたら、それがどのようにアクセスできるかを理解する必要があります。これには認証や権限付与も含まれます。


理想的には、データは識別子で取得可能で、その後アクセス可能で自由に利用できる状態です。もしそうでない場合、例えば医療データの場合、簡単に追跡できる認証や権限付与を可能にするプロトコルが必要です。


メタデータは、データが利用できなくなった場合でもアクセス可能なままであることが求められます。


相互運用性


相互運用性とは、異なるシステムが連携し、すなわち異なるデータセットを相互運用し、統合する能力を指します。これには、アプリケーションやワークフローへのデータ統合も含まれます。


メタデータが「形式が定まっており、到達可能で、共有されていて、広く適用可能な記述言語」を使うことが重要です。


再利用性


FAIRサイトで説明されている通り、FAIRの究極の目標はデータの再利用を最適化することです。


FAIRの他の要素と同様に、メタデータが明確でアクセスしやすいことを確認することが重要です。さらに、データは明確でアクセスしやすいデータ使用ライセンスを持ち、詳細な出所を含み、コミュニティ基準を満たす必要があります。



FAIR原則に準拠する方法


資金提供者や機関が、研究から得られるデータがFAIR原則に沿っていることを要求する場合があります。以下でデータをFAIR原則準拠とするための3つのガイドをご紹介します。


チューリッヒ大学は、FAIR原則準拠であることを保証するためのリソースを提供しています。具体的には、どのようなメタデータを含めるべきか、使用できるファイルの種類、各分野でよく使われるキーワードの情報などです。


チューリッヒ大学の「FAIR原則準拠方法」はこちらをクリックしてください。


オープンサイエンスセンターも同様に、オープンサイエンスフレームワークの充実したユーザー向けのツールなど、研究者がFAIR原則準拠を実現するのに役立つ実用ガイドを提供しています。


OpenAIREは、オープンサイエンスの推進に尽力するヨーロッパの非営利団体であり、データを評価するためのチェックリストを作成しています。


OpenAIREチェックリストでは、4つの要素をそれぞれ4つのステップに分解しています。16の基準すべてを満たすことで、データがFAIR原則準拠であることが保証されます。FAIRデータの基本に慣れたら、最終チェックリストとして使うのが理想的です。


注目すべき重要なポイントは、データが永続的な識別子を有すること、メタデータが豊富で正確にデータを記述していること、そしてデータが明確に定義された再利用ライセンスで保存されていることです。


研究サイクル全体にわたるオープン性の確保


FAIRデータは、データが見つけやすく、アクセス可能で、相互運用可能で、再利用可能であることを保証します。これらはすべて、データの再利用性を確保することを目的としています。FAIR原則は、増加するデータの量と複雑さに対応し、透明性と再現性を高めます。


FAIRデータはオープンサイエンスの重要な要素です。データによって支えられた世界では、それらが同じようにアクセス可能で再利用可能であることは価値があります。


関連記事「All You Need to Know About Open Accessもご参照ください。こちらの記事では、オープンアクセスへの理解を深め、最新の情報を得るのに役立つ様々なトピックを取り上げています。


bottom of page