共通語彙基盤を使う

2016年11月18日公開
2016年11月18日最終更新

共通語彙基盤を使うとは、オープンデータの作成・活用や他の組織とのデータ交換など外部の人や組織と間でデータをやりとりする際に、データを提供する側が共通語彙を用いてデータに意味付けし、データを利用する側が共通語彙で示された意味にしたがって、データを解釈することです。

例えば、施設のデータを公開する際、「所在地」という項目が住所を表していることは、人間であれば想像ができます。ただ、コンピューターには「所在地」=「住所」と理解できません。仮に住所であることは分かっても、どのような書式になっているのかは分かりません。人間であっても、住所であることは分かっても、この住所が施設のものなのか連絡先のものなのか曖昧です。しかし、「所在地」という項目が、共通語彙の「施設>住所」や「施設>連絡先>住所」というように、共通語彙によって意味づけしてあれば、この項目の意味も書式も明確になります。

「施設>住所」や「施設>連絡先>住所」は「IMI構造化項目名記法」という書き方で、共通語彙基盤の語彙の特定の用語を表します。「IMI構造化項目名記法」を使うと、階層構造をもつデータの位置を文字列によって表現することができます。

共通語彙基盤の導入にあたって、システムの改修や業務プロセスの大幅な変更は必要ありません。もちろん、自分で持っているだけのデータやシステムの内部での処理にも効果的に利用することができますが、先ずはオープンデータとしてのデータ公開や、外部とのデータ交換に共通語彙基盤を導入することをお勧めします。

また、導入にあたっては、一度にすべてのデータを共通語彙基盤対応する必要はなく、新たに公開するデータや共通化のニーズが高いデータなどから段階的に導入することができます。

1 データを作成する

1.1 目的・目標を明確にする

データを作成する際には、初めに目的や目標を明確にすることが大切です。目的や目標が明確になっていないと、必要なデータ項目を決める際、実際にはほとんど使用されないような項目を追加してデータ作成の負荷を高くしてしまったり、その一方で必要な項目が足りなかったというようなことが起こります。そのようなことを防ぐためには、データの活用効果や運用上の負荷などを検討し、適切に目的や目標を設定することが大切です。

1.2 対象に識別子を設定する

データ項目を決める作業の前に、もう一点大切なことがあります。それは、各施設に番号を振るなど、識別子を設定することです。ここでいう識別子とは、データ化の対象を一意に識別するための番号や文字列を指します。

データを作成する場合には、データの対象を正しく参照できるようにするために、対象物一つ一つに一意の識別子を与える必要があります。例えば、施設の一覧であれば、各施設を一意に特定するための識別子(施設番号など)が必要です。そして同一の対象を表す識別子は常に一貫していなくてはなりません。あるデータでは「3」の施設が他のデータでは「12」となっていたら、都合の悪いことが起きます。識別子に一貫性がないと、避難所のデータを作る際に、避難所となる施設を参照したいと思っても、対象の施設が「3」なのか「12」なのか分からなくなってしまいます。
また、表形式データの行番号を識別子として使用することはできません。20行目に記載された施設は、途中の行が削除されると19行目に変わるように、行番号と各施設の対応が変わってしまうからです。施設の名称や電話番号などのように、比較的変化しないものであれば、識別子として利用できないこともありません。ただ、名称や電話番号も長い間には変化しうるため、あまり推奨されません。各施設の識別子には、将来にわたって変わることがない、一意の番号や文字列を与えることが理想的です。

1.3 データ作成の手順

上記の準備ができたら、データの作成に取り掛かります。データを作成する手順は次のようになります。(共通語彙、DMD、コード・ID体系等の概要については、
「共通語彙基盤を実装するために」の各コンテンツ)を参照してください。)

  1. 既存の語彙や共通語彙基盤の整備状況を確認する
    既に表計算ソフトなどで作成したデータがある場合は、どのようなデータ項目(項目名)を使用しているかを確認します。それらのデータ項目に対応するコア語彙をコア語彙の一覧表を参照して確認しましょう。また、データの対象や項目がほぼ一致するDMDが用意されているかどうかを、「表からデータモデル」などで確認します。
  2. データ項目を整備する
    データの対象や項目がほぼ一致するDMD が既にある場合には、自分のデータとDMDの項目を比較し、DMDの項目から公開データに使うデータ項目を選択します。自分のデータに追加した方が良い項目があるかどうかなど、検討してください。一致するDMDがない場合には、データに含める項目をCSV形式などで作成したうえで、
    「表からデータモデル」を用いて、DMDを作成します(DMDの作成手順は、項目7で説明します)。
  3. データ項目の検証をする
    いくつかデータ例を入力して、データ項目に不足しているものがある場合には、追加を検討します。独自の項目は、応用語彙として追加します。
  4. 必要に応じて語彙を作成する
    このステップは必須ではありません。少数の独自の項目の追加に留まらず、対象となる分野の語彙を整備した方が良い場合もあります。この場合は、同じくその分野の語彙を開発しようとしている
    グループなどと協力し進めることによって、相互運用性の高い語彙として整備することができます。IMIでは、関係者間の情報交換や協力に基づく語彙整備活動を支援するためIMIパートナー制度を用意しています。
  5. コードやIDを整備する
    データ項目の値として、部署コードといったコードや、社員番号のようなIDを使用する場合には、コードリストやID体系を整備します。
  6. データ定義書を作成する
    各データ項目について、項目名、値の範囲や書式などをまとめたデータの定義書(アプリケーション・プロファイル)を作成します。可能であれば、構造化項目名記法による共通語彙との対応関係も定義しましょう。
    作成したデータ定義書は、関係する部署などを交えてレビューします。
  7. DMD(データモデル記述)を作成する
    「表からデータモデル」などを使用して、作成したデータ定義書にしたがって、DMDを作成します。DMDには任意のドキュメントを追加することができますので、データ定義書も忘れずに追加してください。作成したDMDを「表からデータモデル」に登録して共有するにより、そのデータを利用するアプリケーションの開発が促進されると期待できます。他の組織からも同じデータモデルにしたがってデータが公開されることにより、データとアプリケーション双方の有用性を高めることができるようになります。
  8. データの入力をする
    各データ項目の値の範囲や書式などに注意しながら、データを入力します。既に表計算ソフトなどで作成したデータがある場合には、「表からデータモデル」などで変換することにより、簡単にデータを作成できます。その際、事前に表計算ソフトなどで指定の書式に変更するなどの作業を行っておくと、変換作業がよりスムーズになります。最初からすべての情報を漏れなく入力しようとすると、入力者の負担になることがあります。まずは空欄があってもかまわないくらいの気持ちで、取り組むようにした方が良いでしょう。
  9. データを利用可能な状態にする
    共通語彙基盤の語彙を利用して意味付けされたデータは、堅牢なデータ交換に適したXML形式や、オープンデータとして2次利用しやすいRDF形式として保存することができます。また、すでにCSV形式でデータを公開している場合などは、構造化項目名記法を用いたCSV形式に変更するにより、簡単に共通語彙基盤に対応したデータとすることができます。目的に応じた適切な形式にデータを保存し、データを公開、または交換可能な状態にします。
  10. 利用を呼び掛け、フィードバックを呼びかける
    データの公開を広く告知してデータ活用を推進し、改善のためのフィードバックを呼びかけます。

2 データを利用したアプリケーションを開発する

アプリケーションを作成する場合には、データそれぞれに特化して作成するのではなく、DMDに定義されているデータモデルを対象に作成します。データモデルを対象とすることによって、そのDMDにしたがって作成されたデータの全てを処理できるようになります。また、アプリケーションが必要とするデータが一定の形式で提供されていない場合には、必要なデータモデルをDMDとして作成し、そのDMDの使用を広く呼び掛けることもできます。