IMI共通語彙基盤の背景

2016年11月18日公開
2016年11月18日最終更新

1. 相互運用性のための共通語彙の必要性

行政に関わる文書は言語(日本語)によって記されています。そこに含まれている用語は専門性の高い用語(例えば法律用語)から日常で用いられる用語まで多岐にわたり、その語数は膨大です。この膨大な用語は、それぞれの分野の必要性に応じて歴史的積み重ねによって作られている一方、専門分野の細分化、分野間での交流の薄さから、類似の用語、重複する用語、分野で意味が異なる同一語といった用語の氾濫による混乱をもたらしています。
人間が文書を読む場合は、これらの用語の混乱は読む側で整理され、多くの場合は問題がありません。しかし、文書をコンピューターで処理する場合は大きな問題となります。例えば、ある事柄を検索しようと文書のデータベースをある用語で検索した時、もしその用語と同じ意味の別の用語があるなら、検索結果は不十分になってしまいます。
これは文書だけの問題ではありません。行政に関わるデータは言語で書かれた表題、項目名をつけて生成されています。この表題や項目名においても用語の混乱が影響を及ぼします。データにおいては、データの部分的な抽出や複数のデータの統合といったデータ処理はコンピューターが行うため、用語の混乱はより影響が大きくなります。例えば、あるデータにある項目と別のデータにある項目は見た目では同じ用語で記述されていたらひとまとめにしてよいでしょうか。分野が異なれば見た目は同じでも別の意味を示す用語かもしれませんし、逆に見た目が違っても同じ意味を指す用語が他にあるかもしれません。人間であればその都度判断することもできますが、コンピューターの処理においては困難です。
このようにコンピューターが処理するということを前提におくと、これまで以上に用語の混乱は避けないといけません。

2. IMI共通語彙基盤のアプローチ

とはいえそれぞれの用語にはそれぞれの分野での必要性や由来があるわけで、単に用語を減らせばよいわけではありません。そこで、IMI共通語彙基盤ではこの用語の氾濫による混乱に対して、次のような方針でアプローチすることにしました。

2.1 共通性の高いところから始める

まず、対象としては分野を超えて使われるような事柄を中心に扱うことにします。例えば、【人】【組織】といった事柄は分野を問わず使われるものです。このような基本的な事柄を対象として語彙基盤を構築していくことにします。また、その記述においては多くの場合に当てはまるような記述を目指すことにします。

2.2 語ではなく概念

共通化する対象は事柄を指し示す概念とします。文章や表題名、項目名、項目の値などに出てくる語(言葉、単語)は概念を表現する手段と考えます。例えば、【人】という概念があったとき、文書の中で【人】を表現するときに「人間」という語を使うかもしれませんし、「人」あるいは「Person」という語を使うかもしれません。この場合、IMI共通語彙基盤では、語「人」「人間」「Person」は同じ概念【人】を指しているということで、同じ意味をもつ語と判断します。このように対応させることで、分野における用語の多様性を許容します。ただし、そうはいっても用語が不必要に多様化することは望ましくありません。このため、IMI共通語彙基盤では原則として、一つの概念には一つの語(概念の名称に対応する語)を代表的な表記として用意することで、この語を使うことを推奨します。なお、IMI共通語彙基盤では、特に混同が問題ない場合は、概念を用語と呼びます。すなわち、上の例では用語【人】は人という概念を示すもので、「人」、「人間」などと表記しています。

2.3 概念と個体

ある語を用いたとき、抽象的な事柄を示しているときと、具体的な事柄を示しているときがあります。「人には名前がある」といったときは「人」は誰かを指しているわけではなく、人という概念そのものに関しての説明となっています。一方、「前の道路で人が電柱にぶつかった」といったときには、「人」は特定の誰かを指しているのであって、人という概念に関することを説明しているわけではありません。最初の場合は言及しているのは概念、2番目の場合は個体(あるいは個別の事柄)を言及しているわけです[1]
IMI共通語彙基盤では、個体を指すときは、ある概念の具体化と考えます。「田中さん」という人物を指すときは【人】概念の一つであるというように表現します。このようにすることで、表型データ等で、どんな値が入るかを明確に指示することができます。例えば、ある表型のデータを書くとき、ある項目には参加者が入って欲しいなら、この項目の値は【人】概念の具体化であるというように指示することができます。

2.4 二つの種類の概念

対象とする概念は2種類あります。一つは【人】、【施設】、【イベント】と行った事柄(事物や出来事)に関する概念です。これをクラス概念と呼ぶことにします。クラス概念は、上で述べたように、個体を表現するときに用います。個体から見れば、その種類を示すことになります。
次に【性別】や【所有者】といった事柄の性質や事柄と事柄の関係を指し示す概念があります。これをプロパティ概念と呼ぶことにします。プロパティ概念はある事柄が特定の性質や属性をもつということを示す概念で、事柄を示す概念をその性質・属性の値を示す別の事柄や説明に結び付けます。例えば、ある人(【人】というクラス概念の具体化)は【性別】として”男”という説明に結びつけられますし、【本籍】というプロパティ概念でその人の本籍の住所(クラス概念【住所】の具体例)に結びつけられます。

2.5 個体(個別の事柄)の表現

ある個体あるいは個別の事柄を記述するときは、多くの場合、個体自体がなんであるかを示すと同時に、その個体がもつ性質も合わせて記述することが多いです。例えば、ある人物を記述するとき、その人物が【人】であることを示すと同時に、その人物の【氏名】や【性別】も記述するでしょう。この場合、【人】という事柄を示す概念(クラス概念)と【氏名】や【性別】という性質や属性を表す概念(プロパティ概念)と結びついて使っています。すなわち、ある事柄を表現するには、その事柄自身を指し示すクラス概念と性質・属性を示すプロパティ概念を組み合わせて表現することになります。
また個体(あるいは個別の事象)を一意に指し示すことができることが重要です。表形式のデータであれば、個体に当たる情報を一意に示すキーがそれに当たりますし、インターネット上であればURLがその働きをすることができます。

2.6 より具体的な概念

もう一つの概念間の関係は、継承関係です。ある概念は別の概念のより具体的なものということはよくあります。例えば、【駐車場】は【施設】の一種です。こうした関係を継承関係といいます。この場合、元の基本的な方の概念が持っている性質・属性に加えて、さらにこの概念独自の性質や属性を持っています[2]。このように概念の共通性を利用して概念を用意することで、個々の概念も理解しやすくなりますし、概念同士の関係も理解しやすくなります。

3. IMI共通語彙の表記

IMI共通語彙における用語は独自の形式で定義されますが、利用にあたっては、実際のシステムやサービスで使う言語形式に変換して用いられます。IMI共通語彙基盤では、RDF、XML及び構造化項目名(日本語シリアライズ形式)の3つの言語形式を用意しています。
RDF (Resource Description Framework)はオープンデータ等においてよく用いられる言語です。データに対する厳密な制約などは得意ではありませんが、それほど厳密な制約が要らないときや、世界中で使われているオープンデータと組み合わせて使う時には便利です。
XML(Extensible Markup Language)はシステムにおけるデータ形式の記述によく用いられる言語です。データに対する制約は書きやすく、システム間のデータ交換等においては便利です。
構造化項目名(日本語シリアライズ形式)とは、IMI共通語彙基盤での表記を日本語の文字列として表現するものです。IMI共通語彙基盤での表記は構造的な情報ですが、これを一定の表記ルールで、文字列として表現しています。表形式のデータの項目名や文章の一部として使う時に用意したものです。

4. IMI共通語彙基盤の全体の構成

IMI共通語彙基盤は2層からなります。中心となるのは、コア語彙と呼ばれるもので、最も基本的な語彙を対象としたものです。コア語彙は分野に依存せず多くの分野でよく使われるような用語を収録する語彙です。ドメイン語彙は、分野ごとに用意される語彙です。ドメイン語彙はそれぞれの分野の基礎的な用語であり、また分野を超えてもよく使われる共通性の高い用語を収録する語彙です。ドメイン語彙はコア語彙の拡張として定義されます。すなわち、コア語彙にある用語を継承して、その分野固有の用語を定義します。
さらに特定の課題やシステムで用いられる語彙を応用語彙といいます。応用語彙は、コア語彙やドメイン語彙の中の用語やこれらの語彙の用語を必要に応じて拡張した用語を用意して、その課題やシステムに必要な用語を取り揃えたものです。応用語彙に加えて、その用語の利用の仕方(制約といったもの)も含めて、応用語彙を使うための情報を取りまとめたものをDMDと呼びます。


[注]

  1. 正確にはどちらも概念で、前者を抽象概念、後者を個体概念と呼ぶのがよいのですが、簡単のため、概念と個体と呼ぶことにします。また具体化されたものが事物(物理的な存在といったもの)の場合は個体という呼称でよいのですが、事象(イベントや行為といったもの)の場合は個体という言い方が適切でないので個別の事柄と呼ぶことにします。
  2. 元の概念が持っている性質・属性を全て持っていることが継承関係の条件となっています