HOME  >  研究内容  >  言語系統データ解析  >  言語系統データ解析 概要

言語系統データ解析

 世界には数千種類の言語があり、多様性に富んでいます。言語学者は,世界の諸言語の多様性の中にどのような普遍性が潜んでいるのかについて古くから探求してきています。最近では、ITを応用した研究も展開されています。

言語学者による言語データでは、普通、言語名によって言語を識別していますが、1 つの言語に、複数の名前が付いている場合がよくあります。また、言語の別名の存在や表記ゆれなどが含まれているため、言語の名前だけでは言語を識別できないケースも多いです。つまり、世界諸言語に関するデータでは言語の一意識別子が含まれていないことがあって、このことが,言語データをマッチングする際に問題となっています。

世界諸言語に関する言語データは言語数が千単位にのぼるため、手作業によって言語を特定するのは、莫大な作業量を要するうえ、専門知識も必要とするため、大変困難なことです。そこで私たちは、図1のように言語分類を木構造として扱い、異なるデータ中の言語同一性をコンピュータ自動処理によって判定することに取り組んでいます。特に、2 つの異なる学者による表形式の言語データの一方に言語コードが付けられていない場合における言語同一性の問題に焦点を当てることで、解決を図っています。

学会発表論文情報はこちら