読者です 読者をやめる 読者になる 読者になる

Aqutras Members' Blog

株式会社アキュトラスのメンバーが、技術情報などを楽しく書いています。

辞書とコーパス

本格的に梅雨入りし、毎日のような雨に気を曇らせる今日この頃、実家の近くでは浸水が発生して、大変だという知らせを受けました。 天災ではありますが、被害にあわれた皆様には、心よりお見舞い申し上げます。 復旧にはご苦労も多いかとは存じますが、一日も早く平穏な生活に戻れますよう、心からお祈りいたします。

それでは本日も自然言語処理についてやっていきましょう、うっちーです。本日は、辞書やコーパスについて話していこうと思います。

辞書

MeCabCaboChaなどの講座で辞書というものを使ってきました。そこから分かる通り、自然言語処理における辞書とは、一般的な辞書とは違います。
一般的な辞書では基本形の語をキーとして複数の活用形などが書かれています。しかし自然言語処理における辞書は、活用形なども含めた様々な語をキーとして、その語の品詞や活用形、基本形などが登録されています。 辞書ファイルは作成することは難しいので、一般公開されている辞書を利用・拡張することが多いです。 以下は、以前にも紹介したMeCabにおける辞書の形式と例です。

表層形\t品詞,品詞細分類1,品詞細分類2,品詞細分類3,活用形,活用型,原形,読み,発音
吾輩    名詞,代名詞,一般,*,*,*,吾輩,ワガハイ,ワガハイ

辞書の参考として、過去のMeCabの講座のリンクを置いておきます。

blog.aqutras.com

コーパス

コーパスとは自然言語処理の研究において、自然言語の文章をコンピュータによる検索が可能な言語データに整形して大規模に集積したものです。 用例に基づいた文章の解析や、コーパスを学習させて文法や語の概念などのモデルの作成などに使われます。 ただのテキストが入っているだけのプレーン(平文)コーパスや、形態素解析や係り受け解析の結果などをメタデータとして付与されたタグ付きコーパス、音声データを収集した音声コーパスなどなど、いろんな種類があります。

日本で公開されているものだと、KOTONOHAと呼ばれる日本語のコーパスが代表的です。 KOTONOHAは様々な種類のデータが存在しており、検索や絞込などで欲しいコーパスを見つけることもできとても便利です。 しかし、こういった公開されているものを使う場合もありますが、用途に合わせてコーパスを自作することもあります。 しかし、コーパスを自作するのはかなり手間がかかり、その分析する対象に合わせて適切なものを収集する必要があるため、とても難しいです。

以下は、KOTONOHAで検索した結果です f:id:ucchi_in:20160629005956p:plain

おわりに

今回は、自然言語処理における辞書とコーパスについて説明しました。 自然言語処理には、特有の用語がとても多いので、今回のように自然言語処理の用語解説という回を設けていこうかなと思っています。

今日の辞書やコーパスも自然言語処理の基礎として理解しておかなければならない部分です。 基礎ばかりでなかなか退屈かもしれませんが地道に覚えていきましょう。