読者です 読者をやめる 読者になる 読者になる

Aqutras Members' Blog

株式会社アキュトラスのメンバーが、技術情報などを楽しく書いています。

自然言語処理と基礎技術

はじめまして、うっちーです。
私は最近自然言語処理の学習を始め、自分たちが普段何気なく使っている翻訳や検索エンジンなどに、こんな技術が使われているんだと感心しました。 そこで、皆さんにも普段意識しないところでこんなことが行われているんだというのを、少しでも知ってもらいたくてこの記事を書きました。

自然言語処理とは

自然言語処理はNLP(natural language processing)とも呼ばれ、NLPとは我々が使っている日本語のような自然言語というものをコンピュータに処理させる技術のことです。普段から、私たちは自然言語を使用していますが、それをコンピュータで処理させるには様々な技術が必要となります。

昔から検索エンジンや翻訳など様々な分野や用途で利用されていますが、最近では人工知能の対話生成などでさらに注目が集まっています。
分野や用途の一部として、以下の様なものがあります。

分野

  • 機械翻訳
  • 情報抽出
  • 機械学習
  • 意味解析
    ...etc

使用例

  • 検索エンジン
  • 言語翻訳
  • 自然要約作成
  • 質問応答システム
  • 音声認識
    ...etc

自然言語処理の基礎技術

自然言語処理の技術としては以下の様なものがあります。
例題の文章として"隣の客はよく柿食う客だ"を使います。

  • 分かち書き

文章を、語の区切りで分割すること。
日本語のような、語の間に空白がない言語では、このような処理の必要があります。 これを行うことで、コンピュータは文章を語の集合として処理することができるようになります。
これは多くの技術的処理の大前提となる、基礎中の基礎の技術です。 しかし、それだけにとても重要な技術です。

例:
f:id:ucchi_in:20160419003918p:plain

  • 形態素解析

文章を文法に基づき、形態素(意味を持つ最小単位)に分割し、品詞などの解析を行うこと。
これを行うことで、コンピュータはその語がどんな品詞で元はどんな形なのかなどを知ることができます。 形態素解析をさらに応用して何かをする場合が多いですが、これ単体でも単語の出現頻度を調べることなどが可能です。 応用例としては、構文解析や単語のベクトル表現などです。

例: 隣の客はよく柿食う客だ

品詞 基本形
名詞
助詞
名詞
助詞
よく 副詞 よく
名詞
食う 動詞 食う
名詞
助動詞
  • 構文解析・係り受け解析

文章を形態素に分けた後、修飾関係の解析を行うこと。
これによりコンピュータが、語と語の繋がりを理解することができます。 有向グラフなどを用いて、人間にも分かりやすい形式で可視化することもできます。

例:隣の客はよく柿食う客だ

f:id:ucchi_in:20160418235309j:plain

  • 意味理解

一つの単語には複数の意味がある場合があり、前後の単語や文章からその意味を推測すること。
これは、コンピュータが文章の意味を正しく理解するために必要となり、機械翻訳や対話の分野で非常に重要となります。

例:立てる

立てる
1. 縦して位置させる
2. 決意を表明する
3. 現象や作用を生じる
...

goo辞書より

http://dictionary.goo.ne.jp/

最後に

この記事を読んで、自然言語処理を知り、興味を持ってもらうことができたなら幸いです。
ぜひ皆さんも自然言語処理を!!
次回以降は、実際に自然言語処理の技術を使ったツールの導入や使い方などを紹介していこうと考えています。