今回は、キカガクで「自然言語処理の基礎 - KIKAGAKU」を学んだ。
学習内容
はじめに
- 言葉は関係性から成り立つ。
- 言葉はデータの集合である。
- 音声は波形、文字はただの点と線の集合。このごく微小の信号やシンボルが群をなすことにより、最終的に我々にとっての「意味」が形成される。
- 言葉を関係性をもったデータの集合であると考えるならば、我々はこれらの扱い方や関係性を自動で導き出す方法を知っているはず。
自然言語とは
自然言語と人工言語
自然言語(Natural Language)とは
- 私達人間が日常的に読み書きしたり、話したりするのに使っている言語のこと
- 人間によって繰り返し使われ、進化してきた言語のこと
- 自発発生的生まれた言語のこと
- 日本語、英語、中国語等
人工言語(Constructed Language)とは
- 人間によって人工的に作り出された言語のこと
- ある目的で人工的に作られた言語のこと
- エスペラント、プログラミング言語(Python、C++等)等
自然言語処理
自然言語処理とは、自然言語をコンピュータに処理させる技術・学問分野のことを指す。
自然言語処理はコンピュータによる知的な処理の代替が目標。
自然言語処理のタスクと応用技術
言語の処理・活用方法
- 機械翻訳(Machine Translation)
- 文章要約(Text Summarization)
- 自然言語生成(りんな)
- 自動要約生成(AIを活用してニュース記事を自動要約する実証実験 | マイナビニュース)
- 情報抽出
- 情報検索、検索エンジン
- 固有表現抽出
自然言語処理の基礎技術
自然言語処理の基礎技術とは、文章からより良い特徴を抽出するための根幹技術である。
基礎技術の分類
- 形態素解析
文章を単語ごとに切り分ける処理
文章のパーツ化を担うため最も重要 - 構文解析
単語の係り受けなど、修飾関係を決める処理 - 意味解析
「意味が妥当であるか」など、文章の意味を決定する処理
例:望遠鏡で泳ぐ彼女を見た - 文脈解析
複数の文について関係を決定する処理
例:入り口に男性が立っている。彼の名前は佐川だ。
機械学習を用いた自然言語処理
機械学習の本質は「データにおける自動的な特徴の抽出、関係性の構築」であるため自然言語とも相性が良い。
ニューラルネットワークは End-to-End 学習(入力変数と目的変数の直接的な結びつきの構築) ができるため、従来の基礎技術で必要だった複雑なチューニングや部分的な最適化、それらの専門知識が不要になった。