MENU CLOSE

CONTACT TRY TRYETING

COLUMN コラム

自然言語処理

自然言語処理とは?仕組みや活用事例もあわせて解説

SiriやAlexaに代表されるAIアシスタントや、リアルタイムで他言語を翻訳できる端末などが市場に現れるようになり、人間の言語で機械を操作することが当たり前の時代になってきました。しかし、その背景には「自然言語処理(Natural Language Processing)」と呼ばれる技術が存在することをご存知でしょうか?この記事では、その自然言語処理の概要や仕組みを解説するとともに、実際の活用例を紹介していきます。

article-banner-umwelt

この記事は2021年3月8日(月)に加筆修正を行いました。

この記事の要点

     

  • 自然言語処理とは、人間の言語を機械で処理して内容を抽出することである。
  •  

  • 自然言語のしくみと解決できる課題を理解すること重要。
  •  

  • 機械翻訳や感情分析などの分野で活用事例がある。

自然言語処理とは人間の言語を機械で処理して内容を抽出すること


自然言語処理はこのように定義づけされています。

自然言語処理(Natural Language Processing)とは、プログラミング言語のような人工の言語に対し、日本語とか英語、ロシア語といった、人が日常話したり書いたりする言語を計算機で処理することを指す。
(岡田・中村.会誌「情報処理」.自然言語処理入門:1.現状と歴史を外概観しよう.1993,11,p1385-1386)

この過程から得られたデータがやがてAIアシスタントや機械翻訳に活用されるのですが、まずはこの定義から、自然言語処理を段階的に理解していきましょう。

1.自然言語

自然言語処理を理解するために、まずは自然言語が何かを解説します。自然言語とは人類が共同体を形成しながら、互いにコミュニケーションを取ることで醸成してきた言語を指します。具体的にはこの記事に使われている日本語や英語などです。自然言語とよく対比されるのはプログラミング言語です。しかし、なぜプログラミング言語は自然言語に分類されないのでしょうか?その境界線は「多義性の有無」です。自然言語の場合は比喩や符牒などがあるため、「むらさき」といった時にそれが色を指しているのか、醤油を指しているのかは文脈に依存しています。

2.自然言語処理

自然言語の多義性は、私たちの日常生活では非常に便利なもので、詩や文学などはそれを扱う芸術でもあります。しかし、それはコンピューターに指令を与えるうえでは障害になってしまいます。なぜなら、基本的にコンピューターは与えられた入力に対して限られた出力しか返すことができないからです。これまでにインターネット上にある自動翻訳サービスなどを使ったことがある方には、その事実は端的に理解できるはずです。自然言語処理では、自然言語を使って書かれた膨大なテキストデータを取り込み、これまで問題となっていた多義性も含めた内容を抽出することを目的にしています。

自然言語処理を導入すると解決できる課題


ここまで読んできた方が不思議に思っているのは、実際に自然言語処理を導入することでどんな利益が得られるのか?という点だと思います。以下では自然言語処理の導入で解決が期待できる課題を2つ紹介します。

1.作業効率が上がる

まず一つ目の解決が見込める課題は、作業効率の改善です。自然言語の解析がなぜ作業の効率化に貢献できるのか?あまりピンと来ない方もいると思うので、具体例をあげると、自然言語処理は私たちが普段使っているパソコンの予測変換の性能を大きく向上させます。取引先のメールから社内での連絡など、パソコンで文章を作成する際に、もし予測変換が見当違いな変換ばかり提示してきたら、仕事の効率は間違いなく下がってしまいます。

2.労働力不足を解消できる

作業効率の改善は副次的に労働力不足によって起こる問題の解決にも繋がります。ある企業では、AIを導入することでこれまでは人力で行っていた業界動向や経営判断に関するレポートの作成を自動化し、従来の10倍の効率向上を達成したことがあります。もちろん、こういった例は他にも数多くあり、業務効率を改善することで労働力をカバーするというアプローチはこれからの時代のスタンダードとなるでしょう。

自然言語処理の仕組み


では、実際に自然言語処理はどのように動作しているのでしょうか?あまり専門的なことには関心がない方もいるかもしれませんが、その仕組みを知り、より見識を深めることは自然言語処理に何ができて何ができないかを正しく判断するための材料になります。以下では自然言語処理の仕組みについて解説します。

機械可読目録とコーパス

自然言語処理は、「機械可読目録」の応用、そして「コーパス」により形付けられています。機械可読目録はMARC(machine-readable cataloging)とも表記されるもので、人間が一般的に使用する自然言語の辞書とは異なり、機械が情報を参照するためにある辞書です。コンピューターが刊行物の書誌情報を読み取れるように専用の形式に整理・記録したものが発端で、図書館などで書籍を検索するときなどに使用されています。

一方、コーパスとは言語の使用方法を記録・蓄積した文書集合のことです。例えば、特定の言語の文を単語に分割することで、コンピューターが品詞や原型、読みなどを構造的に読み取れるようになっています。これを分析することで特定の状況に合わせた言葉の選択や、特徴が把握できるようになります。近年ではコンピューターの性能の向上も相まって、従来よりも大規模なデータ量を使用した言語処理が可能になっています。

例えば、SNSです。SNS上での個人の発言や、他人とのやり取りには実際に人々がどんな言葉でコミュニケーションをとっているかが色濃く表れているため、それらを解析することでかつてないほど巨大なコーパスが作成できるようになっています。このように文章を処理する上での技術や考え方が、自然言語処理の開発にも応用されています。

自然言語処理の4つの流れ


ここからは自然言語処理が具体的に行っている4つの流れを紹介していきます。これらのステップを段階的に確認することで、AIが行っている作業の流れを理解しましょう。

1.形態素解析

初めに行われるのが形態素解析です。形態素とは言語学の用語なので、日常生活ではほとんど使用されない単語です。意味合いとしては「文字で表記された自然言語の文において、意味を持つ最小の言語単位」を指します。具体的には「赤い車に乗った人」を形態素に分解すると「赤い」「車」「に」「乗った」「人」と分けられます。これ以上分解すると、それぞれが意味をなさない音素になってしまい、形態素の定義から溢れてしまいます。形態素解析とはこれを読み取ることで、その言語に固有の「意味を含む情報」を取得し、学習することを指しています。

2.構文解析

次に行われるのは構造解析です。これは別名「係受け解析」とも呼ばれ、形態素解析で取得した単語間の関係性を解析するステップです。これを行うことで、それぞれの単語が互いにどのように作用しているかがわかるようになります。

例えば「頭が赤い魚を食べる猫」という文は「魚を食べた猫の頭が赤かったのか」それとも「猫が食べた魚の頭が赤かったのか」など、最大で6通りの解釈ができるため、独立した文としてはあまりにも曖昧で、一見してコンピューターが理解するには複雑すぎる表現です。しかし構造解析では、このような文を解析することで単語間の係り受け関係を読み取り、その言語がどのような構造をしているのかを取得します。

3.意味解析

構造を解析した後は、その文の正しい意味を解析します。それが意味解析です。先にあげた文は文脈から独立した状態で読めば、最大6通りの解釈になります。しかし、実際に会話などで用いられるときには話者の意図が存在し、その意図を正しく把握できなければ会話は成立しないため、このプロセスは非常に重要です。

意味解析をするためには、プログラムを通じてコンピューターに「意味は何か」を指令する必要があります。1つの単語に内在する複数の意味を、他の単語の関係に応じて適切に指令することで、最も相応しい解釈をコンピューターに学習させます。その過程を経て、候補となった複数の解釈から最適な意味を選択できるようにします。

4.文脈解析

最後のステップは文脈解析と呼ばれるものですが、実はこれを行うシステムは未だに実用化されていません。なぜなら文脈の解析には、文章の中に現れる形態素や単語の関係以上の隠された情報の取得を求められるからです。

例えば「あの鐘を鳴らすのはあなた」という歌謡曲がありますが、このタイトルが示している「あの鐘」とはどの鐘のことなのかは歌詞中で一切説明されないため、その情報は完全に隠されています。

正確には、その解釈は受け手に委ねられているだけなのですが、その鐘がどの鐘なのかをコンピューターに学習させることは、文を構造的に分析する以上の技術が求められることが端的にお分かりいただけると思います。

自然言語処理の活用事例を紹介

ここまで自然言語処理の概要について解説してきましたが、それを読んだだけでは私たちの日常生活にどれだけ関係しているのかが分かりにくいため、以下ではこの技術を実際に活用している例を紹介します。

1.英語の発音をチェックするAI

アプリに向かって英語を話すことで、その発音の正確さをチェックしてくれるアプリがあります。「CHIVOX」という中国が開発した英語スピーキング評価AIで、すでに世界132カ国で導入されています。アメリカ式・イギリス式英語の切り替えも可能で、チャイルドモード、ノーマルモード、ネイティブモードの3種類を用意することで自分のレベルに合わせた学習が可能です。もちろん日本でも利用できます。

2.文字変換予測AI

中国検索エンジン大手である百度が開発・運営している「Simeji」は、スマートフォン用日本語入力アプリです。このアプリはその変換精度の高さもさることながら、さまざまな新語・流行語に対応していることで人気を集めています。また、顔文字や絵文字を組み合わせた表現も豊富です。

3.検索エンジン

「BERT」は2018年10月11日にGoogleが発表した自然言語処理モデルです。冒頭で説明したように、言語処理とは一般的に大量の入力データを必要としており、特定のタスクにのみ対応しているものが一般的でした。しかし、BERTは少ない入力で複数のタスクに応用できることを強みとしています。また今後は先に取り上げた文脈解析にも取り組んでいくことを発表しており、動向から目が離せません。

4.音声対話システム

私たちにとって最も身近にある活用例は音声対話システムかもしれません。iPhoneに搭載されているSiriやGoogle Assistant、AlexaやLINE Clovaといった音声対話システムは、音声データを自然言語処理することで検索やデータ照合を行い、結果を音声データに変換してユーザーに答えるという仕組みです。

5.機械翻訳

DeepL翻訳はDeepL GmbH社が提供している基本無料機械翻訳サービスで、2017年8月に開始しました。ディープラーニング(深層学習)を軸に開発された、言語向けの人工知能システムを基にしています。2020年3月から中国語と日本語に対応し、既存の翻訳ツールより高い精度の翻訳をできることが大きな話題となりました。

6.文字起こし

Google社が提供しているGoogleドキュメントには音声入力機能が搭載されており、この機能にはGoogleが収集した莫大な言語データが活用されています。これにより、発言の文脈を理解し、音声から正確な文字起こしができるようになっています。例えば同じ「かき」というワードを音声入力したときでも「広島の牡蠣」と「和歌山の柿」ように文脈に従い、同一ワードでも別々に変換されるように開発されています。

7.感情分析

感情分析は読んでその字のごとく、入力された文にあらわれている人間の感情を分析する技術です。感情を客観的に観測するというのは非常に斬新な発想ですが、これは実際にどのような形で応用されているのでしょうか?感情分析はSNS上での発言やECサイトなどにおけるレビューの分析に用いられます。

8.顧客サービス

現在、多くの企業は顧客サポートなどの電話を録音し、その書き起こしを分析することで顧客サービスの向上を図っています。自然言語処理は、それらの音声データの分析をより効率的に進めることが可能になります。

AIをビジネスに導入したいのであればTRYETINGの「UMWELT」がおすすめ

AIを使ったビジネスに役立つのがTRYETINGの「UMWELT(ウムヴェルト)」です。UMWELTには自動機械学習や自動組合せ最適化など、さまざまな機能を備えるシステム構築基盤があり、機能を組み合わせることで、システム間の連携を重視し、企業全体の業務の流れを効率化することができます。次世代のAIを活用し、更なる成長を目指すなら、ぜひUMWELTの導入を検討してみてください。

まとめ

この記事では、自然言語処理の概要や仕組みを解説するとともに、その活用例を紹介しました。自然言語処理という普段あまり耳にしない技術が、どれだけ自分たちの日常生活のそばにあるのか、お分かりいただけたと思います。自然言語処理は翻訳や文字起こしなど、言葉を別の形式に変換するだけでなく、その変換された情報から業務の効率化や労働力不足の改善といった価値も生み出すことができる技術です。ぜひこの機会にAIを搭載したシステムの導入を検討してみてはいかがでしょうか?

UMWELTのサービスページをチェックする(下記画像をクリック)

article-banner-umwelt

WRITING BY

TRYETING

公式

TRYETING公式です。
お知らせやIR情報などを発信します。