TECHNOLOGY

自然言語処理におけるベクトル化とは?概要とさまざまな手法を紹介

AIや人工知能は、ビジネスだけに限らず、我々の生活にも影響を与えています。AI分野には「自然言語処理」と呼ばれる技術があります。自然言語処理は、活用することで、スマートアシスタントや自動翻訳などを可能にします。しかし、自然言語処理を活用しようと思って学習を進めているものの、ベクトル化を理解できずに苦戦している方も多いと思います。そこで今回は、自然言語処理の概要とベクトル化について解説します。

▼更に自然言語処理について詳しく知るには?
自然言語処理とは?仕組みや活用事例もあわせて解説

▼社内のデータをAI化するには?
ノーコードAIツールUMWELT紹介ページ(活用事例あり)

自然言語処理のベクトル化とは?

まずは、「自然言語」「自然言語処理」とは何かについて紹介しましょう。

自然言語と自然言語処理とは

自然言語とは、人類が互いにコミュニケーションを取ることで形成された言語を指します。日本語や英語などは自然言語です。一方で、プログラミング言語や数式などのことを人工言語と呼んでいます。これら2つの言語の違いは言葉の曖昧性であり、自然言語は曖昧さが強い言語です。一方で人工言語は、コンピュータが理解できる形であるため曖昧さが弱いのが特徴です。続いて自然言語処理は、岡田・中村(1993)によると、「自然言語処理(Natural Language Processing)とは、プログラミング言語のような人工の言語に対し、日本語や英語、ロシア語といった、人が日常話したり書いたりする言語を計算機で処理すること」とあります。昨今のAIアシスタントや機械翻訳には、この自然言語処理の技術が活用されています。

ベクトル化とは

自然言語処理におけるベクトル化とは、自然言語の単語や文をベクトルに変換することです。ベクトル化によって、単語の意味の類似性を見つけたり、特徴を獲得します

自然言語処理は難しい

自然言語処理は、コンピュータにとって難しい処理の1つとされています。難しい理由は、自然言語が数値ではないデータのためです。AIを活用するためにはシステムが処理できる形に変換し、学習しなければなりません。自然言語処理を行うためには、自然言語をルールに基づいて数値に変換し、コンピュータが処理しやすい形にしていく必要があります。

自然言語処理の活用例

自然言語処理は、機械学習を組み合わせて以下のような仕組みに活用されています。

  • 検索エンジン
  • 機械翻訳
  • 文章要約
  • AIチャットボット
  • 音声認識AI

自然言語処理のベクトル化の流れ

自然言語処理では、以下の流れに沿ってベクトル化が実施されます。

前処理1:クリーニング処理
前処理2:形態素解析
前処理3:正規化
前処理4:ストップワードの除去
ベクトル化1:単語のベクトル表現
ベクトル化2:応用処理の実施

順番に解説していきましょう。

前処理1:クリーニング処理

まずはじめは、前処理として与えられた文章のクリーニング処理を実施します。クリーニング処理では、テキスト内に含まれるJavaScriptのコードやHTMLタグなどの不要な単語を削除します。これらのコードは、インターネット上に表示させるために利用されているコードであるため、自然言語処理では一般には利用されない情報です。

前処理2:形態素解析

続いて、形態素解析によって文章を単語レベルに分割していきます。形態素解析とは、文字で表記された自然言語の文において、意味を持つ最小の言語単位に分類することです。例えば、「赤い車に乗った人」を形態素に分解するとこのようになります。

赤い 形容詞,自立,*,*,形容詞・アウオ段,基本形,赤い,アカイ,アカイ
車 名詞,一般,*,*,*,*,車,クルマ,クルマ
に 助詞,格助詞,一般,*,*,*,に,ニ,ニ
乗っ 動詞,自立,*,*,五段・ラ行,連用タ接続,乗る,ノッ,ノッ
た 助動詞,*,*,*,特殊・タ,基本形,た,タ,タ
人 名詞,一般,*,*,*,*,人,ヒト,ヒト

形態素解析ツールとしては、「MeCab」「JUMAN」「JANOME」がよく使われています。

前処理3:正規化

正規化では、表記ゆれのような同じ意味の言葉を一つの単語に統一します。例えば「Amazon」と「amazon」と「アマゾン」、全てを「amazon」に修正することを指します。

前処理4:ストップワードの除去

ストップワードとは、自然言語処理で活用できないなどの理由で処理対象外とする単語のことです。ストップワードの例としては、単語の中でも助詞や助動詞といった単体で意味を持たないものがあげられます。例えば「と」、「は」、「の」、「です」、「だ」などです。
ベクトルの計算に際し、これらを除去し、意味のある単語のみを対象とすることもあります。近年では、これらのストップワードの除去は行わずにベクトル化を行うことも珍しくありません。

ベクトル化:単語のベクトル表現

まずは、文字列である単語をベクトルに変換する処理です。ベクトル化により、単語データから数値データに変換していきます。単語をベクトルに変換するときには、Bag of Wordsや分散表現と呼ばれる方法で実施していくのです。詳しい方法については、後ほど解説します。

応用処理の実施

数値データに変換した自然言語は機械学習の入力に活用できます。具体的には、ベクトル化した自然言語を分類器に投入し、文章の分類を実施するなどです。ここで活用されるツールとしては「TensorFlow」、「scikit-learn」、「PyTorch」などがあげられます。自然言語処理に適したアルゴリズムがいくつも活用されています。

自然言語処理のベクトル化の方法

自然言語のベクトル化には、主に以下2種類の方法があります。

  • Bag of Words
  • 分散表現

Bag of Words

Bag of Wordsとは、与えられた文章の中に出現する単語の出現数を用いて、文章をベクトル化する方法です。文章の中にどれだけ単語が出現したのかに着目するため、単語や文章の並びは考慮していません。基本的には、文章の中に出現した単語の数をそのまま数値化し、数値の大きさによって重要かどうかを判断します。しかし、頻出する助詞や助動詞は単語だけでの意味を持たないため、ストップワードとして除去することで、数値が大きくても重要と判定されないようにします。

分散表現

分散表現とは、単語が持つ意味に着目してベクトル化する方法です。単語の意味をベクトル化することで、同じような意味や使われ方をする単語に近しいベクトルを与えることができる上に、単語同士の関係性もまたベクトルで表現できます。驚くべきことに、ベクトルでの表現により、単語の意味同士の加算や減算が可能です。

自然言語処理のベクトル化の手法:Bag of Words編

自然言語処理のベクトル化では、以下の手法も追加で用いられています。

  • TF-IDF
  • LSI
  • LDA

TF-IDF

TF-IDFとは「Term Frequency – Inverse Document Frequency」の略で、文書中に出現する単語の重要度を評価する手法です。もし複数の文章にたびたび出現する単語があったとすれば、レア度が低いと定めます。

LSI

LSIとは、Bag Of Wordsにおいて次元削減による分析を実施して単語行や列を減らしていく方法です。LSIを利用することで、複数の単語の類義語、多義語への対応が可能となります。

LDA

LDAは機械学習における教師なし学習の1つで、与えられた文章をクラスタリングします。クラスタリングにより、文書をトピックごとに判別可能です。

自然言語処理のベクトル化の手法:分散表現編

分散表現を実現するためには、以下の方法が活用されています。

  • Word2Vec
  • Retrofitting
  • Glove
  • FastText
  • BERT

Word2Vec

Word2vecとは、分散表現を効率的に活用するための技術およびそのツールです。Word2vecは、たった2層のニューラルネットワークのみで構成されており、処理をよりシンプルにして難易度の高さを解消しました。さらに、構造がシンプルなことで大容量のデータ処理も可能としたのです。
Word2vecは、「単語の意味とは、その周辺に現れる単語によって形成される」という大胆な仮説を基にしています。それは「犬」という単語は、その周辺に現れやすい「人」や「ペット」「飼う」「散歩」という単語と関連付けられるものである、ということです。ありとあらゆる概念を、その周辺の単語の分布のみから決定するというこの考え方によって、word2vecが驚くほどの性能を発揮したことは、大変興味深いと言えます。

Retrofitting

RetrofittingとはWordNetと呼ばれる意味辞書などを活用し、似たような意味を持った単語群を似たベクトルになるように調整していく方法です。Retrofittingは、前述したWord2Vecが苦手な対義語や多義語に強い特徴があります。

Glove

Gloveは、Word2Vecと同様に分散表現を獲得できるツールです。Word2Vecと比べて、高速かつ高性能な分散表現が特徴です。

FastText

FastTextとは、Word2Vecが課題としていた処理スピードや未知の単語への対応を可能としたFacebook開発の手法となります。FastTextは、Word2Vecと比べて処理スピードが高速化されており、未知の単語が出現しても対応が可能です。

BERT

BERTとは、Googleが開発した今最も注目を集めている手法です。単語の中には、異なる文脈上で異なる意味となる場合がありますが、BERTは文脈を考慮することで、「Apple」がりんごを意味する表現に変換するのか、テクノロジー企業を指す表現に変換するのかを決定することができます。BERTはきわめて高い単語の意味表現を獲得できることから、多くの自然言語処理のタスクにおいて高い性能を発揮しています。

ノーコードAIクラウド「UMWELT」で機械学習に触れてみよう

機械学習は、企業の業務効率化に活用していけるため、導入を進めていくのが大切です。しかし、機械学習を構築するためには専門的な知識を持った人材が必要となるため、なかなか進められないでしょう。そこでおすすめなのが、TRYETINGの開発するノーコードAIクラウド「UMWELT」です。UMWELTには多数のAIアルゴリズムが搭載されており、専門知識不要でAIを構築できます。そしてAIの導入により、高精度な分析が可能です。さらに、導入開始から運用に至るまでTRYETINGのコンサルタントが伴走するため、初めてAIツールを利用する方でも安心してご利用できます。

まとめ

自然言語処理におけるベクトル化は、単語を数値化することで処理の効率をあげていきます。自然言語処理を含め、企業で機械学習を実装するためには、専門の人材が必要となるため、なかなか導入が難しいものです。UMWELTは、大手企業からスタートアップ企業まで幅広く導入実績があり、安心して利用できる信頼性の高いサービスを提供しています。即効性が高く、低コストから始められるAIツールをお探しの方は、UMWELTの導入をぜひご検討ください。

WRITING BY

TRYETING

公式

TRYETING公式アカウントです。
お知らせやIR情報などを発信します。