TECHNOLOGY

BERTとは?自然言語処理の新技術の仕組みや特徴とおすすめツールを紹介

 

2019年10月25日、Googleは自社の検索エンジンに最新の自然言語処理技術”BERT”を採用したと発表。英語圏を皮切りに、段階的に他の言語でのサービス提供を開始し、同年12月には日本語も含んだ世界70言語に導入されました。この記事では、そんな急速に注目を集めているBERTについて、そもそもどういう技術でどのような特徴があるのか、導入の背景や実例を踏まえてご紹介していきます。

▼更に自然言語処理について詳しく知るには?
自然言語処理とは?仕組みや活用事例もあわせて解説

▼社内のデータをAI化するには?
ノーコードAIツールUMWELT紹介ページ(活用事例あり)

BERTとは自然言語処理の新技術


Googleが検索エンジンに導入した最新自然言語処理技術であるBERTは、どのような技術なのか、また自然言語処理とは何かを解説していきます。

1.BERTとは

BERTは外来語で正式には「Bidirectional Encoder Representations from Transformers」と表記されます、これの頭文字をとってBERT。日本語では「バート」と呼ばれています。原語では非常に長い単語の組み合わせとなっていますが、これは直訳すると「変換器による双方向のエンコード表現」となります。かなり抽象的な単語なので、一見すると何をするためのものなのかがわかりにくいですが、端的にいえばBERTは検索エンジンの性能を向上させるために開発された「自然言語処理技術」の一つです。

2.自然言語処理とは

自然言語処理技術、通称NLP(Natural Language Processing)は私たち人間が使う言語をコンピューターに学習させるための技術です。この技術を応用すれば、検索エンジンなどで人間が検索している言葉を、かつてないレベルで学習し、より適切な検索結果を表示できるようになります。中でもBERTはGoogleが開発したということもあり、非常に大きな注目を集めているのです。

3.これまでの言語処理との違い

しかしながら、自然言語処理が可能なNLPはBERTだけではありません。では、BERTは従来のNLPと比べてどの点が優れているのでしょうか?最も大きな差は「文脈を理解できる」点です。BERTは人間が使う言葉の表面的な意味だけではなく、文脈に隠された意味も含めた学習が可能です。

BERT導入の背景と結果


BERTは他とは一線を画した画期的なNLPであることがおわかりいただけたかと思います。以下では、この技術が検索エンジンに導入されるに至った背景には何があったのか、加えて、それを導入することでどのような結果が期待されるのかについても解説していきます。

1.BERT導入の背景

導入の背景として挙げられる主な二つの理由は「検索クエリの多様化」と「音声検索の発達」です。スマートフォンが爆発的に普及したことで、かつてはパソコンからしかできなかった検索という行為が手元でどこでもできるようになり、それに伴って検索クエリも多様化しました。また同時に、スマートスピーカーやAIアシスタントなどの技術も発達し、検索ワードがより口語文に近くなりました。これらの理由から、人間の言語をより正確に理解することがコンピューターに求められるようになったのです。

2.BERT導入の結果

BERTを導入することで検索結果の精度は向上します。その具体的な例は「2019 brazil traveler to usa need a visa(2019年、アメリカに行くブラジル旅行者はビザが必要)」という検索ワードにあらわれています。これまで、この文を検索すると、検索エンジンは「to」の文法上の意味や前後のつながりが理解できず、アメリカ人がブラジルに旅行する際に必要な情報が出てきてしまうという状況がありました。しかし、BERTを導入したことで検索エンジンが文の意味を正しく理解できるようになり、ブラジル人がアメリカを旅する際に必要なビザの情報が表示されるようになりました。

BERTの仕組み


ここからは、BERTがどのようにして人間の言語の学習しているのか、その仕組みについて解説していきます。まず、BERTは事前学習モデルであり、入力されたラベルが付与されていない、分散表現をTransformerが処理することによって学習します。実際には、TransformerがMasked Language ModelとNext Sentence Predictionという2つの手法を同時進行で行うことで学習しています。

1.Masked Language Model

これまでの自然言語学習モデルは文章を一つの方向からしか処理できませんでした。しかしBERTは、双方向のTransformerによる学習が可能なため、目的の単語を前の文章データから予測する必要がなくなりました。これにより検索の精度が向上しました。

2.Next Sentence Prediction

Masked Language Modelでは、単語の学習はできても文単位での学習はできません。しかし、Next Sentence Predictionを活用すれば文の関係性が学習できるようになります。これにより、BERTは文章の学習も可能です。

3.転移学習(Fine-Tuning)

また、BERTは特定のタスク処理モデルに依存することなく、既存の処理モデルの前に転移学習することで自然言語処理の精度を向上できます。

BERTの特徴


では、そのBERTは自然言語処理技術としてどれだけ優れているのでしょうか?他のNPLと比較してどの点が優れているのかがわかると、より特徴が明確に見えてきます。

1.言語処理の精度が高い

他のNPLと比較してBERTが優れている点は、より深い双方向モデルという点です。例えば、ELMoやOpenAI GPTといった言語処理モデルはそれぞれ、浅い双方向モデルと単一方向モデルだったため、文の意味を正確に文脈から把握できませんでした。しかしBERTは、より高い精度で意味を読み取れます。

2.汎用性が高い

先にも述べたように、BERTは転移学習することで既存の処理モデルと接続できるため、非常に汎用性が高い点が特徴です。

3.少量の学習データで利用可能

BERTは従来のモデルとは違い、ラベルが付与されていないデータセットを処理できます。現在ではまだ、自然言語処理タスクに必要なラベルが付与されたデータセットはあまり存在しておらず、処理に必要な材料が不足していますが、BERTはラベルがないデータも処理の材料にできるため、データ不足を克服できます。

BERT導入後のSEO対策で重視されること


社内にBERTを導入した後は、ユーザーが求める良質なコンテンツを提供することと、それがユーザーの検索意図に添うようにSEO対策をとる必要があります。そこで以下では、BERTの導入後に必要なSEO対策を3つ紹介します。

1.検索意図に合った内容であること

最も意識すべき点は「ユーザーの検索意図を汲み取ること」です。ユーザーが検索している動機や解決したい問題・疑問を正確に把握することは良質なコンテンツを生み出す上で欠かせません。これらの点を考慮していないサイトはGoogleには評価されにくい傾向にあり、検索順位が下がってしまいます。

2.独自性の高いコンテンツであること

対策の2つ目は「独自性の高いコンテンツを作ること」です。他のサイトから内容をそっくりそのまま写してきたようなサイトは評価されにくく、場合によってはGoogleからペナルティを受けることもあります。競合するサイトのコピーにならないためには、自社独自の視点や考えから、ノウハウなどをふんだんに詰め込んだコンテンツを作ることが大切です。

3.誰にでも理解できる内容であること

最後は、ユーザー誰もが理解できるコンテンツであること。平易な文章を心がけることです。わかりやすい文章を書くための工夫はいくらでもありますし、そういった情報はインターネットで簡単に見つけられます。インターネットには文章を読みことに慣れている人とそうでない人がいるため、どちらの人にとっても理解しやすい文でコンテンツを制作することは多くのユーザーを集める上で大切です。

BERTの活用事例


BERTの技術は現在幅広い分野で活用されており、私たちの日常のすぐ近くにも存在しています。BERTはその汎用性の高さから、特定ドメインに特化させたドメインBERTという考え方も発展していて、業界ごとに異なる専門用語や特有の言い回しにも、十分な効果を発揮しています。以下では、BERTが実際に活用されている事例を紹介します。

1.金融

金融文書に特化させた金融版BERTも開発されています。これはNTT研究所が開発したNTT版BERTを元にNTTデータで収集した金融関連文書を学習させたモデルで、金融関連文書を処理する際に高い単語予測精度を実現するとともに、チャットボットによる問い合わせ対応や、日報からの情報抽出など、幅広い業務への展開を見据えています。

2.FAQデータ作成

株式会社サイシードは「sAI FAQ Builder」という企業内のさまざまなデータから、AIが読み取りできる形式のFAQデータを作成するサービスを提供しています。これは、ユーザーの言葉を理解し、適切な回答を自動で提示するチャットボット「sAI Chat」と、検索エンジン「sAI Search」を実装しています。

3.広告出稿

飲食業界では、リスティング広告や媒体系広告など多様な形式と価格帯の広告がありますが、それらに適切な広告費用を投入することは困難です。BERTを搭載したAIを使えば、最適な出稿パターンや予算配分を予測・最適化できるようになります。

ビジネスの現場へのAI導入はTRYETINGの「UMWELT」がおすすめ

TRYETINGのUMWELTには、自動機械学習や自動組合せ最適化など、さまざまな機能を備えるシステム構築基盤があり、機能を組み合わせることで、会社オリジナルのシステムを構築できます。システム間の連携を重視し、システムから企業全体の業務の流れを効率化したいと考えている方は、UMWELTの導入を検討してみてはいかがでしょうか。

まとめ

Googleが導入したBERTにより、検索エンジンの性能はこれからも飛躍的に向上していきます。まだ日本語圏では大きな影響は見られませんが、SEO対策おいてもこれからは一層コンテンツの質に比重をおかなくてはならなくなるでしょう。また、すでに始まっているようにBERTはWebだけに留まることなく、さまざまな企業の課題解決に対応できる汎用性を持ち合わせています。

WRITING BY

TRYETING

公式

TRYETING公式です。
お知らせやIR情報などを発信します。