TECHNOLOGY

機械学習の学習方法とは?アルゴリズムや活用事例も紹介

 

機械学習の活用によって、人間では処理しきれない大量のデータ分析が可能になります。また、社内システムに機械学習の技術を導入すると、業務の効率化やコスト削減などの効果が期待できます。この記事では、機械学習の主な学習方法を紹介するとともに、さまざまなアルゴリズムについても紹介します。機械学習を自分で行いたいとお考えの方は、ぜひ参考にしてください。

▼社内のデータをAI化するには?
ノーコードAIツールUMWELT紹介ページ(活用事例あり)

▼更に機械学習について詳しく知るには?
【完全版】機械学習とは?解決できる課題から実例まで徹底解説

機械学習の基礎知識

機械学習はさまざまなシーンで目にするようになりましたが、そもそもこれはどのような技術なのでしょうか?まずは、機械学習の基礎的な知識から身につけていきましょう。

機械学習とは

機械学習は、AIの1つの要素技術であり、コンピュータに大量のデータを入力し、データに潜むパターンやルールを発見させる技術です。

AIとディープラーニングとの関係性

AIを作るための技術として機械学習があり、さらに機械学習の中には、ニューラルネットワークの手法の1つとしてディープラーニングが存在しています。ディープラーニングはニューラルネットワークを多層に渡って拡張し、学習能力を高める機械学習の1つであり、AIを構成する手法として様々な場面で用いられています。

機械学習の主な分類

機械学習には、大きく5つの種類に分けられます。そこで、機械学習のそれぞれの手法について紹介していきます。

教師あり学習

教師あり学習は、正解のデータが用意されており、正しい出力ができるように入力データの特徴やルールを学習していく手法です。教師あり学習はさらに、既存のデータをもとに、タスクごとに設定されたいくつかのクラスに識別する「分類」と、連続する値を予測する「回帰」に分けられます。

教師なし学習

教師なし学習は、正解データなしで入力したデータの特徴やルールを学習して分析する手法です。データを与えることにより、データの構造、パターンなどを抽出しながらモデルを構築していきます。代表的な教師なし学習には、似た特徴を有するものを同じクラスに分類する「クラスタリング」があります。

強化学習

“強化学習は、「環境」と「エージェント」という2つの要素からなるシステムにおいて、「エージェント」が「環境」の中で最もよく振る舞うように学習する手法です。
「環境」は、「エージェント」の行動によって与える報酬を変化させます。「エージェント」は「環境」の中で最も多く報酬が得られるような振る舞いを、試行錯誤しながら学習します。”

深層強化学習

深層強化学習は、深層学習と強化学習を組み合わせた手法です。強化学習の手法の一つであるQ学習と深層学習を組み合わせたものを、DQN(Deep Q-Network)と呼びます。Q学習では、エージェントが次に行う行動における報酬の期待値をQ関数と呼ばれるもので表現しますが、DQNではこのQ関数をニューラルネットワークで予測します。

半教師あり学習

半教師あり学習は、少数のラベルのついたデータと大量のラベルのないデータが用意された際における学習手法です。この2種類のデータによって、少数のラベルのついたデータのみの教師あり学習よりも高い性能を得るために考案されました。一般に、ラベルのついたデータを大量に用意するのは大きな時間的・金銭的コストがかかるため、少ないラベルなしデータで効率良く学習する方法として注目を浴びています。

機械学習のアルゴリズム

アルゴリズムは、コンピューターに仕事をさせるときの基盤となる計算の手順・手法です。ここからは、機械学習で頻繁に用いられるアルゴリズムについて、それぞれの内容を解説します。

サポートベクターマシン

サポートベクターマシン(SVM)とは、2つのクラスを特徴量空間上で分離する線形関数(超平面)を求めるアルゴリズムです。アルゴリズムです。少ないデータ量でも正しく分離しやすいというメリットがあります。

ロジスティック回帰

ロジスティック回帰は分類問題を解くモデルです。入力が与えられた時、その入力がどのクラスに分類されるかだけでなく、どれくらいの確率で分類されるかを出力します。例えば2クラス分類では、このモデルはある事象が発生する確率を予測し、50%より確率が大きければ、「ある事象が発生する」というクラスに分類し、そうでなければ「ある事象が発生しない」というクラスに分類します。

ランダムフォレスト

ランダムフォレストは、複数の異なる分類木でそれぞれクラスを予測させ、多数決でどのクラスへ分類するかを決定していくアルゴリズムです。人間があらかじめ決定しなければならないパラメータが少ないため、扱いが容易であるというメリットがあります。

FFNN(Feed Forward Neural Network:順伝播型ニューラルネットワーク)

FFNN(Feed Forward Neural Network:順伝播型ニューラルネットワーク)では、層は基本的に入力層、隠れ層、出力層に分けられます。データを入力層に入力し、順に値を隠れ層に伝播させ、最後に出力層に値を伝播させることで値を導出します。

ナイーブベイズ

ナイーブベイズは、分類問題を解くためのモデルで、確率論の定理であるベイズの定理を基にしています。
計算量が少なく処理が高速であるため、大規模データにも対応できる上、非常にシンプルで現実世界の複雑な問題に対してもうまく機能します。一方で、入力する特徴量が独立であると仮定しなければならないという制約があります。

主成分分析

主成分分析は、高次元の特徴量を圧縮し、二次元や三次元空間にマッピング(射影)する手法です。特徴量空間上で、遠くに存在するデータ同士は圧縮しても遠くに配置されるという特徴があり、圧縮する際にどれだけの情報が保たれたかを簡単に算出することができます。二次元や三次元空間でマッピングすれば、グラフとしてデータの分布を図示することができるので、データの可視化によく用いられます。

k近傍法

k近傍法とは、分類タスクにおいて予測したいデータに特徴が近いk個のデータの属するクラスから、データのクラスを決定するアルゴリズムです。ただし、k近傍法ではすべての要素までの距離を計算する必要があるため、データが大きくなるほど膨大な数の計算が必要となり、データ量が制限されてしまうなどの欠点があります。

k-means

k-meansは、クラスタリングという、データを性質の近い分類同士でグループ分けする手法の一つです。クラスター数を決定すると、全てのデータが決められた個数のクラスターのいずれかに属します。

RNN(Recurrent Neural Network:再帰型ニューラルネットワーク)

RNN(Recurrent Neural Network:再帰型ニューラルネットワーク)とは、ニューラルネットワークのモデルの一つです。
ネットワーク内部に再帰構造を持つという特徴があり、時系列データの解析や自然言語処理といったタスクにおいて効果を発揮します。上であげたFFNNは、特徴量は固定長でなければいけません。しかしテキストや時系列データは可変長であるため、FFNNではそのまま入力できないという課題がありました。RNNでは、可変長の入力を扱うことができるため、可変長の特徴量を固定長の特徴量に変換するためによく利用されます。

GAN(Generative Adversarial Networks:敵対的生成ネットワーク)

GAN(Generative Adversarial Networks:敵対的生成ネットワーク)は、入力されたノイズデータから新しいデータを作り出して出力する、生成モデルと呼ばれるモデルの一つです。
GANは、データを生成する「生成器」と、与えられたデータが教師データか生成データか判別する「識別器」から構成されます。生成器は、識別器を欺くように学習し、識別器は生成データを正しく判別するように敵対的に学習します。学習が進むと教師データと見紛うような出力データを生成することができるようになります。架空の人物の顔写真生成などが有名です。

CNN(Convolutional neural network:畳み込みニューラルネットワーク)

CNN(Convolutional neural network:畳み込みニューラルネットワーク)は、畳み込み層とプーリング層をもつニューラルネットワークです。
古典的なフィルタリング処理に着想を得ており、画像から特徴量を抽出するために効果的なモデルです。畳み込むためのフィルタをカーネルと呼びます。

機械学習の活用事例

アルゴリズムを紹介しただけでは、実際に機械学習がどのようにビジネスで役立っているかわかりづらいと思います。機械学習を用いた導入事例を見て、機械学習の理解を深めましょう。

チャットボット

チャットボットや、コールセンターの自動化にも機械学習は使用されています。ユーザーが入力した質問テキストをテーマ等に分類したり、自動回答を行います。主な事例として、NTTドコモが開発した『Repl-AI』が挙げられます。同アプリは、問い合わせに対応するチャットボットであり、ユーザーからの問い合わせを仕分けし、オペレーターへ引き渡すか、直接回答を行います。コールセンターでは、機械学習の音声認識技術を活用することにより、電話の自動応対が実現し、同時に多くの顧客対応を可能にしています。

レコメンド

ECサイトなどでは、顧客分析を行うことで適切なレコメンドを可能にしています。ユーザーに自社の商品を販売するにあたり、特定の属性(性格や趣味嗜好、身体的特徴なども含む)を持つユーザーにどの施策が適切かをモデルが学習します。さらに、ユーザーの属性を過去の購入履歴や閲覧履歴から予測することによって、そのユーザーが必要とするような商品をレコメンドすることができます。CRMや広告出稿を行う際、CVRを最大化するために、よく使われる手法です。

予測技術

予測技術とは、集積データを用いて未来の事象の発生や未来の値の予測をするもので、活躍の場は多岐にわたります。例えば、2020年11月、Googleは国内の新型コロナウィルス感染症の陽性者数・死亡者数を予測するサービス「COVID-19感染予測(日本版)」を開始しました。今後28日間における感染状況が、どのように推移するか予測をするものです。また、Facebook は、新型コロナウィルス感染症に罹患した患者への治療に活用できるAIモデルを開発しました。患者の容体悪化に関する予測や必要となる酸素の量などを予測します

音声認識

音声認識とは、コンピュータで音声データを処理する技術です。主には、テキストに変換して自然言語処理を行うことで、音声に対応したチャットボット技術を実現しています。AmazonやAppleなど多くの企業が、AIによるアシスタント機能が備わったスマートスピーカーを開発しています。天気予報やニュースの読み上げ、音楽、動画の再生、家電の操作まで、音声でさまざまなアクションを実行できるようになりました。

自動運転

人間の操作を必要とせずに自動で車が走行する自動運転は最も有名な機械学習の活用例です。自動車の運転は1つの小さなミスでも命に関わるため、正確で遅延のない高度な行動選択(ハンドルをどちらに回すか、アクセル・ブレーキをどれくらい踏むか等)が不可欠です。車両に搭載したAIが周辺環境のあらゆる情報を常時収集して解析し、タイムラグなく正確な判断を下し続けることで安全な運転を実現する技術が進歩を続けています。。

機械学習を効果的に活用するなら「UMWELT」がおすすめ!

社内システムに機械学習の導入を検討しているのであれば、TRYETINGのUMWELTがおすすめです。UMWELTには業務効率化に役立つ機械学習アルゴリズムが多数搭載されており、これらをレゴブロックのように自由に組み合わせることで誰でもかんたんに機械学習を実施することができます。

まとめ

機械学習は、これからのビジネスでデータに基づいた素早い意思決定を行うために必要不可欠となる技術です。現場へのAIの導入の早さが業界をリードするか否かの決め手となるでしょう。手軽にAI導入を進めたいとお考えの企業様は、TRYETINGのUMWELTを、AI導入ツールの選択肢としてぜひご検討ください。

参照文献

Repl‐AIを活用したごみ分別案内チャットボットを墨田区へ展開 |NTTドコモ(2018)
https://www.nttdocomo.co.jp/binary/pdf/corporate/technology/rd/topics/2018/topics_180730_00.pdf

COVID-19 感染予測 (日本版) の公開について|Google Cloud(2020)
https://cloud.google.com/blog/ja/products/ai-machine-learning/google-and-harvard-improve-covid-19-forecasts

WRITING BY

TRYETING

公式

TRYETING公式アカウントです。
お知らせやIR情報などを発信します。