TECHNOLOGY

機械学習の分類まとめ|アルゴリズムやできることを徹底解説!

 

機械学習では、分類したいデータにより、学習すべき方法やアルゴリズムが変わってきます。これらを知ることで、機械に学ばせるのに適切な学習方法を選択できるようになります。当記事では、機械学習における分類とアルゴリズムについて詳しく解説します。

▼更に機械学習について詳しく知るには?
【完全版】機械学習とは?解決できる課題から実例まで徹底解説

▼社内のデータをAI化するには?
ノーコードAIツールUMWELT紹介ページ(活用事例あり)

機械学習の概念


最初に、機械学習の概念について、今一度振り返ってみましょう。概念をおさらいすると、この後解説する分類やアルゴリズムが、より詳しく理解できます。

そもそも機械学習とは

機械学習とは、データを分析する手法のひとつであり、データに潜んでいるルールやパターンを、機械がみずから学習するものです。機械学習においてはデータを基により正しく予測できているかが重要とされています。データに潜んだルールを学習するだけではなく、機械みずからが学習内容に基づいた予測および判断することが求められるようになっています。

AIやディープラーニングとの関係

AIの中に機械学習が含まれ、ディープラーニングは機械学習の手法のひとつであることから、機械学習とディープラーニングは、どちらもAIを実行するための学習方法やシステムと言えます。

機械学習のメリット

機械学習が大きく注目されている理由は、短時間で大量のデータからパターンを読み取れるというメリットがあるためです。同じ作業を人力で処理しようとすると、大きなコストがかかるうえ、ヒューマンエラーが起きる可能性も高まります。機械学習では、人間が実現できないほどの短時間で、大量のデータに潜んだ正確なパターンや結果を、自動的に読み取れるのです。コンピューターの性能が上がるとともに、コンピューターの処理能力も飛躍的に向上し、さまざまな分野において必要不可欠な機能と言われるようになりました。

機械学習の学習方法は3つに分類される


コンピューターが機械学習を行う方法は、大きくは次の3つに分類されます。それぞれの特徴を見てみましょう。

教師あり学習

正解を意味する教師データを入力したのち、出力するデータが教師データに近づくように、繰り返しモデルを学習していく方法です。教師データは、教師ラベル・正解ラベル・正解データなどと呼ばれることもあります。
例えば、スズメというデータを入力で与え、コンピューターがカラスというデータを出力したとしたら、出力すべきデータはカラスであることを教えるために、繰り返し学習を行っていきます。主に、分類や回帰などに使われます。

教師なし学習

正解となる教師データを入力することなく、モデルが持つ構造や特徴を見つけながら、学習していく方法です。例えば、Google検索において、「日本」というキーワードをひとつ入れるだけで次に予測されるキーワードがいくつも表示されます。これは、今まで大量に入力されたキーワードから、次に入力が予測されるキーワードを機械が学習しているのです。教師なし学習は、主に次元削減とクラスタリングに用いられます。

強化学習

最大の報酬が得られるように、コンピューター自身が試行錯誤を繰り返しながら、最適な行動を学習する方法です。3つの学習方法の中で、人間の行動に最も近いと言えます。教師あり学習や教師なし学習と異なる最大のポイントは、事前のデータ収集やラベル付けなどが不要になる点です。強化学習の発展により、ゲーム・自動運転・ロボット制御・エレベーター制御システムなどで活用が広まっています。
他にも、少数のラベルのついたデータと大量のラベルのないデータが用意された際における学習手法である半教師あり学習や、深層学習と強化学習を組み合わせた深層強化学習が大まかな分類として挙げられます。

機械学習のアルゴリズム


機械学習では、数多くのアルゴリズムが使われています。アルゴリズムとは、簡単に言うと計算方式を指しており、適切な結果を得るには、データや解析の目的に合ったアルゴリズムの選択が重要です。ここからは、それぞれのアルゴリズムについて解説します。

サポートベクターマシン

データを2つのクラスに分類し、特徴量空間上で分離する線形関数(超平面)を求めるアルゴリズムで、教師あり学習モデルの1つです。少ないデータ量でも正しく分離しやすいメリットがあります。

ロジスティック回帰

ロジスティック回帰は分類問題を解くモデルです。与えられたデータに対し、どのクラスに分類されるかだけでなく、どれくらいの確率で分類されるかを出力します。例えば2クラス分類では、2つの要素における病気を発病する確率を予測し、50%より確率が大きければ、「病気が発病する」というクラスに分類し、そうでなければ「病気が発病しない」というクラスに分類します。

ランダムフォレスト

ランダムフォレストは、複数の異なる分類木を利用し問題を予測したあと、多数決でどのクラスへ分類するかを決定していくアルゴリズムです。人間があらかじめ決定しなければならないパラメータが少ない点がメリットです。

Feed Forward Neural Network

ニューラルネットワークとは、人間の脳神経系のニューロンから着想を得た数理モデルであるニューロンを組み合わせてネットワークを多層構造に構築したモデルです。このニューラルネットワークを巨大化・複雑化することで、デープラーニングと呼ばれるより精度の高い機械学習を行うことが可能です。
FFNN(Feed Forward Neural Network:順伝播型ニューラルネットワーク)は、入力層、隠れ層、出力層の3つの層に分類され、データを入力層に入力し、順に値を隠れ層に伝播させ、最後に出力層に値を伝播させることで予測絵を行います。

ナイーブベイズ

ナイーブベイズは、確率論の定理であるベイズの定理を基にしたモデルで、分類問題の処理に利用されます。計算量が少なく処理が高速であるため、大規模データにも対応できる上、非常にシンプルなモデルです。入力する特徴量が独立であると仮定しなければならないという制約があります。

主成分分析

主成分分析は、高次元の特徴量をより少ない指標や変数に圧縮するモデルです。特徴量空間上で、遠くに存在するデータ同士は圧縮しても遠くに配置されるという特徴があり、圧縮する際にどれだけの情報が保たれたかを簡単に算出することができます。より少ない指標や変数に圧縮することで、グラフとしてデータの分布を可視化しやすくなります。

k近傍法

k近傍法はパターン認識でよく使われます。未知のデータとあらかじめ学習したデータの距離を算出し、距離の多数決で分類を決める方法です。機械学習アルゴリズムの中でも最も単純とされている手法で、遅延学習として分類されています。

k-means

k-meansはクラスタリングの1種です。クラスタリングとは、データを性質の近い分類同士でグループ分けする手法で、クラスター数の決定により全てのデータが決められた個数のクラスターのいずれかに属します。

Recurrent Neural Network

RNN(Recurrent Neural Network:再帰型ニューラルネットワーク)とは、ニューラルネットワークのモデルの一つです。ネットワーク内部に再帰構造を持つという特徴があり、時系列データの解析や自然言語処理といったタスクにおいて効果を発揮します。上であげたFFNNは、特徴量は固定長でなければいけません。しかしテキストや時系列データは可変長であるため、FFNNではそのまま入力できないという課題がありました。RNNでは、可変長の入力を扱うことができるため、可変長の特徴量を固定長の特徴量に変換するためによく利用されます。

Generative Adversarial Networks

GAN(Generative Adversarial Networks:敵対的生成ネットワーク)は、入力されたノイズデータから新しいデータを作り出して出力する、生成モデルと呼ばれるモデルの一つです。GANは、データを生成する「生成器」と、与えられたデータが教師データか生成データか判別する「識別器」から構成されます。生成器は、識別器を欺くように学習し、識別器は生成データを正しく判別するように敵対的に学習します。学習が進むと教師データと見紛うような出力データを生成することができるようになります。架空の人物の顔写真生成などが有名です。

Convolutional Neural Network

CNN(Convolutional neural network:畳み込みニューラルネットワーク)は、畳み込み層とプーリング層をもつニューラルネットワークです。古典的なフィルタリング処理に着想を得ており、画像から特徴量を抽出するために効果的なモデルです。畳み込むためのフィルタをカーネルと呼びます。

機械学習でできること


ここまで、機械学習の分類やアルゴリズムについて解説してきました。機械学習は機能を活かして、さまざまな場面で活用されるようになっています。活用法の一例を紹介します。

システムの不正検出

先ほど紹介したように、機械学習のひとつである教師あり学習は、正解が明確である学習データを与え、コンピューターに学習させます。これにより、正解・不正解がはっきりしている問題の解決に利用できる手法です。
システムの不正検出は、機械学習でできることのひとつです。ネットオークションにおける不正取引の検出や、金融サービスにおける不正取引検知などは、私たちの生活に欠かせないシステムと言えるでしょう。

株価予測

株価の予測は、先ほど触れた教師あり学習の回帰を活用したものです。1年前から・1か月前からの株価の推移や、直近の株価データなどをコンピューターに与えると、将来の株価が予測できます。株価予測は、機械学習を含めたAIの分野でも特に進んでいる技術で、人間に代わってAIが予測することも珍しくありません。

画像認識

画像に写っているものが何であるのか、コンピューターが識別する技術を、画像認識と言います。教師あり学習によってコンピューターが学習するケースが一般的ですが、教師なし学習でも可能です。
近年では複雑な特徴を持つ画像も認識が可能となってきているため、将来へ向けてさらなる高精度のグループ分けが期待されています。

人工歯デザイン

カルフォルニア大学バークレー校と歯科先端技術研究所は、共同で人工歯をデザインするGANを開発しています。これは教師なし学習に該当しますが、GANとは、オリジナルの特徴を含んだデータを新しく作り出すことを言います。GANによる人工歯と歯科医が作成した人工歯を比較したところ、前者の方が噛み合わせが良いという結果が出ているのです。

自動運転

AIは、車の運転に欠かせない技術であり、AIによる自動運転の実現に向けて、さまざまな研究が活発に行われています。街中での運転は、信号の状態の判断や、歩行者及び自転車との衝突回避など、複雑な要素が多数ありますが、強化学習アルゴリズムを搭載した自動車であれば、少しの訓練で運転が習得できるとされています。

機械学習を導入するならノーコードAIクラウド「UMWELT」におまかせ!

自社の業務に機械学習の導入を検討されているのであれば、TRYETINGが提供しているノーコードAIクラウド「UMWELT」がおすすめです。「UMWELT」は、業務効率化に役立つ多数の機械学習のアルゴリズムが搭載されており、それらをプログラミング不要で利用可能です。現在大手からスタートアップまで、業界業種問わず多くの企業様にご利用頂いています。

まとめ

機械学習は、人間が実践できないスピードでのデータ処理が可能です。今後、より多くの場面で、機械学習の性能が発揮されていくでしょう。UMWELTは、プログラミング不要で誰でもかんたんに機械学習が利用できるAIツールです。自社にAIツールを導入したいとお考えの企業様は、ぜひ一度弊社までお問い合わせください。

WRITING BY

TRYETING

公式

TRYETING公式です。
お知らせやIR情報などを発信します。