MENU CLOSE

CONTACT TRY TRYETING

COLUMN コラム

機械学習

機械学習のクラスタリングとは?メリットや具体的な手法について解説

クラスタリング(clustering)とは、機械学習の1種でデータ間の類似度に基づいて、データをグループ分けする手法です。この単語は機械学習や統計学の文脈以外でも使われることが多いため、これらの分野で用いられる際にはクラスタ分析やデータ・クラスタリングと呼ばれるのが通例となっています。この記事では、機械学習や統計学の文脈でのクラスタリングの概要や分類との違い、そのメリットや具体的な手法について解説していきます。

▼更に機械学習について詳しく知るには?
【完全版】機械学習とは?解決できる課題から実例まで徹底解説

article-banner-umwelt

クラスタリングとは「データをグループ分け」すること


機械学習やデータ解析の手法としてよく知られているクラスタリング。これは「データをグループ分け」することを指す用語で、そのアルゴリズムはマーケティングからデータサーバ技術など、さまざまな分野に応用されています。以下では、クラスタリングとは具体的にどんな作業なのかや、よく混同される「分類」との差異について説明します。

1.クラスタリングとは

クラスタリングとは、データ同士の類似度に基づき、それらをグループ分けする手法を指します。また、クラスタリングによってできたグループはクラスタと呼ばれています。実際の活用例としては、販売業務などにおいて顧客情報をクラスタリングし、顧客をグループ分けすることで、特定の商品が購入されたなど、条件を満たした時にその顧客と同じグループに属する顧客にも商品をレコメンドする、といったものがあります。

2.混同されやすい「分類」との違い

クラスタリングは「データをグループ分け」するという説明から頻繁に「分類」と混同されますが、この2つはそれぞれ異なった意味の用語です。具体的には、分類は教師あり学習なので、常にどのグループに所属するかの答えをもとに学習したモデルを使い、答えが未知のデータの所属先を予測します。一方、クラスタリングは教師なしの学習で行うため、データのもとに特徴を学習した上でグループ分けをします。

3.クラスタリングの種類

クラスタリングにはハードとソフトの2種類があります。それぞれのデータが単一のグループに所属するようにグルーピングするものをハードクラスタリング、それぞれが複数のグループに所属できる余地を残してグルーピングするものをソフトクラスタリングといいます。

クラスタリングの手法を導入するメリット


クラスタリングはデータの特徴や構造を捉える手法として非常に有用であり、マーケティングをはじめとする営利活動だけでなく、天文学や考古学などのアカデミックな分野でも活用されています。以下では企業活動にクラスタリングを導入することで得られるメリットを3つ紹介します。

1.最適なターゲット市場を選定できる

マーケティングの基本的な考え方の一つにセグメンテーションがあります。これは顧客の性別や年齢、趣味、嗜好などにしたがって顧客市場を細分化することです。このようにして顧客をセグメントに分類し、自社製品に見合ったグループに訴求することは効果的なマーケティング戦略になります。そして、セグメンテーションの実施にはクラスタ分析がよく利用されます。この場合、顧客が持つどの属性をセグメンテーション変数として使うのがよいかは、分析の目的に合わせて選別する必要があります。

2.競合に対して差別化戦略を行える

新製品の企画開発や市場投入にあたって、企業はキャンペーンなどさまざまな施策を行いますが、この場合には競合他社の製品や市場の調査が不可欠です。クラスタリングはそのような分析にも応用することが可能です。分析にかけたのち、自社の新製品と他社の既存の商品が同じクラスタに分類された場合、自社製品の新規性を打ち出すなど、差別化戦略を取る必要が可視化されます。また反対にクラスタリングを行うことで、まだどの企業も参入していない、空白のマーケットを発見することも可能です。

3.効果的なテストマーケットの実施

多くの企業はマーケティング施策などを実際に投入する前段階として、少数の顧客から構成されるテストマーケットにて施策の事前評価を行うことが一般的です。それゆえ、テストマーケットの選定はマーケティング施策の成否を決める重要なプロセスです。クラスタリングはこのような場合にも応用することができます。具体的には、形成された各クラスタからテストマーケットを選出することで、それぞれのマーケット間の異質性とテストの網羅性を担保し、効果的なテストが実現できます。

階層的クラスタリングの手法


クラスタリングを行うためのアルゴリズムには、階層クラスター分析(=階層クラスタリング)と非階層クラスター分析(=非階層クラスタリング)の2種類があります。階層クラスター分析とは、集合体のデータのうち、最も似ている組み合わせから先にまとめていく階層的手法で、非階層クラスター分析を解説する前にまずはこの方法から先に解説していきます。

1.群平均法

「群平均法」は、2つのクラスターに属している対象の間のすべての組み合わせの距離を求め、それらの平均値をクラスター間の距離として定める手法です。群平均法は鎖効果を防止できるメリットがあるため、ウォード法を実行した時に起こってしまう鎖効果(1つのクラスターに対象が1つずつ吸収されていき、新しいクラスターが作られる現象)を未然に防ぐことができます。

2.ウォード法

「ウォード法」は、凝集型のクラスター分析の手法の1つで「凝集型階層的クラスタリング」とも呼ばれています。ウォード法はすでにあるクラスターの中で、1番距離の近い2つのクラスターが選ばれ、1つのクラスターに結合されていく操作を、目標のクラスター数になるまで続ける方法です。

3.最短距離法

最短距離法は単連結法とも呼ばれる、2つのクラスタ間で一番近いデータ同士の距離を、クラスタ間の距離として採用する手法です。群平均法と同様に、クラスタを構成する要素同士の距離をすべて求め、その中で一番距離の短い組み合わせを選ぶことでクラスタ間の距離として求めます。この方法のメリットはウォード法などと比較した場合に、計算量が少なくて済みますが、同時に外れ値に弱いというデメリットも抱えています。

4.最長距離法

最長距離法は上述の最短距離法とは反対に、クラスタを構成する要素同士の距離の中で最長のものをクラスタ間の距離として採用します。

非階層的クラスタリングの手法

非階層クラスタリングは、階層を作らずにデータをグルーピングしていく手法です。母集団の中で近いデータを収集し、指定された数のクラスタに分類します。この方法では階層クラスタリングとは対照的に、クラスタを形成した後で自由にクラスタを分けることができないため、事前にクラスタ数を指定する必要があります。

クラスタリングが活用できる事例


では、実際にクラスタリングが活用されているシステムにはどのようなものがあるのでしょうか?以下では具体例として「ECサイトの顧客分析」と「画像の減色処理」の2つを紹介していきます。実際の活用例を知ることで、自社に環境や抱えている課題に近いアプローチを探ってみましょう。

1.ECサイトの顧客分析

クラスタリングの有効な活用方法の一つはECサイトなどにおける、顧客分析です。CRMや広告出稿を行う際、CVRを最大化するために、最もよく使われる分析手法です。ユーザーに自社の商品を販売するにあたり、特定の属性を持つユーザーにどの施策が適切かを把握しておけば、高い効果が期待できます。

2.画像の減色処理

もう一つの活用事例は画像の減色処理です。機械学習のアルゴリズムの1つである「k-means法」を活用することで画像の代表色を指定し、減色処理を実行することで容量を削減することができます。

クラスタリングを導入したいのであればTRYETINGの「UMWELT」がおすすめ

社内システムにクラスタリングを活用した機械学習の導入を検討しているのであれば、TRYETINGの「UMWELT(ウムヴェルト)」がおすすめです。UMWELTには自動機械学習や自動組合せ最適化など、さまざまな機能を備えるシステム構築基盤があり、機能を組み合わせることで、会社オリジナルのシステムを構築できます。システム間の連携を重視し、システムから企業全体の業務の流れを効率化したいと考えている方は、UMWELTの導入を検討してみてはいかがでしょうか。

まとめ

クラスタリングはデータ分析やサーバーの構成などによく用いられます。今回紹介したクラスタリングはどちらも群れや集団という意味を連想しやすく、理解しやすい内容だったのではないでしょうか。
クラスタリングのもつ「データ間の類似度にもとづいてデータをグループ分けする」という特徴は、その活かし方次第で、さまざまな問題に応用できます。ぜひこの機会に機械学習の導入を検討してみてください。

UMWELTのサービスページをチェックする(下記画像をクリック)

article-banner-umwelt

WRITING BY

TRYETING

公式

TRYETING公式です。
お知らせやIR情報などを発信します。