オペレーションを進化させる
現場のWEBマガジンpowered by Bewith

データ分析の事はじめ。地味に大変すぎる「カテゴライズ」を自動化したい件。パート2

  • #アナリティクス
  • #テキストマイニング

DIGITAL

nabe

2021.04.21

前回は データ分析を任されたときに初めにぶつかる壁である「データのカテゴライズ」のうち、「既存の分類に当てはめる方法」について、お話をさせていただきました。


本日は「データのカテゴライズ」のうち「新しい分類基準」を作る方法についてお話しします。

さて、あなたの前に大量のデータがあります。
おそらく、大量のデータはいくつかのグループに分けることが可能なはずですが、その際に「何を基準にするかの”手がかり”」を見つけることが重要で、かつ難易度の高いことです。

逆にデータの内容を捉えるための”手がかり”を見つけられれば、基準を作って作業を進めることができ、作業は一気にスムーズになります。

ただ、この”手がかり”のやっかいなところは、”手がかり”はこれだけと思っていたら、データを読み進めるうちに、他の”手がかり”が見つかってしまうことです。
例えば、そこまでは4つにカテゴライズできると思っていたものが突如、毛色の違う「1つ」が増えるだけで、『あれ、はじめの方にカテゴライズしたのはあれでよかったのかな・・・?』となり、行ったり来たりの泥沼にハマってしまいます。

さて、本日はそんな泥沼にハマらなくて済むようになるかもしれない、データカテゴリの自動化を志すシリーズ第2回目、「教師なし学習」で文書分類を紹介していこうと思います。

(再掲)
===
1.既存の分類に当てはめる(前回) ⇒ ”教師あり学習”で文書分類
(特徴)すでに分類ルールが決まっている。これまでのルールに沿った文書分類がされたデータがある。
(例)「既存のFAQに新しくQ&Aを追加するときの分類先の選択」

2.新しい分類基準を作る(今回)  ⇒ ”教師なし学習”で文書分類
(特徴)分類ルールが決まっていない。大量の文章だけがある。
(例)「既存のFAQの分類を再構築したい」「新しいコンタクトセンターのFAQを作りたい」
===

『“教師なし学習”で文書分類』がどう役立つのか

前回の『“教師あり学習”で文書分類』では、高確率で既存の分類に当てはめることができるモデルを紹介しました。教師あり学習で精度の高いモデルを作るためには、大量の“正解ラベルが必要”となります。
ここが教師あり学習のデメリットであり、大変なところです。

一方で、教師なし学習は、”正解ラベルが必要なく”、文書データさえあれば学習できるというメリットがあります。

つまり、文書内の特徴を掴ませて機械に分類させた結果を”手がかり”に、分類を進めることができるのです。イメージとしては、既存のFAQの分類を再構築すると考えて頂ければと思います。

それでは実際に前回使った「livedoorニュース記事」を参考に、分類の再構築をしてみたいと思います。

・教師なし学習のデータ概要について
「livedoorニュース記事」はメディア名ごとに分類されており、各メディアの記事の中に似たような話題が書かれています。
今回はニュース記事をダウンロードしたデータを使いますが、このダウンロードしたデータの中には各記事がどのようなことが書かれているかまではわかりません。

そのため、今回はメディアから切り離して、記事をすべて集約し、記事の話題ごとに教師なし学習で分類し、カテゴライズすることを目的とします。


・どのように文書分類をするのか
今回はLDAというトピックモデルを使って、文書分類をしていきます。
このモデルを使うことで、「文書全体から、指定した数に応じて、単語に基づいたトピック(話題)を抽出」し、「入力した各文書(今回の場合であれば記事)が、どのようなトピックが書かれているかを確率で表現することができる」ようになります。

確率で表現するとは、右の図のように「記事1は“トピック_A”の話題が90%、“トピック_B”と“トピック_C”の話題が2%、“トピック_D”の話題が3%書かれている」と定量化できることを言います。

これによって、各文書の一番確率の高いトピックがわかるので、そのトピックを分類名とすることで、自動的に文書分類をすることができるようになります。


・教師なし学習の2つの弱点
大変便利な教師なし学習ですが、弱点もあります。
1つ目は、いくつのトピックに分けるか、人が決める必要があります。
2つ目は、各トピックが何を意味しているのかも、人が判断しなければいけません。

「それなら、機械に頼ってもあんまり効果がないような気が・・・」

と感じられた方もいらっしゃると思いますが、トピック数は計算をすることで絞り込むことができます。また、各トピックが何を意味しているのかは、各トピックでどのような単語が出やすいのかを可視化して確認したり、所属確率の高い文書(今回の場合であれば記事)をピックアップして確認することで、決定することができます。
そのため、手作業で文書全体を読んで、トピック数を決めるよりは効率の良いことは間違いありません。

今回は計算によってある程度絞り込んだトピック数、“4”と“6”にした結果を次から示して、各トピックがどのような内容なのかを確認していきます。

各トピックの分類名の特定(学習の結果の可視化)

各トピックの分類名(内容)の特定のために、ワードクラウドとそれぞれの記事を以下に掲載しています。

ワードクラウドについては、寄与度が高い単語ほど大きくなるように可視化しています。
今回は記事本文だと、ここでは見にくいので、所属確率の高い記事TOP5のタイトルを取得しています。(FAQの再構築であれば、Qを羅列しているイメージです。)

※以下、長いので各トピックの分類名のみ知りたい方は、次の「★」までジャンプしてください。

・『トピック数:4』の場合

(トピック_0)

  • 行間を読む 翻訳のされ方で大きく印象が変わる言葉の難しさ
  • 藤岡弘、が「髪に喝! 喝! 喝!!」
  • 世界を選んだ写真家たち!RING CUBE写真展「OVERSEAS 2012」を開催
  • 目指すはローラ!? 誰でもタメ口キャラは独女に有効か
  • フィリピンで日本人女性2人に性的暴行を加えた韓国人を逮捕 韓国ネットユーザーからは「日本は昔、同じことをやった」

結論:× 話題が多く、分類名をつけるのが難しい


(トピック_1)

  • Adobe、Android 4.1 JellyBeanに「Flash Player」を提供しないことを発表
  • au向けAndroidスマートフォン「URBANO PROGRESSO」の価格が判明!世界初スマートソニックレシーバー搭載モデルのお買得感は?
  • 【最近のオススメ「Androidアプリ」特集:2012年6月4〜10日編】
  • Webブラウザ「Firefox」がスマートフォンOSに! Mozillaの「Firefox OS」をパソコン用ビルドで試す【レポート】
  • あ“っ!お腹の調子が……トイレ!トイレ!!トイレ!!!漏らさないようにダッシュしよう「トイレダッシュ」【Androidアプリ】

結論:〇 スマートフォンに関するトピックと思われる。
⇒(分類名)スマートフォン全般


(トピック_2)

  • リボン好きにはたまらないアイテムが登場!ソフトバンクBBがスマートフォンやケースに貼って気軽にコーディネートを楽しめる超かわいいリボンシールを発売開始
  • 文化遺産を知ろう!国宝〜仏像・彫刻編「国宝仏像MAP」【Androidアプリ】
  • レシピ投稿でポイントも貯まる!毎日の献立に役立てよう「楽天レシピ」【Androidアプリ】
  • 【KDDIとHTCが協業!日本仕様のWiMAX対応au初Android 4.0搭載スマートフォン「HTC J ISW13HT」特集】
  • MS Office互換、Google IMEも使える! イザというときのUbuntu環境構築まとめ【デジ通】

結論:〇 2つ目のトピックと似ているが、アプリケーション中心か。
⇒(分類名)スマートフォンアプリ関連


(トピック_3)

  • 夢見るオトナ女子にオススメします!ドラマ『マイ・プリンセス』
  • 【終了しました】美の秘訣は“カタツムリ”!「ミシャ アクア SN クリーム」を5名様にプレゼント
  • 【終了しました】しっとりなめらかな美肌を作る「ちふれ ベースメイクセット」を3名様にプレゼント
  • 死ぬまで戦え! 『スターシップ・トゥルーパーズ』昆虫と人類の壮絶な戦いが再び
  • 【終了しました】iPhoneアプリ「リラックマTouch!」100万ダウンロード突破記念 「リラックマあつめてぬいぐるみ」を2名様にプレゼント

結論:× 話題が多く、分類名をつけるのが難しい
⇒表示しているタイトルからは、「プレゼント応募」のように見えるが、ワードクラウドを確認すると、映画に関する記事も多く入っていそう


・『トピック数:6』の場合

(トピック_0)

  • Facebookドリームから飛び出した19歳!驚くほどパワフルな写真の秘密を探る【新写真空間】
  • 考えると寝られなくなる!「念力」「滲透」「輪郭」、ドキっとする摩訶不思議な写真展【新-写真空間】
  • 自分が選んだニュースにコメントが!シェアで変わるITニュース活用法【ITニュースで目指せ情報通】
  • イベント作成や友人の紹介方法 Facebook活用のスゴ技・裏技テクニック集【知っ得!虎の巻】
  • 斬新なアート表現と生命力!フィリピンの「今」が見られる「The Hope & The Dream in Filipino - Section III」

結論:〇 SNSにアップする写真や動画などの撮影方法や、有力なアプリの紹介?
⇒(分類名)SNS映えの仕方


(トピック_1)

  • Adobe、Android 4.1 JellyBeanに「Flash Player」を提供しないことを発表
  • 本当に電話もメールもらくらく操作なの?「らくらくスマートフォン F-12D」のメール機能をチェック【レビュー】
  • NTTドコモ、Android 4.0 ICS搭載10.1インチタブレット「ELUGA live P-08D」を発表!1.2GHzデュアルコアCPUや防水、ワンセグ、NOTTV
  • アリスの世界観が素敵!クラシックなデザインの使いやすいメモアプリ「アリス メモ帳」【Androidアプリ】
  • 羊の表情がたまらない癒し系頭脳派パズルゲーム「ひつじの毛をドゥルン♪」【Androidアプリ】

結論:〇 スマートフォンに関するトピック 
⇒(分類名)スマートフォン全般


(トピック_2)

レシピ投稿でポイントも貯まる!毎日の献立に役立てよう「楽天レシピ」【Androidアプリ】
KOUZIRO、超大型21.5インチディスプレイを搭載したAndroidタブレット「FT103 21.5 SmartDisplay」を発表!34,800円で販売
ZTE、Snapdragon S4搭載のLTEスマートフォン「Grand X LTE(T82)」を発表!日本でも発売か
【最近のオススメ「Androidアプリ」特集:2012年6月11〜17日編】
KDDI、au向け「ARROWS Z ISW11F」においてWi-Fiのオフ操作を行うと再起動するなどの不具合でソフトウェア更新を提供開始

結論:〇 トピック1と似ているが、アプリケーションやソフトウェア中心か
⇒(分類名)スマートフォンアプリ関連


(トピック_3)

  • 乙女心とろけるチョコレート
  • 【終了しました】8/11公開映画『桐島、部活やめるってよ』一般試写会に25組50名様をご招待
  • 【iPhone版】新しくなった♪ Peachyアプリの使い方
  • 【終了しました】セルフメンテ&カスタム女子、急増中。『完全女子版! 自転車メンテナンスブック』を5名様にプレゼント
  • アナ スイ コスメティックスが本気を出した!? 噂の新製品&限定品をさっそくチェック

結論:〇 懸賞やプレゼント応募について?
⇒(分類名)プレゼント応募


(トピック_4)

  • “アニキ”金本、新井に厳しいもの言い。ダルにも言及
  • ロンドンで騎乗する美人お嬢様ライダー=武田麗子とは
  • 「SMAP×SMAP」出演の香川真司「先輩にもタメ口」「川島は何を言っているかわからない」
  • 長谷部やカズよりも上? 「小学生が好きなスポーツ選手」に意外な選手が
  • 【オトナ女子映画部】恋愛ドラマを2部構成にした理由とは? 『僕等がいた』後篇

結論:△ スポーツに関する単語が多いが、タイトルを見ると、スポーツ関連のワイドショー的な記事?また、映画やテレビ番組に関する記事も?
⇒(分類名)エンタメ系


(トピック_5)

  • 「好きを仕事に!」2つの仕事をもつ女性たち
  • キャリアアップを目指すなら、デスクで簡単風水しよう!
  • 欲しくなったときが適齢期? わたしたちの高齢出産
  • 【Office Scope vol.01】仕事を楽しくする「おでかけ」をイメージした快適空間(株式会社コロプラ)
  • 目指すはローラ!? 誰でもタメ口キャラは独女に有効か

結論:〇 女性向けの記事が多そうで、ハウトゥー系?
⇒(分類名)女性のお悩み相談


★分類名の結果


トピック数4と6で各トピックに、ワードクラウドとタイトルを使って、分類名をつけた結果は上記の通りです。
この2つのトピック数で比べると、すべてに分類名をつけられた、『トピック数:6』の方が、文書分類としては良い結果であると言えます。

ただ、これはあくまでも私が考えた結果なので、皆さんそれぞれが見ると、また別の分類名がついているかもしれません。
それぞれ人が決めるところなので、当然と言えば当然かもしれませんが、教師なし学習にはこういった性質があるため、冒頭に記載した「分類させた結果を”手がかり”に、分類を進める」ことが重要になってきます。

--
さて、2回にわたってお送りしました「文書分類」、いかがだったでしょうか。
それぞれをまとめる、以下のようになります。

===
・教師あり学習 文書分類
決められたルールに沿って、分類したいとき
└人間と同程度か、それ以上の精度が出る

・教師なし学習 文書分類
新しい切り口で、分類したいとき
└あくまでも、補助的な役割として使う
===

それぞれの機械学習に特徴があり、それを生かすも殺すもデータと、そのデータを何に使いたいかの目的次第です。

「文書データあるけど、どのように使えばいいかわからない」
「目的はあるが、何の文書データが必要かわからない」
などなど、お悩みあれば何なりとご相談ください。

Omnia LINK(オムニアリンク)は、クラウド型IP-PBXを基盤としたコールセンター向けトータルテレフォニーソリューションです。基本の通話・管理機能はもちろん、AIを利用した通話音声のリアルタイムテキスト化や、FAQリコメンデーションなど次世代機能を提供します。在宅コールセンターにも対応しています。

以下のようなお客様にお勧めです。
 ・オンプレ型のPBXからクラウド型に移行したい
 ・通信費や保守費用などのコストを削減したい
 ・毎月使う分だけライセンスフィーを支払いたい
 ・場所にとらわれず、電話が取れる環境を整えたい

詳しい資料は、以下からご覧いただけます。
https://www.bewith.net/gemba-driven/download/entry-126.html


関連記事