オペレーションを進化させる
現場のWEBマガジンpowered by Bewith

データは語る。相関関係と因果関係で、データにストーリーを持たせよう。

  • #データ分析
  • #自然言語処理
  • #相関関係
  • #因果関係

DIGITAL

nabe

2021.12.08

今回はこれまでと少し趣向を変えまして、データ分析、特に『相関関係と因果関係』についてお話しできればと思います。

相関関係

相関関係とは、一方が増加するとき、他方が増加もしくは減少する傾向が認められるという、二つの量の関係。一方が増加するとき、他方が増加する傾向が認められるならば、それらの間には正の相関関係があるといい、減少する傾向が認められるならば、負の相関関係があると言います。(コトバンク「相関関係」より

データ分析の事はじめとして、データ同士の関係性を確認するために、相関分析を用いて、”相関関係”があるかどうかを抽出することがあります。相関関係を定量的に評価のできる相関係数は、エクセルでも”correl関数”で簡単に算出できますしね。


例えば、上記のようにAとBというデータ間の相関関係を”correl関数”を使って調べたところ、相関係数は0.71と出てきました。一般的な相関係数の評価は上右表のように評価され、このデータ間の相関の強さは『強い正の相関』があると解釈できます。

相関関係の注意点

さて、そんな相関関係ですが、上記のように“相関係数”を出して、その強さだけを見てはいません。それだけだと、罠にハマってしまう可能性があるので、以下の点を注意しましょう。

1.必ず、散布図を描画する
相関関係を考えるときには以下の2つの理由から、必ず散布図を描画するようにしましょう。

1-1.外れ値に注意
相関係数は外れ値の影響を非常に大きく受けます。


上記のデータで散布図を描画すると左上のようになります。今回のデータではあえて、外れ値を入れていました。この外れ値を抜くと、右上のような散布図となり、相関係数も「0.87」となり、より強い正の相関があることがわかります。

ただ、この外れ値は必ずしも悪いものではありません。他のデータとは違うのはそれなりの意味がある場合があります。そのため、以下のように分析を進めると、相関関係と外れ値の両方の特性を確認することができます。

  • 散布図を書いて外れ値がないか確認する。
  • 外れ値があった場合、外れ値とその他を分けて考える。
  • 外れ値のないデータで相関関係を確認し、外れ値は個別にデータを確認して外れ値になる要因の仮説を立て、検証する。

1-2.相関分析では、直線的な関係しか抽出できない
散布図を描画したときに、以下のようになった場合、2つのデータ間に何かしらの関係はありそうですが、相関件数はほぼ0となります。


そのため、相関係数だけを見ると2つともデータ間には何の関係性もないと誤って解釈してしまいます。

2.相関関係が必ずしも因果関係とはならない
相関関係から因果関係を推測することは、誤った因果を想定する危険性があるので注意が必要です。
因果関係は相関関係の一部であり、以下のような包含関係にあります。


因果関係

「Aが原因でBが結果の因果関係である」とは、次のこと満たしている必要があります。

1.時間的先行性
AはBに対して時間的に先行している必要があります。これは、原因が結果を引き起こすのであって、結果が原因を引き起こすわけではないためです。
一見当たり前に聞こえますが、この時間的先行性を確かめないまま、相関関係でしかない関係を因果関係として誤解してしまうことがあります。

2.共変関係
AとBの間に共変関係が確認されているという条件です。共変関係とは、「共に変わる」という字の通り、Aに変化があればBにも変化があり、Bに変化があればAにも変化がある、という関係を指します。
つまりは、相関関係にあるかどうかということを意味しています。

3.他の条件の同一性
第三因子とは、AとBの2つの事象それぞれを引き起こす原因となっている因子のことです。第三因子が存在すると、さもその結果である2つの事象の間に因果関係があるように思ってしまうことがあります。

相関関係と因果関係を混同しないために

この2つの関係を混同しないために、まずは定性的には以下2点を心に留めておくと良いと思います。

  1. 因果関係の3条件を意識し、起こっていることを整理する
  2. 今回お伝えしたように、「相関関係があるとは言っても、因果関係があるとは必ずしも言えない」ということを知っている

次に定量的に、という言い方が正しいのかはわかりませんが、ある相関関係が因果関係であることを統計学的に証明する方法は「統計的因果推論」という分野で確立されています。
この点についてはまた次の機会にお話しできればと思います。

自然言語処理 × 因果関係

さいごに、私の専門分野である、『自然言語処理』と因果関係について少し触れようと思います。

実は、文章、特に会話の中から因果関係を見つけ出すのは、特定の条件下では、そんなに難しくはありません。
というのも、文章や会話には「○○だから、■■」「△△なので、××」といった、因果関係を表す接続詞があるためです。
以下の例文を用いて、因果関係を表す接続詞の”単語”や”係り受け”から「原因・理由」と「結果」を抽出すると以下のようになります。


これによって、気になる「結果」に対する「原因・理由」を定量的に集計することができるようになります。

ただ、現実問題、電話対応の時に、お客様が必ず「原因・理由」言ってくれるわけではありませんよね。
「原因・理由」を知りたいのであれば、その理由を以下のようにヒアリングするようにスクリプトを変更するかと思います。


お客様:「定期購入を解約したいです」
オペレーター:『畏まりました。お手続きのため~・・・』
・・・
オペレーター:『差し支えなければ、解約の理由をお伺いしてもよろしいですか。』
お客様:「そうですね、私の肌には合わなかったです~・・・」


このことが徹底されていれば、定型句『差し支えなければ、解約の理由をお伺いしてもよろしいですか。』の後にお客様が発話している内容を集計・分析すれば、上記と同じように「原因・理由」を定量的に集計することができます。

このように、「解約の理由」をお伺いする、というスクリプトは、データの解析にも意味があるんですね。

※参考文献
・『統計的因果探索
・『調査観察データの統計科学―因果推論・選択バイアス・データ融合 (シリーズ確率と情報の科学)
・『大規模テキストコーパスを用いた因果関係の自動抽出手法

ビーウィズが提供するクラウドコンタクトセンターシステム(クラウドPBX)『Omnia LINK』は、音声認識機能を搭載し、お客様との会話のリアルタイムテキスト化をはじめ、コンタクトセンターでのAI活用を促進いたします。
コールログの残し忘れや聞き取りミスを抑止し、通話録音を聞き返す手間も省け、オペレーターの生産性を大幅に向上させます。    


詳しい資料は、以下からご覧いただけます。
https://www.bewith.net/gemba-driven/download/entry-126.html


関連記事