Google Analyticsに基づくスタートアップの危険性

またしても彼らは成し遂げました。Google Analyticsによって(DropBox/Boxの代わりにGoogle Driveを、Microsoft Officeの代わりにGoogle Docsを作ったように)以前は莫大な費用がかかった分野で、ほぼ無料といってもよい企業向けソフトウェアを作りました。それは否が応でも使用せざるを得ないほど普及しています。インストールやデプロイが簡単に無料でできるだけでなく、CEOでも理解できるほどシンプルで、投資者にとってデューデリジェンスの事実上の基準になっています。しかし、ほとんどの場合、完全に間違っています。

最初に言っておきたいのは、決してGoogle Analyticsを使うなと主張しているわけではないということです。実際、私自身もGoogle Analyticsを頻繁に活用していますし、自分自身、結構なファンだなと自覚しています。この記事での私の目的は、Google Analyticsだけに基づく”データ駆動型ワークスタイル”を採っているスタートアップ創業者(もしくは採ろうとしているスタートアップ創業者になりそうな人たち)に、違った視点での考え方を伝授することです。私の業界では、Google Analyticsは絶対的な”1つの真実”というよりもむしろ、アドバイザー的なものがいろいろある中の1つと見なすべきでしょう。その理由をいくつか挙げましょう。

1: サンプリングによって大抵の消費者レポートが、非常に不正確になる

無料版のGoogle Analyticsは、年間最高15万ドル(日本語版は1,560万円)払うプレミアム版よりもはるかに人気があります。分析に必要な処理能力を抑えるためにサンプリングデータを使って、単なる定量分析よりシングルユーザの追跡を難しくしています。世論調査でインドネシア人1,500人に電話をかけ、インドネシア人のスマートフォンの利用法についてまとめたとします。もし、一般的なパターンのデータを欲しいのなら、問題なく機能するでしょうが、もし、あなたがスマートフォンユーザのニッチな市場に関するデータを探している場合や、世論調査を行ったところがたまたま同日相対的に多くのノキアユーザに電話をしていたりする場合は、実際のデータを歪曲してしまうでしょう。

さて、いいですか。これはGoogle Analyticsだけに頼っているスタートアップにとってどういう意味を持つのでしょうか? セッションやページビューのようなもっとも一般的な分析の場合、大抵は問題ないかもしれませんが、しかし、もしとても細かいデータのサブセットを欲しているのなら、あるレベルのトラフィックに達したときに、危険にさらされるでしょう。というのもGoogle Analyticsプロパティレベルでセッションが25万件を超えるとサンプリングされてしまうからです。ここに1つの例があります。

“年間のセールスチャネルのあらまし”

Google Analyticsのプロパティには企業の電子商取引サイトやブログが設定されていますが、後者がトラフィックのほとんどを受信しているとしましょう。あなたは昨年の最も重要な収入チャネルを特定するため、75万の訪問数をビューで確認します。この場合、サンプリング水準は全トラフィックの3分の1ほどとなり、50万件分(66.6%)の訪問データは全く無視することになるでしょう。事実上、これは特定のチャネルに過剰な収入が帰属される可能性があり、その他は過小評価されるということを意味します。後者のチャネルのマネージャになるのは本当にウンザリですね。

GoogleはGoogle Analyticsにおけるサンプリングが引き起こし得る結果やサンプリングの範囲について、きちんと説明しています。しかし大部分の人は、Google Analyticsの機能的な限界に気付いていないようです。私は、以下のようなことをお勧めします。

用心深くなりましょう。どのレポートがサンプリングをしていて、どれがしていないかを理解していれば、どのデータを全面的に信頼したらよいのか、どれを参考程度に見ておけばよいのかがすぐに分かるはずです。

期間でコホートを絞り込みましょう。大多数のスタートアップにとって、25万件というサンプリングの範囲が問題となるのは、四半期や年間のデータを比較するときだけです。その場合はコホートを狭めて、後でエクセルのデータを比較しましょう。

デフォルトのレポートにこだわりましょう。上で述べた問題は一般的に、データウェアハウスのような、大量かつ自動で作成されるレポートの一部としてGoogle Analyticsに頼る時の方が、オンラインでAnalyticsのアプリを見るよりも影響が大きくなる傾向があります。

2: インストールの際に大抵いつも完全に間違っている箇所がある

“テクノロジに精通した”ベンチャーキャピタルとオンラインマーケティングのコンサルタントに強く支えられたスタートアップの文化では一般に、定量的なデータを最良のデータだとみなし、定期的なデータ駆動型パフォーマンスのループと、特定の仮説に基づいた構造的最適化を導くアドホックレポートの利点を説く傾向があります。これは理論的には素晴らしいのですが(時には現実にも素晴らしいこともあるのですが)、本当にうまくいくのは、データが正しいときだけです。しかし、そんなことはめったにありません。

平均的なWordPressのブログでのインストールでは普通、正確なデータがGoogle Analyticsに報告されます。しかしウェブサイトが複雑性を増し、トラフィック数が増え、カスタムパラメータとコンバージョントラッキングに対するサイト管理者の依存度が増すと、全てが混乱し始めます。複数の大口顧客と一緒に働いた私の経験からお話しすると、月に100万以上のセッションがあるウェブサイト向けの、完全に信頼のおけるGoogle Analyticsの設定を見たことがありません。ここで、起こり得る失敗例をいくつか挙げてみましょう。

1) トラフィックの国別アトリビューション

各市場における自社のマーケティング支出とトラフィックの相関関係を把握したいですか? 素晴らしい考えですが、トラフィックが正しい国でタグ付けされていなければ、あまりいい考えとは言えません。閲覧者が多国籍企業の役員だった場合、雇用主の祖国を通ったトラフィックをルーティングするVPNにヒットするかもしれません。また、複雑なサーバのセットアップが行われた場合、国に帰属することさえなく、バージニア州アッシュバーンなどの現地データセンターからのトラフィックに見えることがあるかもしれません。

2) トラフィックのコンバージョン別アトリビューション

最高のリードやトランザクションがどこから来るのか知りたいですか? とてもいい考えですが、特定のチャネルや地理的な位置、デバイスの種類に基づく自動変換レポートで頭を悩ます前に、データは正確ではないかもしれないということを思い出してください。電子商取引企業を例に挙げると、正しい収入の種類(総収入か純収入か?)に帰属しない注文があるかもしれませんし、内部注文や間違った注文によって収入額がマイナスになり、集計されたチャネルや位置、デバイスの性能が打撃を受けるかもしれません。複数の通貨が混在していると、全く新しいレベルの問題を抱えることになるでしょう。

3) トラフィックのチャネル別アトリビューション

ほとんどの入門レベルのGoogle Analyticsレポート生成では、まずどのトラフィックチャネルがうまく機能しているかを特定し、それを内部データソースからのコストの数字と照合します。しかし、どこに帰属するのか正確に分からないデータはどうでしょうか。もし携帯電話で企業からの電子ダイレクトメールを見て、デスクトップパソコンからブランドを検索してアクセスしてきたユーザの場合、それは本当にオーガニック検索からの訪問と言えるでしょうか。”設定されていない”トラフィックは、本当にブラウザにURLを直接入力してアクセスしてきた人々でしょうか? それとも暗号化が不完全なモバイルデバイスのブラウザからアクセスされたタグ付けできないトラフィックでしょうか? ノーリファラトラフィック全てについてはどうでしょうか。いい質問ですよね。

この記事で先に説明したヒントと同じように、上記の質問に対する回答は主に、期待値を管理し、Google Analyticsを事実そのものとして見るのではなく、むしろ事実に近づく手段と見なすべきだということです。

要するに、繰り返しになりますが、スタートアップはGoogle Analyticsのようなソースからの定量的なデータにあまり頼らないようにすべきというわけではありません。より高度に、洞察には多くの形があるということを理解し、全てのレポートと性能測定をスプレッドシートに一番読み込みやすいチャネルに基づいて行いたいという衝動を抑えなくてはなりません。

ツールについて学べば学ぶほど、ツールの長所と短所が分かってくるでしょう。ツールを自分で使うのは素晴らしいことですが、恐らくより一層効果的なのはツールが自分に対して使われるときです。もし上司がGoogle Analyticsに基づいて目標を決めてくれたら、数字が”あるべき”数字ほど良く見えない理由を説明できていいと思いませんか? 私はそう思います。

参考文献:
* Google Analyticsのサンプリングを解決するには: より多くのデータを取得する8つの方法
* Google: サンプリングの仕組み
* Google: サンプリングデータについて
* Tableau: Google Analyticsからのサンプリングデータ
* 【翻訳】ポール・グレアムによる「スケールしないことをしよう」前編後編