GA4のスパム(bot)について
公開日: 2024/5/31
GA4情報
こんにちは、FAROチームです。
今回は、GA4に発生するスパム(リファラスパム)についてお届けします。
スパムとは?
スパムとは
- Google Analytics 4 (GA4) におけるスパムトラフィックとは、意図的に、自動的に生成された悪意のあるデータトラフィックのことを指します。
- 参照元(Referral)を残すため、「リファラ―スパム」とも呼ばれています。
- 不正なボットや不正なクローラー(インターネット上のウェブサイトから情報を自動的に収集するプログラムのうち、ウェブサイトの利用規約に違反したり、サーバーに過度の負荷をかけたりするなど、不適切または悪意のある方法で動作するもの)のアクセスによって発生します。
- 不正なトラフィックはウェブサイトの訪問者数や行動データに悪影響を与え、正確な分析を困難にします。
スパムの目的
- 参照元を偽ったアクセスを発生させることで、興味を持ったアナリストに自分のサイトへアクセスさせたり、PVを増やして広告収入やサービスの露出を図る目的があると考えられています。
- また、アクセスさせた際にマルウェアを配布したりフィッシング攻撃を仕掛けたりすることもあります。
- 不審な参照元を見つけた場合でもそのドメインにアクセスしないよう、ご注意ください。
除外する方法
- 現状、GA4ではスパムトラフィックを除去する方法は公開されていません。
- 「参照元除外」機能を使ってもスパムトラフィックは記録されてしまうため、システムを利用して除外を行うのも現実的な対応とは言えない状態です。
- 一度スパムが来たサイトは繰り返しスパムが訪問する可能性が高く、増加し続けるスパムに継続的に対応するのは困難です。
スパムトラフィックによってデータが汚染されてしまった場合、探索レポート機能を使ってスパムトラフィックをフィルタリングしたデータを出力することができます。
スパムトラフィックの特徴
- 現在までに確認されているスパムトラフィックには以下のような特徴があります。
- 特定のページのみセッション数・PV数が異常に高い:ユーザー数に対して過度なセッション数・PV数が発生している場合。
- 最近発生しているスパムトラフィックでは、トップページへの集中的なアクセスが発生する傾向があります。
- エンゲージメントが著しく低い・0%(0秒)である: 平均エンゲージメント時間が非常に短い、またはエンゲージメント率が0%の訪問が発生している場合。
- 心当たりのない参照元: 関連性のないウェブサイトから流入が発生している場合。
- 特定の国や地域からの集中的なアクセス:サービスを展開していない海外から大量のアクセスが発生している場合。
実際のスパムの例
- スパムアクセスがあるかどうかをチェックするには、「参照元/メディア」ディメンションを使用します。
- 1人のユーザーが1回セッションを発生させており、エンゲージメントは一切しておらず、滞在時間も0秒と、通常はほとんど考えられない数値になっています。
▼スパムトラフィックの例。ユーザーとセッションが等しく、エンゲージメント系指標は0のみとなっている
- あるスパムトラフィックでは2月~3月にかけて、数日間に渡ってアクセスが発生しており、拡張計測機能のデフォルトイベント(scroll)も発生させています。
▼短い期間にまとまったアクセス数を発生させており、場合によっては「イベント数」データも影響を受ける
- スパムのアクセスはポーランド・ワルシャワからと記録されています。
▼スパムトラフィックについて探索レポート機能を使って国・市区町村を表示した場合。すべてポーランド・ワルシャワからのアクセスと記録されており、アクティブユーザー数は合計515ユーザーとなっていた
GA4のUI上で確認する方法
- 心当たりのないアクセス増や、覚えのない参照元があった場合、まずは「セッションの参照元/メディア」を確認します。
- エンゲージメント関連指標の値が0であり、想定しない国から大量のアクセスがある場合はスパムと判断できます。
- セカンダリディメンションに「国」「言語」を指定すると見つけやすくなることがあります。
▼セカンダリディメンションに「国」を指定した場合。
探索レポートで確認する方法
- 探索レポートでは、これらのスパムアクセスを除外したデータが表示できます。
- 以下のレポートでは、「Polandからのアクセスを含まない」「セッションあたりの平均エンゲージメント時間が0秒以上」というフィルタ条件を追加しています。
- どのような条件でフィルタがかけられるかはスパムによって異なるため、上記のフィルタで不足がある場合はさらに条件を追加します。
- 以下のレポートでは、「Polandからのアクセスを含まない」「セッションあたりの平均エンゲージメント時間が0秒以上」というフィルタ条件を追加しています。
- このフィルタをかけた状態で、データを参照したいディメンションや指標を追加することで、スパムの影響を除外したレポートを出力することができます。
▼国に「Poland」を含まない、「セッションあたりの平均エンゲージメント時間」が0秒以上のものに限定してデータを表示した場合。今回のスパムのほとんどが除去されたデータとなる
FAROレポートではこういった特徴を持つスパムを除去する機能の開発を進めております。
スパムからのアクセスにお困りの場合、是非お試しください。
分析のプロへのご相談もお待ちしております。
▼詳細はこちらから▼
FAROチーム