虚假流量的认知与识别（上篇） --- 自助建站,企业建站,小程序建站,模板建站,响应式网站,免费建站,智能建站,手机建站,微信建站,云建站,免费的建站系统-建站魔方

首页 > 技术资讯>网站运营

虚假流量的认知与识别（上篇）

2018-10-08 10:16:34 分类：网站运营 作者：admin 来源：阅读：194

注：接下来两篇文章都是针对虚假流量的识别，上篇围绕虚假流量的发生机制、发生原因（背后的利益捆绑）、识别虚假流量的常见维度等；下篇从一个案例完整介绍如何识别虚假流量。

作者：张乔，神策数据内容营销负责人。公众号：神策数据

电商、支付平台、O2O、自媒体、广告等行业无一例外地充斥着虚假流量，不同行业的流量作弊形式不同。对广告主来说，了解广告投放过程中虚假流量的作弊形式和获益形式，是识别虚假流量的基础与前提。

图 1 各行业虚假流量的形式

一、看似正常的广告投放的环节

一般而言，广告投放过程包含这样几个环节:

第一步，广告主选择投放哪种广告，常见的形式包括 SEM、DSP、信息流、开屏广告等；
第二步，确认广告的付费形式，常见的广告付费形式有 CPM、CPC、CPA、CPS 为主要的结算方式，分别按照展示量、点击量、转化量、销售额结算；
第三步，跟踪广告的投放数据，常见的投放数据有展现量、点击率、点击量、消费、成功注册量、下载量等。

由于广告投放过程中渠道服务商存在各级代理，存在流量获取的透明度不高的问题，让可供作弊的灰色区域越来越多。

图 2 广告投放流程

二、虚假流量的发生机制及获益形式

看似正常的广告投放流程，其实隐藏着虚假流量的危机。站在广告主的角度，我们从两个方向去解读虚假流量：

第一种是虚假流量的“发生机制”；
第二种是虚假流量的“获益形式”。

1. 虚假流量的发生机制:机器作弊 + 人为作弊

图 3 机器作弊 & 人为作弊

“机器作弊”常见的手段有，通过机器发送虚假流量、肉机访问网页、修改 DNS/IP 访问网页、爬虫技术访问网页等手段来制造虚假流量，目的是模拟浏览行为产生大量浏览痕迹或点击和实现流量增加，机器作弊的成本相对较低，但都离不开代码程序。

目前较好的预防措施，是通过基础的用户行为分析来识别此类虚假流量，再通过补量、屏蔽的方法来减少此类虚假流量。例如：频繁更换用户身份，在一个 cookie 身上猛薅羊毛，一个用户有成千上万次展示;

再如：iframe 造假展示也是常用方式，iframe 是一个 HTML 标签，常常被用来作为承载展示广告的载体，作弊可以通过将 iframe 的尺寸改为肉眼无法识别的图片。但这毕竟算一次曝光，广告主会要向此付费，实际上用户并未看到。

“人为作弊”场景的手段有，通过雇佣、激励的方式雇佣大批人员去点击广告、下载 APP、访问网页，因为属于人为操作。

这类虚假流量较难屏蔽，但成本相对较高。可通过深度用户行为分析，如转化情况来识别此类虚假流量，并提高“人为作弊” 的运营成本来减少此类虚假流量。

2. 虚假流量的获益形式

图 4 虚假流量的获益形式

提到虚假流量的获益形式，就离不开上文提到的广告付费形式。每种广告都会有对应的结算和考核指标，这就成为虚假流量作假的痛点之一。

CPM、CPC 付费形式的作弊场景主要为刷广告指标，如：曝光、点击等。
CPA 付费形式的作弊场景是刷下载、激活及留存等。
CPS 付费形式的作弊场景是刷订单。

每种广告都有对应的付费形式，每种付费形式都有虚假流量获益的诉求点，这些组成了虚假流量获益的形式。这些虚假流量的出现，通常带有明显特点，比如：点击变得很频繁但无有效交互、一段时间内同一个人频繁访问投放的广告等。

三、虚假流量的“生态圈”下的利益捆绑

虚假流量之所以能成为“生态圈”，是因为供需双方有着共同的利益。在这个“生态圈”中，虚假流量的提供者、虚假流量的获取者是两个重要角色。

1. 虚假流量的提供者：媒体与广告平台的利益捆绑

广告平台和媒体是虚假流量的提供者，两者掌握着大量的流量资源。

媒体广告平台媒体广告平台是广告流量的源头，也是广告投放链条中收益最大的一方，每年中国在营销广告的投放已经有数百亿元。日益增加的广告投放需求与流量需求，不停推动着广告平台自身对流量扩增的需求，这样虚假流量也就随之出现了。
广告服务商：广告服务商，作为广告主与广告平台的桥梁，是广告投放链路中重要的环节，广告服务商与广告主达成协议去完成其要求的 KPI 业绩，若无法完成 KPI，虚假流量也会成为实现 KPI 业绩的一种手段，例如：想尽办法创造下载量、访问量、阅读量等。
2. 虚假流量的获取者：“KPI”压力下的无奈与默许

在一定程度上，广告主很容易成为虚假流量的“推动者”，例如在以下场景中：
- 面对考核指标的压力：当企业（广告主）过分追求 KPI 以及某些效果指标的时候，基于考核指标的压力会越来越大，当曝光、点击等指标无法完成时，不自觉地会忽视广告刷量的影响。
- 投放价格低：归因分析能够帮助企业判别最终转化源自哪个渠道（或哪些渠道对转化有积极影响），而企业经常会忽略这一功能。常见的原因是当投放预算充足、获客情况满足 KPI 的情况下，企业的营销运营会忽略不同渠道存在的虚假流量。而有些渠道的流量真假参半，若不去追溯每个渠道流量质量，就会纵容虚假流量对营销效果的长期影响。这对于以效果为目标的营销最为重要，尤其在年度复盘的时候，才发现损失也不是一个小数目。
- 企业融资需求：一些创业公司为了把下载量等数据做得好看，吸引更多的投资，也会主动用虚假流量的方式刷单。
3. 高利润、低风险助长双方流量作弊

虚假流量并无高深的技术含量，且流量造假成本极低。相关数据显示：刷流量的成本不及正常流量成本的十分之一。

广告主对流量质量的评估，除了发布方提供的报告外，无直接证据证明对方造假，因此追究虚假流量难度大，维权较为困难。

四、识别虚假流量的难点

为识别虚假流量，广告主会因以下两个问题而犯难：

1. 广告投放数据与网页转化数据断层，无法判断后续转化情况

广告投放数据与网页转化数据断层是信息不透明的重要原因。

什么是广告媒体数据？

前文提到，虚假流量会针对曝光和点击数据做假，这两个数据就属于广告媒体数据。

什么是转化数据？

当流量来到网站后就成为了访客，访客在网站完成交互（如：L注册、有效呼起、下载等）可以认定为线索，这就是转化数据。广告媒体数据与转化数据断层，也就是通常说的前后端流量数据割裂。

这种情况下，一旦转化率下降，广告主将无法判断是投放策略问题还是虚假流量作怪。广告主只能统计到前端的点击转化，不知道后续业务转化如何，广告主不能获得用户的详细信息，就很容易被广告平台所蒙蔽，尽管对广告平台的流量有所怀疑，也没有明确的作弊证据。

2. 无法判断虚假流量渠道，并进行规避

无论是哪种转化行为（注册、呼起、下载、激活等）都离不开流量渠道，更多时候转化行为是由多个流量渠道共同承担的。

当全部流量混在一起的时候，即使你知道有虚假流量存在，也无法准确定位是哪一个渠道带来的虚假流量。

五、全流程数据流量监控是识别的基础

无论从哪个维度入手，识别虚假流量，需要将流量数据、行为数据和转化数据通过一定的数据采集手段，来获取完整、全面和准确的数据，目的是实现全流程数据流量的跟踪与分析。只有获取了完整全面的数据，我们才能找到虚假流量的踪迹，只分析一个虚假流量环节，不足以支撑虚假流量的证据。

下图是流量转化的完整过程:为方便大家理解什么是“全流程数据流量”，可见下图：

图 5 全流程数据流量

六、识别虚假流量的常见维度

一般来说，真实流量一般自然（真实的流量在各个维度中表现一定是自然的）与多样（网民的喜好各不相同，行为一定也是多样的）。而对于虚假流量，常表现出一定的目的性（虚假流量的产生一定和某个特定的目的有关）和规律性（特定的目的导致虚假流量一定有特殊的规律）。

由于虚假流量与真实流量在具体访问行为有较大差异，围绕用户行为可从以下几方面识别出虚假流量。

图 6 识别虚假流量的常见维度

1. 基本属性

具体包括：时间 & 地域维度、终端类型、操作系统、联网方式、运营商、IP 集中等。
- 时间维度 & 地域维度：正常的流量访问分布在一天中的各个时段、地理分布较为均匀（区域性投放或者活动除外）、访问趋势较为平缓。而不同流量出现时间段特殊、来源区域集中、趋势突增的情况。因此，通过流量产生的时间、地理位置、访问趋势变化都可以成为判断虚假流量的参考方式。
- 终端类型：不同的渠道覆盖不同的用户群，用户终端会有一定的区别。比如：小米应用商店渠道的用户，十之八九手机是小米手机，如果对方是中国移动的客户，他们则来自于移动运营商。排除这些特殊渠道的应用商店，大部分渠道的用户终端跟整个互联网终端分布是类似的。因此在正常情况下，用户访问设备应该多元化。同理，用户的设备操作系统、联网方式、运营商等设备属性，同样可以成为判断虚假流量的参考标准。
2. 产品参与度

具体包括跳出率、平均访问深度、平均访问时长、用户行为路径、页面点击情况、流量留存情况、单页面人均访问次数等。

（1）跳出率

我们通常通过跳出率来衡量网站性能与质量等，跳出率也可以作为辨别虚假流量的参考指标。如果跳出率过高，我们除了要判断投放渠道的质量和定位客户群体是否精准外，还应该警惕虚假流量。

（2）平均访问深度

访问深度是用户一次浏览网站、APP 的深度，它是衡量网站服务效率的重要指标之一。以刷量为目的的虚假流量，用户访问深度通常非常低。当然，造成用户访问深度不够的原因有多种，如：新投放的落地页的失败引导等。

因此我们在观察此指标时，应率先排除产品较大改动造成的访问深度不足等特殊情况，或者与其他渠道的流量数据综合比较，进行科学评估。

（3）平均访问时长

平均访问时长指标，主要用来衡量用户与网站、APP 交互的深度。交互越深，相应停留的时长也越长。显然虚假流量追求的是“量”，而非“时长”，因此平均访问时长也可以配合几个网站参与度指标一起分析。

（4）用户行为路径

用户在 APP 或网站中的访问行为路径，用户路径的分析模型可以将用户行为进行可视化展示。因此通常用户通过渠道来到网站后会有不同的行为，他们一般会从落地页开始进行分流，会访问不同的页面，并在不同的页面结束对网站的访问。

显然，用户行为序列分布是没规律的，而对于虚假流量，虽然通过某些方式完成 2-3 次点击，但也是预先设定，有迹可循的。

（5）页面点击情况

虚假流量用户的页面点击通常是不点击，或者杂乱点击的，借助热力图工具可以较为容易地发现问题。

（6）留存情况

留存可以判断用户忠诚度，真实的流量总会有一部分访问者会再次访问，而虚假流量在合作结束后是不会进行这些收尾工作的。

（7）流量的单页面人均访问次数

如果某个落地页面的人均访问次数很高，比如：4 次以上的话，就很可疑了，因为在一次访问中用户一般是不会多次浏览同一个落地页的。结合该页面在网站整体的人均访问次数进行对比，结果会更加准确。

3. 转化情况

很多作弊流量可以模仿人类行为，成功绕过跳出率、平均访问深度和停留时长这些宏观指标，但是要模仿一个业务转化就比较难了，如果宏观指标表现很好，业务转化很少的话，就需要提高警觉。

下篇将从用户行为数据讲述如何多维度诊断虚假流量。