数据尽职调查之视频网站评分作假分析

来源:原数据 作者:黑岩 时间:2019.09.25

涉及到商业利益的造假行动,如今早已席卷了各行各业。在这个时代,数据的“漂亮”与否俨然已经成为了一件关乎企业生存的大事。从这个角度讲,造假可能已经由面子深入骨髓,到了一种不刷量就会死的程度。

以影视播放量为例,最近两年不断有影视剧播放量超百万,可由此造成的质疑却此起彼伏、不减反增。从《花千骨》、《青云志》再到《三生三世十里桃花》,这些所谓的热播剧几乎都陷入了播放量造假的疑云,甚至到了挑战观众接受下限的地步,比如播放量在某天爆炸式增长15亿的新闻,视频平台的解释反而暴露了所谓视频播放量的真正含金量。或许这件事本身已经说明影视行业的数据造假早已蔚然成风。

当今的主流播放网站大多有其优势所在。如老牌网站爱奇艺,有很多经典版权;b站用户以青少年为主,活跃度高,网站年轻化,容易吸引更多用户;而豆瓣则以用户质量和粘度见长。各个网站都有其优势所在,在这样的环境下,视频的数据就成了一个重要的衡量标准。

从用户的角度来说,会倾向于点击评分和播放量更高的视频;而对于企业来说,用户的点击可以反过来提高视频的数据量,增加网站流量。这二者形成一个循环,数据的价值正是由此而来,数据造假原始动因由此形成。

数据本该是反映网站流量与用户活跃度的重要评估指标,能体现出网站的价值和优势所在。而数据造假则使这项指标失去了原有的价值。下面原数据团队通过拆分常见的作假手段和建模分析来验证视频数据的真实性

常见的视频数据造假手段有:

① 对原始数据进行有偏的解读或计算(有偏的解读或计算:对原始数据进行不正确的解读或计算,得出与事实不符的结论,以达到数据造假的目的),例如我们统计了截止7月24日,《择天记》某平台播放量的主要构成是,正片部分占比65.4%,预告内容占比33.1%,花絮、精彩片段剪辑和周边宣传视频占比为1.5%。这也侧面解释了一个“热门”的影视,为何有如此多且内容重复的花絮,和多集的预告。

② 采集有偏的原始数据(不完整但正确的原始数据);,比如A影视剧某网站没有版权,但该网站会提供第三方链接,供用户观看,这看上去是没有问题的,但在网页代码里,却将此次数据计算在自己的网站内。

对此原数据团队对某A站、某B站、某C站、某D站(代指)评分真实度进行举例分析...


(详细内容请下载附件)

《互联网视频网站评分作弊分析