• 置业指南:买高层要注意这些问题 2018-05-22
  • い羛琩矪堵旧笴眏い瓣笴潦ㄆン 2018-05-22
  • 有力有序有效防范化解煤电产能过剩风险 2018-05-22
  • 美好生活的价值追求和实现路径-社会关注-理论频道-中工网 2018-05-21
  • 保罗亲手为自己圆梦 火箭勇士双双会师西部决赛 2018-05-21
  • Floating production, storage and offloading vessel delivered in Qingdao 2018-05-20
  • 汽車定位跟蹤官員意圖敲詐 追蹤器該怎麼管 2018-05-20
  • 工作队精准发力助力贫困村“摘帽” 2018-05-20
  • 中消协发布榨汁机比较试验结果 2018-05-20
  • 游花海林芝,赏野生桃花 2018林芝桃花节29日开幕 2018-05-20
  • 19米99轻松卫冕 巩立姣:没突破20米有点可惜 2018-05-18
  • 海南省工商局出实招提高干部素质 强化工作作风 2018-05-18
  • 栾蕾英亮相TOP100时尚盛典 盛装亮相仙气十足 2018-05-18
  • 以合法形式掩盖非法目的的合同效力 2018-05-18
  • 4月解放领跑重卡行业 红岩保持增幅第一 2018-05-17
  • 中国影视数据分析现状:卖数据,还是卖经验?

    栏目: IT资讯 发布于: 2014-04-26 21:12:22

    中国影视数据分析现状:卖数据,还是卖经验?

    去年,《纸牌屋》的“大数据”神话甚嚣尘上,不少数据挖掘公司蠢蠢欲动。我在8个月前开始实操,起初还鸡血满怀,自诩电影革命先行者,不料梦想丰满,现实骨感,从耀眼浮夸的概念转入真枪实弹的实战,有成百上千个实打实的难题摊在眼前。要命的是,当你懂的越多,越会发现自己的无知。无奈箭在弦上,人在囧途,只能咬牙拓荒,摸着石头过河。期间接触了不少战斗在一线的新媒体公司和数据团队,收获颇丰,教训亦不少,个中细节和笑泪,暂不细表。先将干货小结如下——

    【一】


    国内影视数据团队,大致分为两类:“数据挖掘型”和“调研访谈型”。

    数据挖掘型团队,号称能搜集一切网络上的公开数据——新浪微博、门户新闻、贴吧讨论、视频播放数、影片评论……只要你看得到,它就能抓得到,再将搜集来的内容进行语义分析和统计,给出目标人群画像,技术先进一点的,再加一个正负评价和关联性分析。

    调研访谈型团队,号称能从百万用户量级的线上渠道,发布最具针对性的问卷,直接告诉你目标观众的看法。必要的时候,还会结合焦点小组的形式,深入访谈。

    【二】


    你已经发现了,从理论上,我们既可以对全网进行“舆情监测”,又可以精确定位“目标观众”,还可以直接问出他们的想法——太牛逼了,有木有?


    但是,理想丰满,现实骨感。

    首先是一个根本问题——样本是否有效,也就是说,你的分析对象是否真的可以代表影片真正的目标观众。一来,那些热衷在社交网络上发言的网民,能否代表那些常年不发言,却默默刷微博、看美剧、看电影的人?前者是冰山一角吗?后者是“沉默的大多数”吗?二来,当你进行问卷调查时,你的样本筛选机制是否合理,数量上、人群属性上是否科学,都是绕不过去的问题。

    其次,是数据源的问题。


    目前只能抓取公开数据。那些更加精确的、海量的数据,都在电商(淘宝)、SNS(新浪)、视频网(优酷)的后台,涉及商业机密;而在公开的数据中,几大渠道又各有长短——

    豆瓣的电影评论最纯,用户档案却不完善(连性别都没有,遑论年收入了);

    新浪微博的用户档案相对完善,但该平台数据芜杂,噪音极大;

    淘宝的用户数据极为精确,却相当私密,而且没有观影数据;

    视频网站有海量观影数据,却缺少用户档案(你看视频时,会先登录么?);

    百度指数嘛,人人都可以用,众生平等,没有技术区分度,百度指数专业版又尚未开通“影视行业”;

    至于实时票房、团购/网购电影票数据,整个体系尚在完善中,也没有彼此打通。

    再者,是预测困难问题——只能分析已有之事,却难预测未来之事。


    电影是一种艺术商品,每一部影片都是独一无二的,和过往影片近似度太高,常常不是一件好事。恰巧,电影又是一次性消费的商品,其主要收入来自于票房,正常情况下,从上片到下片,不过一个月的档期,之后再难以上映。在项目评估和营销策略上,和一般商品不是一个路数。


    打个比方:某洗发露品牌可以根据去年消费者的评价,对一款洗发露进行了升级和包装,制定了一套营销策略,推广3个月,并密切监测市场反响,再根据结果进行调整,决定是否改变包装和推广策略,甚至考虑改变产品的配方。


    而电影呢,如果不是系列电影(《钢铁侠》),你很难找到相似度很高的参考对象,倘若在放映过程中发现观众不买账,想要立即撤片,回炉重新拍摄或者剪辑,过两个月再上映,简直是痴人说梦。影片一旦上映,片方能做的顶多是密切监测观众口碑,适当引导舆论,依此调整营销策略。


    这也是为什么数据分析目前主要应用于末端的电影营销,而非前期的项目评估。

    最后,是数据如何指导创作。这又是一个更大的坑,我们在这个坑里浴血奋战了很久,将另外撰文细聊。

    【三】


    说了这么多,心都快凉了。有没有解决方案呢?

    首先,是优化对现有海量公开数据的处理技术。这既包括方向性的决策(定性)——用哪些数据,不用哪些数据,也包括技术性的决策(定量)——如何去噪、建立模型、优化算法(正是我在深入研究的)。只要找到正确的切入口,进行严谨又不乏创意的分析,海量的公开数据里依旧可以挖出非常有价值的,不妨参看一篇文章——《Netflix公司如何逆向结构好莱坞电影》,《纸牌屋》的亲爹玩大数据还真不是忽悠,他们竟然神一般地把“好莱坞电影”给分出了76,897种“微类型”!

    当然,若能拓深、拓宽数据源,作业的难度将会降低很多,这一点毋庸赘述。那是不是说,只要接上淘宝、新浪、优酷的万能接口,把几大巨头的大数据工程师关在小黑屋里一个月,就能够算出《纸牌屋》那样的作品呢?答案当然是——

    做梦!

    原因很简单,拍电影不是写程序,它永远是一种以人为本的艺术形式。数据永远只能作为辅助,灵魂永远是主创团队。


    实战经验告诉我,如何判读数据,运用数据,才是影视数据挖掘最关键的一步。若没有深厚的影视经验,数据全是扯淡。


    这也是中国影视数据界的最大的困境——懂技术的不懂电影,懂电影的不懂技术。整合技术实力和影视经验,是重中之重,也是机会所在。

    在我读过、写过的所有电影数据报告中,那些真正掷地有声的建议和意见,无一例外地都是有几十年从业经验的行业大佬们,根据数据做出来的判断。脱离了“人”,“数据”就没有了生命。对于电影的理解、对于影视产业的观察,是衡量一个数据团队的重要指标。

    最后,分享一个段子:Big data is like teenage sex: everyone talks about it, nobody really knows how to do it, everyone thinks everyone else is doing it, so everyone claims they are doing it.


    看完这段,我才发现,自己早已不再是处男了。


    via: 199it.com 摘自: 剧角映画


    您已观看本文 分 秒,是否有启发到您呢?点击右上分享给朋友们来讨论看看吧!


    发掘数据价值 数据驱动未来 BI@199IT.com


    ↓“阅读原文查看最新数据资讯↓

    本文转载自:微信公众账号 - 199IT-互联网数据中心,版权归原作者所有!

    本站文章除注明转载外,均为本站原创或编译?;队魏涡问降淖?,但请务必注明出处。
    转载请注明:文章转载自 七星彩票平台
    本文标题:中国影视数据分析现状:卖数据,还是卖经验?
    IT技术书籍推荐:
    JavaScript高级程序设计(第3版)
    JavaScript高级程序设计(第3版)
    泽卡斯 (Zakas. Nicholas C.) (作者), 李松峰 (译者), 曹力 (译者)
    《JavaScript高级程序设计(第3版)》是JavaScript超级畅销书的最新版。ECMAScript 5和HTML5在标准之争中双双胜出,使大量专有实现和客户端扩展正式进入规范,同时也为JavaScript增添了很多适应未来发展的新特性?!禞avaScript高级程序设计(第3版)》这一版除增加5章全新内容外,其他章节也有较大幅度的增补和修订,新内容篇幅约占三分之一。全书从JavaScript语言实现的各个组成部分——语言核心、DOM、BOM、事件模型讲起,深入浅出地探讨了面向对象编程、Ajax与Comet服务器端通信,HTML5表单、媒体、Canvas(包括WebGL)及Web Workers、地理定位、跨文档传递消息、客户端存储(包括IndexedDB)等新API,还介绍了离线应用和与维护、性能、部署相关的最佳开发实践?!禞avaScript高级程序设计(第3版)》附录展望了未来的API和ECMAScript Harmony规范。