大数据,不只要说更要做
本文摘要:[核心提示] 数据不等于信息,数据是全局的。说了很多的大数据究竟应用了多少呢?大数据自从兴起后,便一直备受热捧,关于大数据的前景、应用和好坏的评论也一直继续至今,而仅有不变的真理是:只有人才是核心,数据只是我们获取真理的途径。舍恩伯格在大数据

[核心提示] 数据不等于信息,数据是全局的。说了很多的大数据究竟应用了多少呢?

大数据自从兴起后,便一直备受热捧,关于大数据的前景、应用和好坏的评论也一直继续至今,而仅有不变的真理是:只有人才是核心,数据只是我们获取真理的途径。舍恩伯格在大数据时代中强调,数据不等于信息,数据是全局的。用信息论中的熵的概念,信息是对工作不确定性的衡量,全局的数据假如我们认为是全知的话,那么它的不确定性为零,即不包括信息,唯有我们发掘出来有适用价值的数据才可取得有用信息。另外一个观念是信息不等于智慧,怎么将信息转化为智慧呢,需要满足三个规范:可破译性,关联性和新颖性。

大数据冰山一角

有意思的是,著名信息技能研讨和分析公司 Gartner 做了一项有关企业使用大数据的调查,调查显示 56% 的公司不知道怎么从大数据中获取价值,41% 的公司不知道怎么将大数据与公司战略结合,34% 的公司缺乏获取和处理数据的能力,乃至有 23% 的公司不理解大数据是何物……究竟大数据是什么,又怎么与我们的日子发生关联呢,下面笔者将用两个自己做过的天然言语处理(NLP)项目为你揭开大数据的冰山一角。

1、抢手话题探究

新浪微博是我们现在主要使用的一款社交网站,其鱼龙混杂程度现已令人拍案叫绝,里边充溢着各路大 V、水军、僵尸粉和我们这些宝贵的真实个人用户,也许你每天的日子就是随手刷刷微博,看看悄然重视的女神发的微博又有哪一个异性回复了,听听某定见首领宣布的最新观念,然后再默默的点一个赞。但你想过没有,国外是怎么使用上亿量级的 tweet 内容成功猜测股市的呢?

于是笔者默默的使用了一下上一年八、九月份十万量级的微博内容,试着去分析了一下某些潜在的或现已发生的抢手话题。可以看到效果仍是有的,上一年 9 月 10 日日本单独面无条件购岛引起广阔爱国人士的剧烈评论,图中话题 7 即反映了十万微博中此话题权重较高的几个要害词;话题 8 的呈现完满是意外之喜,本来小米在上一年 8 月 16 日发布了新手机,雷军让小米也在互联网火了起来。更多呈现的多是话题 9 这种无意义的类别,怎么更有用的滤除噪声,使真正有价值的抢手较早凸显出来是笔者下一步计划完成的方针。

2、情感分析

是否会有这么一天,当你面试时HR只问你一句:你的新浪微博账号是多少?一分钟后他淡定的通知你,对不起,通过测试,你的微博整体负面情绪过多,不契合我们企业阳光乐观积极向上的主题,出门左拐就有地铁站,慢走。我们不去详细分析这种事情的合理性,我们只看大数据带给我们的这种可能性,当你的喜怒哀乐所有情感都可以被一个百分比精确界说的时分,数据化的时代也许就真的到来了。

笔者采集了自己除转发外所有的原创微博,归类到快乐、哀痛和愤恨三个极性中,下图为情感极性比例,从图中可以看到超过 50% 的微博体现出快乐的情感趋向,大约 30% 的微博有哀痛的负面情感,10% 左右则体现出愤恨这一情感,估计又伤时感事了吧…

上面的例子只是一些小的实验,从久远来看仍是有很多用武之地的,比如对某品牌的产品售后评价进行分析监控,找到负面评价然后去解决产品中可能存在的缺陷。新闻媒体对一些报导的分析,舆情分析,金融机构猜测走势等等,其实很多早已浸透到我们的日子中了。

数据网站和应用的渗入

微博高玩一定对下面这幅逼格超高的图片不会生疏,这是我自己使用一款名为围脖要害字的微博应用生成的图片,该应用由清华大学天然言语处理与社会人文核算实验室开发。它对用户所有的微博进行了分词,去停用词,核算要害词权重等几个步骤,从而生成了一幅个性化的用户标签集合。

也许从个人角度出发这只是一个很有意思的小应用,但假如商家获取了用户标签,也许将来的广告引荐会更有针对性;企业也能将此类标签作为面试者人格分析的一部分;更深化一点还将发生更好的针对特定机构和群体的行为分析等等。

大数据现在谁都能说上一点两点,但怎么将其应用到现实中,怎么提供更好的效劳是我们需要真正解决的,不然空有「大」字,只是没有魂灵的空壳算了。


人人都是产品主管(woshipm)是以产品主管、运营为核心的学习、交流、分享平台,集媒体、培训、社群为一体,全方位效劳产品人和运营人,建立9年举行在线讲座500+期,线下分享会300+场,产品主管大会、运营大会20+场,掩盖北上广深杭成都等15个城市,内行业有较高的影响力和知名度。平台集合了众多BAT美团京东滴滴360小米网易等知名互联网公司产品总监和运营总监,他们在这里与你一同生长。