从救助空巢老人到资助贫困生,看似冰冷的大数据如何温暖人心?

有关商家和平台利用大数据杀熟(指商家对新老客户、不同地区的客户,实行不同的价格,或者利用掌握的大数据,采用十分复杂的计算方法,对消费者进行价格歧视)的消息屡有发生,而更多与大数据有关的新闻也不断挑动着人们的神经,让大家觉得自己在大数据面前似乎“无所遁形“。

对于普通人而言,大数据是一个近在眼前,却又不甚了解的事物。大数据究竟是什么?它和我们熟知的数字、数学又有着什么样的联系?大数据究竟给我们的生活带来了哪些改变?作为中国大数据倡始之人,大数据专家涂子沛通过回溯数的发展、数据在中外历史重大事件的全方位应用,清晰、直观地解释了与大数据有关的知识。以下内容节选自《给孩子讲大数据》,已获得出版社授权刊发。

 

 

 

 

这是一个关于零售帝国沃尔玛的故事。

 

沃尔玛,全世界最大的零售商,拥有11000多家分店、200多万名雇员。它的销售收入在2018年突破了5000亿美元,超过了很多国家的GDP(国内生产总值)。

 

沃尔玛的数据库是世界上最庞大的商业数据库之一。沃尔玛也是最早一批大规模使用数据挖掘技术的企业之一。它的首席信息官叫罗林·福特,数据分析是他的核心工作。罗林曾经感叹:“每天早上一醒来,我就要问自己,怎么才能让数据流动得更好、管理得更好、分析得更好?”

 

在一次例行的数据分析之后,研究人员突然发现:跟尿布一起搭配卖得最多的商品竟然有啤酒!尿布和啤酒,听起来风马牛不相及啊!任何一个人都很难将两者联系在一起,但这却是对历史数据进行挖掘的结果,反映的是数据层面的规律。这实在令人费解,这是一个真正的规律吗?答案,还是在数据里。

 

经过跟踪调查,研究人员终于发现事出有因:一些年轻的爸爸经常要到超市购买婴儿尿布,有30%~40%的“奶爸”会顺便买点儿啤酒犒劳自己。再有想象力的人恐怕也很难想到,事实的真相居然是这个样子的。沃尔玛随即对尿布和啤酒进行了捆绑销售。果然,销量双双增长。这是数据科学应用的经典案例。

 

 

 

沃尔玛到底是怎样发现这个规律的呢?这就要进入数据科学的核心:数据挖掘。数据挖掘,是指通过特定的算法对大量的数据进行分析,在大量的数据当中发现新知识,供人参考。之所以称之为“挖掘”,是比喻在海量数据中寻找知识,就像开矿凿金一样困难。你可以这样理解,数据挖掘是一台由算法控制的挖掘机,而数据库就像是一座矿山。

 

1989年之前,数据挖掘不叫数据挖掘,而是叫一个很长的名字:基于数据库的知识发现。作为挖掘基础的数据库也不是和计算机同步产生的,它是在计算机出现之后,慢慢从软件当中成长、独立出来的。

 

1948年,杜鲁门和杜威竞选美国总统,盖洛普通过抽样调查预测杜威将会当选。新闻界对这个预测深信不疑,《纽约时报》等报纸提前一天印好了杜威当选美国总统的版面,准备抢占先机。结果却令所有的人都大跌眼镜,最后当选的是杜鲁门!那些印有杜威当选消息的报纸只好全部销毁。

 

盖洛普失败的原因就在于,抽样调查需要经过问卷设计、信息收集、数据分析等多个步骤,这导致它掌握的数据有滞后性,而真实的情况是瞬息万变的。在竞选结果出来前的最后的两周里,盖洛普不得不停止调查,而杜鲁门却恰恰在这最后的关头扭转了战局。

 

在大数据时代,对总统竞选的预测出现了新的方法:在投票的前后,对社交媒体上的数据进行观点的挖掘,可以较为准确地预测出谁能当选。2008年和2012年两届美国总统选举,都有人通过挖掘推特、脸书上的数据,准确预测出了结果。

 

这种对互联网数据的挖掘不需要设计问卷,也不需要挨个儿调查,成本很低;这样的数据分析,一个人就可以完成,而不像问卷那样要出动大量的人马;更重要的是,这种分析是实时的,没有滞后性。

 

所以,有越来越多的科学家相信,因为大数据的出现,统计科学和数据科学将重新洗牌,进入一个新的时代。在这个新的时代,数据挖掘将成为越来越重要的分析预测工具;抽样技术的重要性将下降,这种技术将成为辅助工具。虽然数据挖掘如日中天,但也有抢风头的,这就是机器学习。打遍天下无敌手的国际象棋机器人“深蓝”,还有把众多围棋名将下得没有脾气的机器人阿尔法狗(AlphaGo),用的都是机器学习技术。

 

 

 

机器学习凭借的也是计算机算法。和数据挖掘不同的是,其算法并不是固定的,它能够随着计算、挖掘次数的增多,自动调整算法的参数,使挖掘和预测的结果更为准确。

 

 

1855年,克里米亚战争爆发了。这场战争导致50多万人死亡,异常惨烈。作为交战一方的英国当然是伤亡惨重。

 

弗罗伦斯·南丁格尔(1820—1910)是英国的一名战地护士,也是一名自学成才的统计学家。她在考察了英国士兵的伤亡情况之后,发现由于医疗卫生条件恶劣而导致的死亡人数,大大超出了在前线直接阵亡的人数。

 

南丁格尔将她的统计结果制成了一张图表。图表清晰地反映了“战斗死亡”和“非战斗死亡”两种情况下死亡人数的悬殊对比。强烈的视觉效果引发了英国整个社会的激烈讨论,促成了英国政府出台成立野战医院的决策。由此,人类历史上第一所正式的野战医院建立起来了。

 

南丁格尔后来被誉为现代护理学之母。她的这张图表更是历史上第一份“极区图”,也是统计学家对利用图形来展示数据进行的早期探索。

 

一张图表改变了一个制度,这并不夸张。人类天生就是感性的生物,视觉冲击对人的震撼要远远强过单纯的联想。

 

南丁格尔的这种做法被称为数据可视化。它是指以图形、图像、地图、动画等更为生动和易于理解的方式,展现数据的大小,诠释数据之间的关系和发展的趋势,以更好地理解并使用数据分析的结果。

 

南丁格尔的事例充分地证明了数据可视化的价值,特别是在公共领域的价值。生理学也证明,人的大脑皮层当中,有40%是视觉反应区,人类的神经系统天生就对图像化的信息最为敏感。通过图像,信息的表达和传递将更加直观、快捷、有效。而且,人的创造力不仅仅取决于逻辑思维,还取决于形象思维。数据可视化的技术,可以通过图像进一步激发人的形象思维和空间想象能力,吸引、帮助用户洞察数据之间隐藏的关系和规律。

 

20世纪70年代,由于计算机技术的兴起,一批有远见卓识的学者看到了这个领域巨大的潜力。有人认为:“未来的计算机不仅要能计算,还要能将计算结果转变为直观的图形。我们应该研究这两种结果,因为每一种都有助于我们理解问题。”

 

1983年,耶鲁大学的教授爱德华·塔夫特成了数据可视化这门学科的掌门人。塔夫特系统考证了人类用“图形”表达“数据”和“思想”的渊源,整理了历史古籍中的图形瑰宝,并结合计算机的发展给统计领域带来的革命,出版了《定量信息的视觉展示》一书。这本书后来被公认为是“数据可视化”作为一门学科的开山之作。

 

塔夫特强调,数据可视化的关键在于“设计”,“信息过载这回事并不存在,问题出在糟糕的设计,如果你用来表达数据的图形让人感觉杂乱不解,那就要修改你的设计”。美国总统每年公布政府预算都是美国的一件大事。在塔夫特的领导下,美国白宫曾经用一张图对奥巴马公布的年度预算进行了可视化处理。如下图,图形以线条的粗细表明各项收支金额的大小,左边是收,右边是支,中间的红色部分是赤字缺口,形象贴切。奥巴马收了多少钱,要办哪些事,各项收入和支出一目了然。

 

 

 

进入21世纪之后,大数据的爆炸使人们更加需要展示数据、理解数据、演绎数据的工具。这种需求,刺激了数据可视化专业市场的形成,其产品迅速增多,可谓绚丽多彩、百花齐放。从最早的点线图、直方图、饼图、网状图等简单图形,发展到以监控商务绩效为主的仪表盘、记分板,再到交互式的三维地图、动态模拟、动画技术等。

 

作为一个新兴的行业,数据可视化的发展潜力不容小觑。数据可视化工程师既懂数据分析,又精通构图的艺术,集故事讲述和艺术家的特质于一身,通过把复杂的数据转化为直观的图形,他们把数据分析的结果推向了普通大众,可谓是大数据时代的导航员。

 

 

大数据之大,不仅在于容量大,其根本还在于潜在的价值大。

 

人类可以迈进大数据时代,最根本的原因,是人类的数据技术取得了重大的突破。通过以数据挖掘为核心的一系列技术,人类在数据当中发现了新的知识、创造了新的价值,从而为社会带来“大知识”“大科技”“大利润”和“大智能”等大机遇。

 

在这个新时代,数据就是财富,数据分析的能力就是核心竞争力,很多行业都要相继跨入一个数据兴则兴、数据强则强的“数据竞争”时代。这也是一场数据科学家之间的竞争,以发现新知识为使命的数据挖掘和机器学习,就是这个时代最为瞩目的竞争利器。

 

我曾旅居杭州4年。这4年中很喜欢看《钱江晚报》。有一天,我看到一个大消息,之江花园案破了!

 

之江花园别墅的这起案件曾经轰动整个杭州市。2003年,有人在一个雨夜潜入之江花园,入室抢劫杀人,随后潜逃,再无音信。这一年,华人神探李昌钰第一次来杭州,有人拿这个案子问他,当时他也拿不出办法,但留下了一句话,“只要时机到来,案子迟早会破”。这个时机,一等就是13年。让人没想到的是,等来的时机竟然是大数据。

 

20世纪90年代,杭州警方开始普及“生物痕迹”的概念,引进了物证管理系统;2008年,标准化采集仪器“搜痕仪”在杭州的派出所得到普及,它可以收集记录人像、DNA(脱氧核糖核酸)、指纹、掌纹、足印以及鞋底式样等数据;2012年,这些数据开始向云端转移,形成“物证云”,任何一个嫌疑人的数据都可以在“物证云”中和其他数据进行大范围的比对。“物证云”正是大数据在警务系统内的应用。它在之江花园案的破案过程中起到了关键作用。

 

2015年9月,一名姓俞的男子在诸暨一家面馆因为争吵而伤人。当地警方把他制伏后,提取了他的DNA等数据,并录入到“物证云”上。没有想到的是,对数据进行跨地区比对已经实现了,警方发现他的各项数据和之江花园案留下的痕迹高度吻合,俞某的身份很快得到确认。为了破之江花园案,杭州警方十多年来踏破铁鞋,但真正破案时却没费多少工夫。这首先要归功于“物证云”的强大覆盖能力,“物证云”让一些零散的数据形成了联系,破案时机就在这种比对中出现了。

 

1975年至1986年间,美国出现了一起连环案,犯罪嫌疑人被称为“金州杀手”。办案人员追踪他20多年,查对过数千名嫌疑人,但都没能抓到他。

 

 

 

2017年12月,一名探员突然想到了一个应用大数据的新办法。他把已经掌握的嫌疑人的DNA上传到一个寻亲网站,这个网站能够分析上传的基因数据,为人们寻亲溯祖提供线索。结果,真的找到了一个和嫌疑人DNA部分匹配的人。凭借这个重要的发现,警方将嫌疑人的范围从上百万人缩小至一个家族。在排查之后,警方抓到了案犯迪安杰洛。此时,这位“金州杀手”已经72岁了。正义虽然姗姗来迟,却没有缺席,这里面最大的功臣也是大数据。

 

我的警察朋友这样告诉我:“大数据和新技术太厉害了,我们现在是有案必破,破积案、等案破、没案破。”“今天你要是做了坏事,就别跑,因为你根本跑不掉,你就坐在家里,等着警察来找就没错了。”这说的可能有些夸张,但也正说明警方如今的底气不是一般的足。为什么底气能这么足?正是因为有了大数据的分析。

 

今天,几乎人类所有的行为都在留下数据。凡走过的,必留下痕迹。通过对痕迹的分析,一个人几乎没有秘密。普通人是这样,犯罪分子也是这样,除非他一直躲在深山老林里不出来,显然,这在现代社会几乎是不可能的。

 

 

大自然中没有两片相同的叶子。因为,纹理可以将一片叶子与另一片叶子区分开来。也没有两个人的声纹或指纹是相同的。同样,在数据空间里,一个人或一个物体就是一个独特的“数体”,它可以被无数数据定义、支撑、背书。每一组、每一条数据又都有自己的特征,就像声纹和指纹,它们是数据纹理,简称“数纹”。每个人的脸型、指纹、心跳和血压等生理数据不一样,每个人的社会活动也不一样,不断地收集、整合一个人的数据,一个独特的数纹就出现了。凭借这些数纹,就可以清晰地定义一个人,区分这个人和另一个人。

 

这种个体区分力,在人类的历史上还从没有过。但今天的政府正在拥有,我叫它“单粒度治理”的能力,意思是,人正在成为显微镜下的一粒原子。打个比方,就像漫天飞雪,虽然每片雪花高度相似,但它们在形成过程中,由于水蒸气条件的不同,形成了各自的独特构造,再受气流的影响,纷纷扬扬下落的路径充满变数,每一片都不一样。今天的技术就好比上苍之眼,可以在空中锁定、跟踪、分辨每一片雪花的轨迹。

 

2018年8月,南方的一个花园小区里,一对老人倒在家中,被发现时已死亡多日。新闻报道说:二老都是退休教师,老爷子70多岁了,患有阿尔茨海默病,老太太也患有多种疾病。两位老人平常和蔼可亲,没有想到说走就走了,多日后才被邻居发现,实在可怜。老人有一个儿子,就住在隔一条马路的小区。

 

小区里人来人往,儿子就住在隔壁的小区,可这样的事还是发生在了眼皮子底下,到底出了什么问题?大家可能会想到邻里关系的冷漠,儿子对老人疏于照顾,老人即使身处闹市,又与独居有什么区别?

 

每家都有老人。当今中国,独居老人或者叫“空巢”老人的问题已经非常严重。据统计,截止到2018年年底,我国60周岁以上的人口大约有2.5亿,占人口总数的18%,其中65周岁以上的人口约1.7亿,占人口总数的12%。中国即将进入人口老龄化的高峰阶段。

 

我曾经还看过一个报道,有一个在外地打工的游子打电话回家,连打了几天都没人接听。他非常担心,放下工作直奔家中,推开门就发现惨剧已经发生了。几天之前,他父亲因为心脏病发作死在浴室,母亲瘫痪在床,因为没有人照顾饿死了。不断看到这样的悲剧,真是令人难受。我想,今天有那么多的传感器、智能手环,用好了一定可以解决这个问题。移动技术已经让人类永不下线,传感器普及的浪潮正在到来。

 

智能手环收集到的数据如果可以和医院实时联通,那么被监控者的心跳、体温等数据就可以源源不断地传送到医院的数据库中。当被监控者的心跳出现异常时,算法就可以把数据推送给医生,提醒其注意及时救治。

 

目前,江苏省扬州市的个园社区正在尝试为老人安装“智能看护”传感器,主要包括:床垫传感器、马桶传感器、煤气泄漏报警器和室内红外线传感器等。这些传感器每天会按时将收集的数据发送到系统终端,社区负责人员和子女只要打开手机,就可以了解到老人当天的生活情况。

 

日本社会也存在老龄化的问题,比中国更严重。据统计,日本的独居老人约600万,每年有4万人孤独离世。为了关注他们,日本人也用上了大数据,他们通过能源提供商监测这一家住户的水龙头几天没被使用了,灯有没有被打开,燃气一直在被使用或者没被关掉等。日本家庭的水表一般安装在住所外面,因此,改造水表很方便。

 

通过安装一个可以实时记录用水量的电子指示器,关注独居老人的想法就可以实现。远方的子女每天都可以看到老人的能源使用数据,从这些数据推测老人做饭、洗澡所需的时间。当发现数值异常时,可以立即与当地社区联系,请社区工作人员到家中查看。这样一来,日本独居老人在家中死亡若干天后才被发现的事件减少了30%。

 

把数据用好,把“云”用好,“空巢”老人的救助问题将发生极大的变革。

 

 

2013年7月,华东师范大学有一位女生收到校方的短信:同学你好,发现你上个月餐饮消费较少,不知是否有经济困难?

 

这条温暖的短信也要归功于大数据。校方通过挖掘校园饭卡的消费数据,发现这位女生每顿饭的餐费都偏低,于是向这位女生发出关心的询问。

 

 

借助数据分析,华东师范大学把每个月在食堂吃饭超过60顿、总消费不足420元的学生,悄悄列为受资助对象,不用审核、不用公示,学校直接将金额各不相同的补贴款打进这些学生的饭卡。因为校方在长期的管理当中发现,不少家境贫寒的学生,因为面子原因不愿申请贫困生助学金。如果进行公开的评审和公示,难免会伤害一些学生的自尊心。这种方法可以说是用心良苦了。当然,偶尔也会出现美丽的错误!刚才说的那位女生之所以消费低,只是因为正在减肥。

 

误会之所以发生,并不是因为大数据不管用,而是在于数据不够多、不够全面、不够强大。大数据的特点除了“量大”,还有“多源”。如果除了饭卡,还有其他来源的数据作为辅助,判断就会更加准确。

 

我的朋友周涛教授在电子科技大学工作,作为国内知名的大数据专家,他主持过一个课题,叫“寻找校园中最孤独的人”。该课题从3万名在校生中采集到了2亿多条行为数据。这些数据包括学生选课、图书馆刷卡、寝室门禁、食堂消费以及学校超市购物等数据,都是学生在刷一卡通时产生的。

 

通过对不同的卡在不同地点的刷卡数据进行分析,课题组最终发现了电子科技大学有800多名学生,他们在校的大部分时间都是独来独往的。每一次排队,前后都没有同学或好友,他们是“最孤独的人”。这些孤独的人患上心理疾病的可能性很大,家长和学校如果提前予以关注,就会避免悲剧的发生。这也是大数据温暖的一面。知冷知热知心,应该是大数据的终极追求。

 

本文节选自《给孩子讲大数据》,较原文有删节修改,小标题为编者所加,非原文所有,已获得出版社授权刊发。

 

© 版权声明
THE END
点赞0