失控的大数据
作者:未知我们的故事北京城里有许多故事不为人所知,一个最容易被人忽视的真相是,在这里,总有人比你更了解自己。周一早高峰时间挤在地铁里刷财经新闻的一些人,会在周五下班路上收到系统为他们推送的八卦新闻,因为算法知道这是他们此刻最想看到的内容。做人脸识别的公司知道我们每天晚上什么时间卸妆,什么时候敷面膜,周末早上赖床到几点,因为在这些时候,人脸识别通过率会骤然变低。
在真实世界里,性别只分男和女,但是原阿里巴巴集团副总裁车品觉说,阿里巴巴曾经就有18个性别标签,它知道有些账号白天是男性用户持有,而晚上使用的却是女性。判断依据是用户资料、浏览商品类目、对话使用称谓,以及那些我们自己或许都未曾察觉的访问习惯――点击屏幕的轻重,经常输错的错别字,在浏览器窗口是喜欢在新窗口打开、还是反复使用前进后退键,正是它们告诉机器,此刻对着屏幕滑动商品页面的究竟是谁。
大数据里的我们,拥有异常真实的群体画像。因为我们在面对手机的时候非常诚实,永远对它说真话。
世界上知道这些秘密的只有你,和机器另一端的数据科学家。在机器语言里,我们不止是一个名字、一个地址、一串设备识别符。它每秒钟监测超过400个变量,记录每一个行为轨迹。
今年57岁的韦思岸(AndreasWeigend)知道无数这样的故事。他出生在德国,原本在赫赫有名的欧洲粒子物理研究所(CERN)研究上帝粒子,但在2002年,他选择投身大数据世界,成为了??马逊首席科学家,后来他曾任阿里巴巴数据顾问、人人网早期外部投资人,也曾为摩根大通、汤森路透、沃尔玛、AT&T等机构提供数据咨询。
他教会机器一个理解人类的方法是:获知一个用户地址后,还要抓取这个地址周围5公里内的书店分布状况,因为这决定了用户有多大概率在亚马逊买书、会在什么情况下买书。这条准则后来被应用到了阿里巴巴的数据分析实践,所以当淘宝知道你家5分钟步行路程内有超市的时候,它就不会频繁向你推荐油盐酱醋,但是它看到你的搜索记录,获知你皮肤敏感,而15分钟路程内的商场都没有你习惯用的护肤品,那么,这些商品将会出现在你的屏幕上。
韦思岸将数据分析师每天的工作形容为“人性实验”,就像科学家通过实验探索物质的本质,数据分析师通过程序研究人的行为特征。技术改变了人的物理概念。定义我们的不仅仅是账户和密码,还有我们的爱好、情绪、行为习惯。不管我们在互联网上如何伪装,换新的名字、新的头像,机器总能轻易识破。数据记录下的习惯,是我们的另一个身份定义。
这些故事让他兴奋,同时让他感到不安,韦思岸告诉《人物》,“我能看到最近十几年我们的生活因为技术发生了颠覆性变革。但是它真的让我们变得更自在吗?我没有答案。”
在数据的世界里,我们面对手机的每一个举动,都在成为机器学习的材料,训练人工智能更加理解人性。曾经那些高深玄奥的人生命题一我们是谁?好朋友意味着什么?我们将会选择什么样的生活――这些答案都可以从搜索记录、社交网络的聊天记录和手机传感器里找到。
截止2018年第一季度,超过10亿人每月使用微信及WeChat,6.17亿人在淘宝购物,全国搜索引擎用户达6.4亿,他们时刻创造新的海量数据,也在被勾画着异常精准的群体画像,机器在一步步接近一张清晰的人性图景。数据是这个时代最特别的商品,它的产生几乎毫无成本,却造就了无数科技独角兽、日渐强大的上市公司,以及数以亿计的产业利益。
大数据日渐了解我们,但是很少人知道,我们所做的事情会让我们成为广告主的商品、被人剖析个性的样本、掌握我们的一举一动,甚至能预测我们的未来轨迹。“隐私”
不止一位数据科学家确信,隐私已经是一件“算法上不成立”的事件。我们知道自己在分享数据,但是大部分人并不知道,自己正在分享些什么,更不知道,这种分享将会意味着什么。
听一个分析师讲述数据挖掘过程,就像是见证了_一场悬疑推理,唯独这一次,福尔摩斯活在大数据里。一切从手机App安装软件中的SDK开始,这是一个搭载在App中的软件开发工具包,其中嵌入了统计分析工具,实时收集用户信息。当然,这是经过你授权同意的,就在你可能从来没有认真读完的用户协议里。
从App下载到手机那一刻起,揣测人生的尝试就开始了。仅仅是安装过程中所抓取的硬件设备信息,App已经对你有了一个大概印象――如果一台手机一个月内有10次连接同一个星巴克的WIFI,20次连接同一个定位在写字楼的公共区域WIFI,30次连接一个家庭WIFI,再算上这些WIFI的地理位置,以及WIFI名里的关键词,那么,一条几近清晰的生活-T作的路线轨迹,get。
在学者的论文里,这被形容为一个“数据失控”的时代,没有人能控制自己的数据,我们的数据时刻被人监视。
不过,实际经手数据的人并没有这种感觉。人们担忧自己的个人信息泄露,比如姓名、电话、地址。在业界,工程师给隐私下过一个最简单的定义――隐私,就是那些不允许自由流动的数据,比如被法律禁止交易的身份证号、个人征信、医疗记录,它们只能固定储存,不允许随意读取。事实上,现在App收集信息也确实越来越受到限制,比如IOS10以后的系统已经禁止读取许多设备硬件信息,安卓系统也在逐步限制软件能够获取的用户信息范围。
不过对公司来说,以上这些信息固然重要,但更值钱的是另一些数据――你的喜好、兴趣、生活方式、行为习惯――而这些数据在很多人的概念里,还不属于隐私。“大数据能做很多事情,通过合理分析解释世界。最好的事是,这些东西完全不触及隐私。”大河在一家公司的数据相关部门工作,她认为,隐私是法律明令禁止收集和交易的身份证号、手机号、户籍地址等个人身份信息,而她的工作完美避开了它们。“刚刚分析的这些画像,我根本不知道他是谁,我看到的只是设备。比如我能看到一个在回龙观的安卓设备,早上9点去了望京晚上9点又回来了。他的轨迹我都知道,但是我并不知道他是谁。所以它又能匿名,又很精准。”
一个不愿意署名的数据工程师说,要说有问题,是那些私下倒?u个人身份信息的黑市有问题,20块钱买一个人的征信报告,几百块钱就能买高净值人群打包数据,这些跟社会信息相关的是隐私,需要管。但是互联网公司收集的都是“浅层信息”,这没关系。
小乔曾经在一家以“大数据分析”为主力业务的互联网公司工作,她的工作就是利用公司通过大数据得到的用户画像,组织线下营销活动。她说,自己并不那么担心习惯被人察觉,因为在她的经历里,好多都是“忽悠人用的,又不准,怕什么”?特别是在北上广每个人都那么不一样,用户画像根本行不通,也就在三四线城市,弄个噱头忽悠一下人。
“(我们)什么信息都能得到,但是没什么用,也懒得看。”一个不愿署名的程序员这样说,“互联网公司让你感到害怕,只是因为你在App里,没有掩饰你是什么样的人,而App把这些看在眼里――你不会出柜,但会偷偷在淘宝上搜索润滑剂;你不会跟人说荤段子,但App上看到翘臀美女还是会点进去;你对外痛击侵犯版权,但看到四位数价格的正版软件,还是去搜了盗版的下载……”实实在在的人民币
对于掌握海量用户数据的大公司,真实的人性画像等于钱,因为他们能找到非常精准的目标用户,比如商家想要卖一款针对5岁以下孩子的推车,他们就可以提供“家里有5岁以下孩子、订单中却未发生过此类母婴商品购买行为”的用户群。他们将海量用户喜好、兴趣、习惯等数据组建成数据库,这样向品牌商和广告主推销:这些消费者数据也是一种资产,你知道他们习惯买什么、什么时候想买,它能如预知未来一样,直观看到未来可能收割的营业额,不是某种估计的指标或指数,而是“实实在在的人民币”。
这大概是广告主最喜欢的时代。Facebook曾推出一项行之有效的算法lookalike。比方说,一家公司想卖啤酒,它只需要提供100个曾经购买过这款酒的用户群体,数据会将它们视为种子用户,寻找和种子用户相似的另外500个人。他们有相似的兴趣爱好,相似的行为习惯,他们可能并没有买过啤酒,但是基于他们的行为特征相似性,该相似群体极有可能在推送后马上得到转化,买下这款啤酒。
并非所有人都对这些“隐私”的开放无感。武山在一家行业排名很高的互联网公司工作,利用大数据进行算法推荐。每天在工作的时候,他能够看到全体用户在App上的行为轨迹信息,包括电话、地址、搜索记录、每一屏交互行为等等。这是他的工作内容,可是他说,这也让他不安。
“虽然都说数据开放、数据开放,但还是觉得,这些数据真是太开放了,没有做好保护啊!比如内部员工可以查到用户在App上的行为习惯啊,还有App收集用户信息的时候,哪些该收集,哪些不该收集,在我看来也算隐私啊,应该有一些机制保护吧?”武山说,“可我不知道有没有行业标准,现在我是全靠自律的。就是如果我想看,我随便都能看到啊!”
据《财经》此前的报道,国内个人信息泄露数达55.3亿条,平均每个人有四条相关个人信息泄露,这些信息最终在黑市反复倒手,直至被榨干价值。其中,80%的数据泄露来自企业内鬼,黑客仅占20%。去年6月,广东苍南警方发布通报,有苹果公司国内员工涉嫌以非法手段获取苹果手机关联的个人信息,包括用户注册苹果账户时所填个人信息,涉案22人中有20人在苹果国内直销公司及苹果外包公司工作,每条以10元到180元不等的价格出售,非法倒卖个人信息至少20多万条。
就在不久前,一名Facebook安全工程师被解雇,因为在网上搭讪女性的时候吹嘘,自己能够看到所有人的信息,“我是一个专业的跟踪狂”。而一位豆瓣用户则发文称,与前男友分手后遭到持续跟踪骚扰,前男友利用某电商App登录漏洞,查到了她家人、闺蜜、朋友的姓名、住址、电话,可是即便经过投诉,最终也没有阻止跟踪狂的持续登录。
现在,买东西需要填个注册表,或者下载新App后需要关联用户信息,都会让武山不舒服。他说,这可能是他的“职业病”。
在互联网上,韦思岸做过的最疯狂的人性实验,是关于自己的。从2006年开始,他主动将自己所有联系信息公布在自己的网站上。在那里,任何人都可以看到他的实时地址、电话、邮箱、行程、工作日程、即将搭乘的航班号及座位号。他公布了自己在旧金山和上海的住址,精确到楼层房间号。
这和他的父亲的经历有关。韦思岸的父亲因为被诬陷是间谍,曾被强行关进监狱,坐了六年牢。后来,韦思岸查阅父亲的个人档案时,意外地发现,即便父亲出狱后,安全部还在持续监视他,还给身为儿子的自己建了档案,收集信息。
这个经历极大影响了他的数据观,“我们不能抱着一个天真浪漫的观点,还以为我们能够拥有隐私。我见过数据是怎么对待我的父亲的,我的父母曾经一度一无所有,我们不应该天真地以为,一切不会再重现。”
“我把联系方式放在网上,可要是让我公布我的搜索记录,我绝对不愿意。”他说,某种程度上来说,电话号或者住址并不是私密信息,你的朋友知道,你的同事也可能知道,但搜索记录中所透露出的个人喜好、习惯,则是非常私密的个人信息。
一个安卓App开发者曾经试图跟女朋友解释自己近乎无所不能的工作:在App安装后,他能够获得大量授权,推断数据里的人群做什么工作、常去哪里、毕业于什么学校、有什么爱好、有没有结婚、有没有外遇、有没有房、有没有车、现在是外出度假还是在家呆着,甚至通过读取银行通知短信,推测实际收入。有时候为了客户需要,他还得推测人心,排除伪君子,比如如果手机里下载高端财经App,打开频率却几乎为零,那么这个人的标签要么是不小心下错了软件,要么就是“比较装”……这些推测并不完全准确,也没有涉及身份信息,却已经让身为普通用户的女朋友感到冒犯,冲他大发脾气:“你这人怎么这样?你为什么要看我们这么多数据啊?谁叫你拿这些授权的?是你老板逼你这么干的吗?”对抗
在技术的世界里,边界是最难讨论清楚的话题。大部分公司都在反复强调,我们虽然收集大量数据,但是十分重视隐私,绝对不会泄露你的名字。事实上,许多大公司的确是这样做的,它们内部有非常严格的数据保护措施,比如微信有比较复杂的ID体系,系?y内部有用户的唯一ID标识,但是第三方开发者不能获得这个唯一ID,即便是同一个用户,在不同公众号下被第三方开发者收集到的ID都是完全不一样的,这样就完全阻止公众号之间用户数据的随意买卖交易。
负责用户挖掘的微信斑马系统只支持一万人以上的人群画像分析,从而实现“分析一群人而不分析一个人”,而在分析过程中也会主动控制精度,比如分析用户住址时,只定位到小区,不再基于气压传感器定位高度,做楼栋和楼层的定位。
在一次媒体采访会上,阿里巴巴的一个技术负责人说:“数据肯定是往越来越严控的方向发展,我们采集信息的目的,其实还是为了更好地提升用户体验,所以一个基本原则是,这些信息的获取要从提升产品的角度出发。”比如对有的App来说,获取WIFI信息是为了挖掘用户社交关系,这让人感觉越界,但是对金融、支付类的App来说,知道WIFI地址可以快速判断这是不是用户常用地址,这笔交易有没有可能是盗刷,它能有效防范资金风险。
不过,虽然花了两个小时反复解释现有隐私保护如何严格,临走的时候,他还是忍不住补了一句:“不过啊,最近网上那种做个心理测试啊,点进图片生成自己的照片啊那种,我劝大家还是不要点了,那种背后一般都存在很大的信息收集的。”
这种看似无害的休闲App可能不会直接窃取手机号、身份证号等身份信息,但就在点击授权、进入游戏的那一瞬间,它很容易完全获得你的社交关系和网络行为习惯。今年3月份,Facebook被爆隐私丑闻,存在影响8700万人的严重数据隐私滥用,这些数据包括用户的社交关系、兴趣偏好、点赞记录等个人信息,而这一切就是从类似的心理测试开始的。剑桥分析公司通过左右这些用户在Facebook收到的推送,影响他们在美国大选中对候选人的态度,最终帮助特朗普当选,这些数据也“不知道被复制了多少次”,甚至有可能存储在俄罗斯。
并不是没有技术办法对抗这样的数据危机。在英国,有专门保护个人隐私的公共机构,直接向英国国会报告。它提出了数据管理者登记制度,要求每个处理个人信息的机构都要在信息专员办公室登记,否则就算为刑事犯罪。很多公司也有谨慎的数据使用哲学。谷歌会把用户的姓名、账号、联系方式、地址等信息,与行为数据完全分开,不会将两者关联使用。而雅虎会有专门的研究员,在实践中界定数据搜集的隐私边界。
许多数据科学家将自己设计的隐私保护对策详细公布在论文中,有人将分散信息流控制和差分隐私保护技术应用到云计算,还有人通过模糊处理(obfuscation)技术对用户隐私全程加密,另一种有效的操作方法是制造噪声,根据用户历史记录制造等比例的行为噪音,这样试图解读用户行为的服务商就很难辨别哪个是用户真实需求,哪个是系统制造的噪音,从而保护用户真实的隐私。
但是,在真实的大数据前线,还轮不上这些对策上场,仗已经败了。技术理想的敌人其实比想象中更原始――严谨规则背后,不讲规则的人。
程路从美国留学回来后,在国内一家交友类社交平台工作,负责大数据处理。运营的同事要做市场推广活动,要看用户数据,他想看用户最近在聊什么,然后根据用户喜好有针对性地开展活动。“理论上讲,这也是业务需求,他想抽样,我也不介意。”程路说,聊天记录经过加密处理,他很快做了抽样,断裂可追溯信息,对用户信息做了脱敏。但是运营同事不愿意,他要求看全量数据。
全量数据是什么概念?它是一个用户在App上的所有数据,能够非常精准地描述用户,他的身份背景、兴趣爱好、行为习惯,甚至每天的喜怒哀乐,都能从行为痕迹里推测出来,但是这是对隐私的极大挑战。程路试着跟对方解释,只是做市场推广的话,使用脱敏后的抽样样本就可以了,没有必要查看全量数据。
但意外的是,这个提议没有得到理解。运营的人不同意,公司CTO不同意,连CEO也不同意。他的一个同行说,“我挺惊讶的,做这一行的还有这种想法。”而另一个同行评价他,“心态这么不稳,怎么在中国生活?如果知道自己的房子、车子、保险、信用卡、婚恋、酒店入住、户籍信息、工作信息等等全部真实的信息每天都在各个公司的销售那里买卖转手百来次,你还会有什么感想?毫无心理波动。”
可是,这对程路来说,违背了自己的技术理想。“这就好像借着你的手,把别人的日记挨页翻给人看一样。”他反问,“要是你的日记,你愿意吗?”
最后,决定数据命运的是来自CEO轻描淡写的评论,“这有啥啊,你就给他呗!”
程路把全量数据给了业务部门,同一个礼拜,他辞职了,“一半的原因是这件事吧,道不同了。”在这里,他还时不时要面对数据交易,会有大公司的销售人员拿着报价表找他谈合作,表单上每一类用户群体都有一个大概标价,爱旅游的、每天点外卖的、打游戏时长每天超过4小时的,每一个群体都有一批相对应的广告主喜欢。所以,只要细化出了用户特征,就能有机会把它卖钱,这是一笔大生意,但这让他感到很不舒服。
现在,他在一家外资游戏公司,选择新工作有很多理由,其中一个考虑,现在的大环境里很难找到一个不越界的公司,那就找个没那么强烈想要收集社交数据的地方。他说,这样工作起来心里会舒服点。
韦思岸说,对抗隐私危机,最有效的办法只有严惩。“我们不能天真地期待数据公司能够有足够的自我驱动力,替我们维护数据中的隐私部分。对这些公司而言,惩罚是它们唯一听得懂的语言。”数据未来
我们正在面对的数据未来是,人或许比想象中更容易预测,而算法可能比我们更了解世界。
2008年9月15日,美国雷曼兄弟公司宣告破产,引发次贷危机,而最早察觉到这件事的是Linkedin的数据科学家。他们注意到,9月14日明明是一个周末,网站数据却十分活跃,不断有人疯狂联系工作、更新简历、发送消息,而所有这些行为都来自雷曼兄弟的员工。
随着技术优化,现在甚至不需要成为专业人士,就能洞察真相。就在今年初,使用健身记录软件Strava的用户发现,仔细查看App所提供的跑步热力图,能轻易推测出美军驻阿富汗军事基地的具体位置。因为它会实时追踪用户位置数据,以高亮形式呈现在地图上,而在当地用户很少的战乱地区,每天集体跑步的美国士兵在热力图上圈出了异常明显的行动路线,基地位置、出勤时间、巡逻路线在图上一目了然。
2012年,美国罗彻斯特大学教授亚当?萨迪克(AdamSadilek)和微软实验室的工程师约翰?克拉姆(JohnKrumm)共同发布了他们的研究,“如今已有大量研究能够预测人的未来行程,比较典型的是可以预测一小时以后,人会去哪儿。”他们的论文这样写道,“相反,我们着手解决的是更开放的难题――预测数月甚至数年后,人们会在哪儿。”
他们收集了32000天里307个人和396辆车的GPS数据,构建模型,准确度高达80%。在他们的描述里,未来的营销广告甚至可以精确成这样:“需要理发吗?4天后,你将会出现在这家美发厅附近,到时候可以获得5美元的折扣。”
大河说,有次数据团队私下聊天,聊着聊着突然有人问,一个人活一辈子,是不是也能用大数据分析出来?
结果,几个人嘻嘻哈哈地开始推演,很快把自己吓到了。在理想状态下,一个人从生到死的每一个阶段,还真有可能预测出来――出生在哪里,家庭背景什么样,父母收入水平怎么样,小时候的性格行为习惯,结合当地教育水平指数,再算上从新闻中提取的实时经济波动曲线等等,很多以为是意外的东西,更多时候只是一种计算概率。
讨论到最后,有人嚷嚷,那活着还有什么意思啊?闹了半天,活着就是一个数学概率问题啊?
事实上,这是一部分数据科学家的愿望。他们希望打通每个环节的数据,获得全域大数据,开启“上帝视角”,最大限度挖掘数据。在乐观者的描述里,那会是一个奇妙的世界,机器会基于大数据替我们选择最划算的商品、最合适的医生、最好的路径,以后也不再会有交通堵塞,每个人的运行轨迹会实时调整配置,一路绿灯……
但是,也会遇到另一种可能:你的健康数据显示你的胆固醇过高,需要锻炼,节制饮食,可是你的购物车里下单了油炸食品,签收人是你本人,运动传感器显示,你没去跑步,还是窝在沙发上看电视剧,因此,潜在招聘官判定你的性格含有“意志薄弱”的标签,打算拒绝你的求职申请。
这是一家大公司技术负责人曾经面对的一个真实的选择。在他的故事里,数据研究者找到他,希望他打通数据,利用用户的购物数据辅助招聘决策。但是那一次,他选择了放弃。一大理由是跨度太大,准确率无法保证,另一个理由是,这样做让他多少感到伦理越界,“大数据亦有所不为”。
在大数据的世界里,依然有人相信,世界上总有数据没有办法解释的那部分人性。韦思岸说,他依然更相信Serendipity,机缘巧合。“我不想被定位、细分、转化、分析,我可不想成为一个被大数据模型定义的人。”
尽管早已不是一名物理学家,但是他依然笃信许多物理学法则,比如能量守恒、关系反转。大数据最美好的部分,不是最终发现了揭示人性的完美模型,而是不断探索人性的过程。
他说,技术最美妙之处,就在于它能够提供无数的可能性。技术挖掘用户数据,让人感受到越界,但同样地,它也能用来曝光那些封闭信息的官僚机构和组织,用技术的方式打破他们的掩饰,让数据完全透明,为公众所用。现在的关键,是展开公开的讨论,找到这条边界。
?o论如何,我们依然生活在这个数字化包围的世界,不愿意放手。统计显示,人们平均每天要在手机屏幕上滑动2617次,在睡不着觉的晚上,23%的受访者会抱着手机睡觉,而其中的3%则强调,自己必须要天天握着手机,才能入睡。
光纤传回数据的时候没有声音,它不会提醒你,这里正在发生什么。在更好的规则到来前,大数据世界将依然是一个没有警笛的沉默战场。就像是这座城市里被忽视的周五晚高峰地铁上的八卦、没有打开的高端财经App、被印在报价表上的个人喜好,还有那些为了它苦恼、争吵、麻木、抗争的人类故事一样,它们只存在在一串字符与另一串字符的连接中,极少为人们所知。
(本文部分数据来源CNNIC、QuestMobile、TalkingData、友盟、尼尔森、国家统计局等公开数据及上市公司公开年报,尤榕萍、万雨可、姚胤米对此文亦有贡献,文中提及的中国数据工作者均为匿名)