手机浏览器扫描二维码访问
特内尔对数据共享的描述令我想起了这些经验教训。眼下的这些挑战虽然复杂,但其实与开源社区曾经应对的许多挑战相类似。在微软内部,我们也在越来越多地使用开源软件,而这又让我们进一步思考创建开源环境所涉及的技术、组织和法律挑战。最近,我们刚刚赋予技术部门的一项主要工作,就是解决在共享数据使用方面的隐私和法律挑战。
与未来可能出现的困难相比,特内尔所描述的数据共享前景更加令人激动。如果我们发起一场开放数据革命,就像当年软件行业开放源代码一样,那将会对数据行业产生怎样的影响?如果这种方法令拥有最大专属数据集的内向型机构的工作相形见绌,又会造成怎样的后果呢?
这场讨论使我想起几年前参加的一次会议,在那次会议上,大家出人意料地集中讨论了共享数据对现实世界的影响。
2016年12月初,在总统大选结束一个月后,微软在华盛顿特区的办公室举行了一次会议,研究科技对总统竞选的影响。民主、共和两党以及多个竞选活动都使用了我们的产品,当然还有其他公司的许多技术。两党人士已经同意分别与我们会面,讨论他们对科技的具体使用以及使用心得。
我们首先会见了希拉里竞选团队的几位顾问。在2016年整个竞选季,他们都被认为是美国政治数据的核心动力源。他们建立了一个庞大的分析部门,挟民主党全国委员会(DNC)提名获胜和奥巴马2012年连任成功之威,试图再下一城。
希拉里阵营邀请了顶尖的技术专家,制订了被认为是世界上最先进的竞选技术解决方案,以求充分利用和完善也许是这个国家最好的独立政治数据集。技术和竞选顾问们告诉我们,希拉里聪明友善的竞选经理罗比·穆克的大部分决策都是基于分析部门的深度分析。据报道,随着东海岸选举日的结束,整个竞选团队都相信他们赢得了大选,而且这在很大程度上要感谢他们的数据分析能力。大约在晚餐时间,分析团队离开电脑,全体竞选工作人员心怀感激之情,起立鼓掌向他们致敬。
一个月后,面对竞选失败的苦果,最初的掌声已经烟消云散,取而代之的是分析团队的日渐沉默。由于对密歇根州和威斯康星州这两个摇摆州共和党支持度上升的情况存在误判(密歇根州的失误到大选前一周才得以纠正,而威斯康星州的误判甚至直到点票当晚才发现),竞选团队受到了公开批评。但人们普遍对竞选团队的数据能力仍然充满信心。在我们即将结束调查的时候,我问了民主党团队一个简单的问题:“你们认为你们输在你们的数据操作呢,还是与此无关?”
他们的反应既迅速又充满自信:“毫无疑问,我们有更好的数据操作。尽管如此,我们还是输了。”
民主党的团队离开后,我们稍事休息,然后继续坐下来与共和党的团队交换意见。
根据他们所描述的竞选过程,唐纳德·特朗普的当选经历了出人意料的波折和反转,对他的竞选数据策略也产生了决定性的影响。2012年,奥巴马连任后不久,雷恩斯·普里巴斯也成功连任共和党全国委员会(RNC)主席。针对2012年大选失利,他和他的新幕僚长迈克·希尔兹对包括技术策略在内的RNC操盘工作进行了一次自上而下的审查。与快节奏的科技世界中经常发生的情况一样,他们也迎来了一次超越竞争对手的跨越式发展机会。
普里巴斯和希尔兹使用三家共和党技术咨询公司的数据模型,将它们在RNC内部投入使用。虽然他们很难借力于亲民主党的硅谷科技人才,但他们从密歇根大学请来了一位新的首席技术官,又从弗吉尼亚交通部请来了一位年轻的技术专家,搭建政治世界的新算法。两位RNC领导人相信并证明了顶尖的数据科学人才无处不在。
那天上午对共和党的科技策士们最为重要的一刻,是普里巴斯和他的团队接下来做成的事。他们成功地建立了一个数据共享模型,不仅说服了全国各地的共和党候选人,而且说服了各种超级政治行动委员会(superPAC)和其他保守组织将它们的信息贡献给一个庞大的、基础数据联合文件。希尔兹认为,从尽可能多的来源收集尽可能多的数据非常重要,因为RNC也不知道谁将成为最终的总统候选人,更无从得知候选人认为什么样的问题或选民最重要,只能等到总统候选人确定了再说。因此,RNC团队致力于与尽可能多的组织建立联系,并把尽可能多元的数据联合在一起。结果,共和党的团队创造了比民主党全国委员会和希拉里阵营拥有的任何数据都要丰富得多的全面数据集。
当唐纳德·特朗普在2016年春季获得共和党提名时,他的操盘缺乏希拉里阵营那么深厚的技术基础。为了弥补这一不足,特朗普的女婿贾里德·库什纳与竞选团队的数字总监布拉德·帕斯卡尔合作制定了一项数字战略,决定以RNC现有资源和架构为基础,不再另起炉灶。根据RNC的数据集,他们圈定了一个1400万共和党人的大群组,这些人全都说自己不喜欢唐纳德·特朗普。为了将这群怀疑论者转化为支持者,特朗普团队在帕斯卡尔的家乡圣安东尼奥创建了阿拉莫项目,整合资金筹集、信息传递和目标定位,特别是在脸书上,他们反复向这些选民传达信息,内容涉及数据显示可能对他们很重要的话题,如阿片类药物泛滥以及奥巴马任内通过的《平价医疗法案》。
共和党团队描述了选举临近时他们的数据操盘所揭示的情况。在大选前10天,他们估计在几个重点争夺的州比希拉里一方落后两个百分点。但他们同时也发现有7%的人口还没有决定是否投票。而且竞选团队拿到了70万人的电子邮件地址,他们相信这70万人如果出来投票,很可能会在这些州把票投给特朗普。他们全力以赴说服这群人出来。
我们问共和党团队从他们的经历中吸取了哪些技术方面的经验教训。他们提到两点。首先,不要从零开始建立数据操盘能力,不要做得像希拉里团队那样深入。相反,应该使用某个主要的商业技术平台,专注于在平台上构建自己的操盘能力。其次,打造一个更广泛的联合生态系统,将尽可能多的合作伙伴聚集在一起贡献和共享数据,就像RNC所做的那样。通过这种方式将资源集中在可以在商业平台上运行的差异化功能上,如帕斯卡尔开发的那些功能。而且永远不要假设你的算法和你想象的一样好。你要不断地测试和完善它们。
会议结束时,我问了一个类似于我向民主党提出的问题:“你们获胜是因为你们的数据操盘做得最好,还是与此无关,也就是说希拉里阵营有更好的操作?”
他们的反应和当天早些时候民主党人的回答一样迅速:“毫无疑问,我们的数据操盘做得更好。我们比希拉里阵营更早地发现密歇根州开始倒向特朗普。我们还发现了希拉里团队从未发现的一些东西。我们在大选日前的那个周末就发现威斯康星州倒向特朗普了。”
两个政治团队离开后,我转向微软团队,要求举手表决。看看大家认为是希拉里团队的数据操盘更好,还是RNC特朗普团队的更好。投票结果完全一边倒。在座的每个人都认为,雷恩斯·普里巴斯和特朗普阵营所采用的方法更胜一筹。
希拉里阵营依赖其技术实力和先发优势。特朗普阵营则完全相反,其工作完全从需要出发,依赖的是更接近马修·特内尔所描述的共享数据方法。
对于到底是哪些因素决定了2016年总统大选的结果,尤其是在密歇根州、威斯康星州和宾夕法尼亚州等选票接近的“争夺州”,仍有很大的探讨余地。但我们那天得出的结论是,雷恩斯·普里巴斯和RNC的数据模型很可能帮助改变了美国历史的进程。
如果一种更加开放的数据处理方法可以取得这么大成就,那么它还能做些什么呢?我们不妨想象一下。
这种技术协作的关键,在于人的价值观和协作过程,而不仅仅是对技术的关注。组织需要决定是否共享数据,如果共享,则以何种方式共享,要把一些原则设定为基础和底线。
首先是要有保护隐私的具体安排。考虑到隐私问题的重要性日渐提高,良好的隐私保护已经成为确保组织能够共享关于人的数据以及人们能够放心共享关于自己的数据的前提条件。一项关键的挑战是开发和选择在保护隐私的同时共享数据的技术。这可能包括新的所谓“差分隐私”(differentialprivacy)技术,以新的方式保护隐私,以及提供对聚合数据或去标识数据的访问,或者实现对数据集的纯查询访问。此外,新技术可能还涉及机器学习的使用,可以训练机器对加密数据进行处理。我们很可能会看到新的模式出现,使人们能够决定是否愿意为了这个目的集体共享数据。
第二个关键需求将涉及安全。显然,如果数据是由不止一个组织联合集成和访问的,那么近年来的网络安全挑战就又增加了一个需要解决的问题。虽然其中一部分需要持续的安全强化,但我们也需要操作安全的完善,确保多个组织可以共同管理安全性。
我们还需要进行切实可行的安排来解决有关数据所有权的基本问题。我们需要确保群体和组织能够共享数据,同时不放弃对其共享数据的所有权和持续控制权。正如土地所有者有时订立地役权或其他安排,在不丧失所有权的情况下允许他人使用其财产一样,我们也需要创建新的方法来管理数据访问。这些新办法必须能够让群体通过协作的方式选择他们共享数据乃至数据使用的条件。
在解决所有这些问题的过程中,“开放数据运动”可以借鉴软件源代码的开放历程。起初,许可证授权问题阻碍了源代码的开放。但随着时间的推移,标准的开源许可证应运而生。我们可以期待在数据方面做出类似的努力。
政府政策也有助于推动开放数据运动的发展。首先可以开放更多的政府数据供公众使用,从而减少小型组织在数据方面的不足。一个很好的例子是美国国会在2014年决定通过《数字问责和透明度法案》,以标准化的方式公开更多的预算信息。在此基础上,奥巴马政府于2016年呼吁开放数据以发展人工智能。特朗普政府再进一步,提出了一项联邦综合数据战略,鼓励政府机构“将数据作为战略资产加以利用”。英国和欧盟也在进行类似的努力。但今天,只有20%的政府数据集是开放的,还有很多很多的事情要做。
开放数据也对隐私保护法的发展提出了新的要求。现行法律大多是在人工智能开发提速之前制定的,因此与开放数据之间的关系比较紧张,需要认真对待。例如,欧洲的隐私保护法侧重于所谓的目的限制,即限制信息的使用,只能用于在收集数据时就已明确规定的目的。但很多时候,会出现新的数据分享机会,而且将推进社会目标的实现,例如治愈癌症。幸运的是,这项法律允许在公平且符合原始目的的情况下重新调整数据的用途。现在,关于如何解释这条规定,肯定会有一些关键性的问题冒出来。
还有一些重要的知识产权问题,特别是在版权领域。长期以来,人们已经接受这样一种认知,即任何人都可以使用受版权保护的作品,从中获取知识,比如阅读一本书。但现在有人质疑,这一规则是否适用于机器进行的学习。如果我们想鼓励更广泛地使用数据,那么机器也能使用它们将是至关重要的。
在为数据所有者制定了切实可行的安排并解决了政府政策问题之后,还有一项重要需求需要满足。这就是技术平台和工具的发展。只有技术平台和工具发展了,数据共享才能更容易,成本才能更低。
这是特内尔在哈奇研究中心遇到的需求之一。他注意到癌症研究界和科技公司所从事的工作之间的区别。技术部门开发的是新的尖端工具,用于各种数据集的管理、集成和分析。但特内尔意识到,“那些生产数据的人和那些制造新工具的人之间的鸿沟,其实是一个被错失了的巨大机会,利用每天生成的海量科学、教育和临床试验数据,获得有影响的、改变人生的,甚至有可能拯救生命的发现”。
要实现这一点,数据用户需要一个强大的,针对开放数据的使用进行了优化的技术平台。有了这个平台,市场才能开始运作。由于不同的科技公司会采用不同的商业模式,它们有不同的方案可供选择。有些企业可能会选择在自己的平台上收集和整合数据,并向客户提供访问权,作为某种技术或咨询服务。从许多方面来看,这就是IBM沃森的运作模式,也是脸书和谷歌的网络广告模式。
有意思的是,就在8月的那个晚上马休·特内尔对我们侃侃而谈的同时,由微软、思爱普和奥多比组成的一个联合团队已经开始了一项各有侧重但相辅相成的工作。这三家公司宣布并在一个月后启动了开放数据计划,旨在提供一个技术平台和工具,帮助各类组织联合数据,同时继续拥有和保持对它们共享数据的控制。计划将提供多种技术工具,组织可以使用这些工具来识别和评估它们已经拥有的有用数据,并将其放入适合共享的机器可读和结构化格式中。
也许和其他任何工作一样,开放数据革命也需要实验来确保不会做错事。晚餐结束前,我拉来一把椅子在特内尔旁边坐下,问我们可以一起做些什么。我特别感兴趣的是,现在终于有机会推进我们微软业已与北美这个角落的其他癌症研究机构展开的合作,包括与不列颠哥伦比亚省温哥华市的几家领先组织的合作。
到12月,这项工作就取得了成果,我们宣布微软将出资400万美元支持哈奇研究中心的项目。这项工作被正式命名为卡斯卡迪亚数据发现计划,旨在帮助哈奇研究中心、华盛顿大学以及温哥华的两个机构——不列颠哥伦比亚大学和不列颠哥伦比亚省癌症研究所以保护隐私的方式识别与促进数据共享。这项计划开了一个好头。此后,数据共享渐渐普及开来,例如,加州数据协作组织将城市、自来水公司和土地规划机构的数据联合起来,通过分析研究解决方案,解决水资源短缺问题。
所有这些努力,令我们对开放数据的未来感到更加乐观,至少如果我们抓住时机。虽然有些技术现在会让一些公司和国家获得相对于其他公司与国家更大的收益,但情况并非总是如此。例如,从来没有哪个国家纠结于谁将成为世界电力领导者这类一两句话根本讲不清楚的问题。任何国家都可以使用这项发明,问题是谁更有远见,能够尽可能广泛地应用它。
在社会上,我们应该致力于使数据像电力一样容易被有效利用。这不是一项轻松的任务。但是,如果采用了恰当的数据分享方式,如果获得了政府的恰当支持,全世界完全有可能建立一种模式,确保数据不会成为少数大公司和国家的禁脔。相反,它可以发挥世界需要它发挥的作用——成为世界各地新一代经济增长的重要引擎。
穿书之黑化反派自救手册 冲出豪门似鸟飞 上班第一天,我拒绝了无偿加班! 我的竹马是哭包 莲静竹衣代表作品合集(共8册) 谢邀:人在迪迦刚成邪神 超能富豪养成计划 夏元 末日求生 读美文库——再别康桥 紫金陈:少年股神(全2册) 末世:开局爆出一只貂蝉 替身的我和白月光互穿了 灵域战仙 魔王奶团敲凶哒 全球神邸:我随机获得万界宝物 知乎高赞答主:温酒的睡前故事(全2册) 百龙传奇:人龙传 村霸农女:傲娇夫君来种田 王牌狙击手(全5册)
民间传言,云家二姑娘多次趁着夜黑风高之时,行刺文治皇帝,龙袍上全是窟窿。民间传言,安婕妤触犯了二姑娘,宫内三十多口内监宫婢被文治皇帝挨个处死,大火连烧三天不灭。张总管皇上,二姑娘今日又准备刺杀你了。皇帝甚好,今日又能与她见上一面了。张总管皇上,二姑娘被云将军打了,云将军还跪在外面淋着雨,求皇上饶命呢。皇帝让国师过来,祈雨,让雨下的更大一些。她曾是人见人怕的将军,功高盖主,被...
帝都出了名的商业鬼才竟是个爱妻狂魔!他的爱情宣言是孩子只是意外,她才是我的真爱!...
书海阁小说网免费提供作者蘑小菇的经典小说医网情深谢少的心尖宠妻最新章节全文阅读服务本站更新及时无弹窗广告欢迎光临wwwshgtw观看小说一场精心设计的医学界阴谋,将她大好年华尽数葬送。半身不遂,卧床三年。怀孕六月,相恋十年的男友再下狠手,买通主治医生,强行剖腹取子,开膛挖心!她瞪着一双空洞地眼神,看貌美如花患有先天性心脏病的长姐借着那颗熟悉的心脏,携手渣男步入婚姻殿堂血债血偿,她发誓,若有来生,定要将那对狗男女开膛剖肚,踩死脚下!...
以己身为熔炉!吞天,吞地,吞万物!有灵之物吞之,无灵之物照样吞之!万物入熔炉!万物为我,我为万物!!!!气吞天下!书友群555404241...
国公府的嫡女,嫁与将军为妻,助他成为一代名将,却被夫君婆婆厌弃,怀孕之时,他宠爱小妾,以克星为由剖腹夺子,更拿她顶罪屠之。杀身之仇,涅槃重生,她杀心机姐妹,诛恶毒继母,夺回母亲嫁妆,渣男和小妾都一一死在她的剑下。重活一世,她不再痴恋,可偏遇那不讲道理的霸道元帅。我这个所谓国公府嫡女说白了只是个乡野丫头,配不起元帅,不嫁!嫡女也好,乡野丫头也好,本帅娶定了!我心肠歹毒,容不得你三妻四妾,元帅若不想后院血流成河,最好别招惹我。本帅不纳妾,只养狼,专养你这头女恶狼,事不宜迟,春宵苦短我们来吃肉,为本帅生一窝小狼崽子!...
一纸婚约,她成了他有名无实的妻子。一次邂逅,她成了他实实在在的炮友。民政局前,她拿着契约协议,平静地开口契约到期,该离婚了。指尖捏着她的下颌,指腹触碰着她的唇,纪修渝沉稳地开口新的契约现在开始,夏惜之,我许你余生。她以为这辈子只是炮灰,却不曾想他将她捧在掌心呵护。爱她宠她,让她身处幸福的顶端。却不想站得越高,摔得越惨。夏惜之,滚!纪修渝冷峻地开口,眼里迸射着冷意。面容苍白,夏惜之的眼中泛着泪花你,爱过我吗?你配吗?纪修渝鄙夷而嫌弃地回应。夏惜之苍白一笑,决然地转身。却不知在她身后,纪修渝的眼里闪过痛楚。...