序言
本书的内容,强调今天是一个大量数据公开于大众的时代。自从资讯革命以来,资讯工具、硬件、软件,平行发展、与时俱进。数据在我们生活之中,日常接触,已是处处可见的现象。收集数据,当然是靠电脑的快速分类和记录,然而更重的是搜索引擎的进步,与网络之间网际的交流。
不仅数据经过管理而大量地存在,而且,在现代的国家,开放的社会与政府之间,经由数据,彼此一目了然、无所隐瞒。一个自由的社会,掌握公权力的政府,跟任何其他政府一样,有压倒社会的庞大力量,因为他们手上掌握了人生需要的许多数据。不过,这些数据,公民也可以一样取得,使政府所作所为,可以摊开在天地之间,让我们检验。
任何一个组织,要抓住大数据的机遇,就必须做好几个方面的工作。从技术角度来看,首先要收集并且开发特定的工具,来管理大规模并行服务器产生的结构化和非结构化数据,这些数据,可能是自己专有的,也可能是来源于“云”。其次,每一个组织都需要选定分析软件,用它来挖掘数据的意义。但可能最重要的是,任何组织都需要人才来管理和分析大数据。这些人被称为“数据科学家”,他们集黑客和定量分析员的优势和特长于一身,非常短缺。聪明的领导人,讲想方设法留住这类人才。
序幕 新总统的第一天
你们每个人,都可以拿了毕业证,走下这个讲台,然后去追求锦衣玉食等等这个金钱社会视为理所当然的东西。你可以选择只关心自己的喜怒哀乐,把你的生活和国家发展割裂开来。
但我不希望你这样做。这不仅仅是因为你对那些没有你幸运的人负有责任,尽管你确定负有责任;也不仅仅是因为你对帮助你走到今天的人欠有债,尽管你确实欠下了债。
这是因为:你对你自己负有使命和责任。
这是因为:我们个人的命运依赖于群体的命运。
这是因为:如果你仅仅考虑你自己,满足于眼前的需要,这是一种贫乏。
这是因为:只有你把你自己的战车和其他一些更伟大的东西绑定在一起的时候,你才能发现你真正的能量,才能发现你为美国这个国家继续书写历史所能扮演的角色。—— 奥巴马2008年5月27日在卫斯理大学毕业典礼上的演讲
第一章 历史争战 《信息自由法》
美国社会的“第四股力量”(Fourth Estate),是指除了立法、执法和司法三权之外的“新闻和报纸”。杰斐逊:“如果由我来决定,我们是要一个有一个政府、没报纸的社会,还是一个有报纸、没政府的社会,我将毫不犹豫地选择后者。”
约翰·摩斯——《信息自由法》之父
P21 写本本
所有的政府,都建立在妥协和交换的基础之上,人类的所有收益和快乐、所有的美德、所有明智的行为,无一不是妥协和交换。 —— 埃德蒙·伯克 (1729-1797),英国政治家
P24 阳光是腐败最好的防腐剂。
政府文件,是静态的决策记录;而会议,才是动态的决策过程。
18世纪,英国著名的政治学家埃德蒙·伯克曾经一针见血的指出:所有的政府,都是建立在妥协和交换的基础之上。他认为政治行为在本质上是一种妥协和交换。人类政府的历史,其实是一部各种利益不断妥协与交换的历史,也只有在不断地妥协与交换中各种利益才可能获得相对的平衡,他继而指出,其实人类所有的收益和快乐,所以的美德,所有明智的行为,无疑不是妥协和交换。
对于这种妥协,美国总统并不忌讳。艾森豪威尔就曾经坦言说:一提到中间路线,人们就认为这是不可以接受的。事实上,人类所有的问题,除了道德,都处在中间的灰色地带。事情并不是非黑即白,我们总是要妥协的。马路的中间才是全部可以使用的区域,最左边和最右边都是沟渠等危险地带。
那么,为什么必须妥协?其背后交换的原则又是什么?
几乎和伯克同时,经济学的鼻祖亚当·斯密在其经典著作《国富论》中提出了“理性经济人”的假设。他主张,人都是利己的,在面临两种以上选择时,总会选择对自己更有利的方案,争取最大的经济利益。
其次是关于需求。
1943年,美国心理学家马斯洛提出了人类的需求层次理论,对人类如何做出妥协和交换作出了更细致的解释。马斯洛把人类的需求划分为生理、安全、社交、尊重和自我实现五大类,这五大类需求如阶梯一样从低到高展开,低层次的需求相对满足了,更高层次的需求就会成为个人行为的主导。在人生的不同阶段和境况,会有不同的“主导需求”。最高层次的需求,是“自我实现”。所谓的“自我实现”,又分为“名利、成就、道德、真理”等等,其中,个人对名利和成就的追求又占了主导。
一切的妥协和交换,都是围绕个人的“主导需求”发生的。但恰恰在所有能成为“主导需求”的因素当中,道德是最为薄弱的的,很难成为一个人行为的“主导”。
福特、约翰逊、莫耶斯和拉姆斯菲尔德的变化,就是因为人的位置变了,即使内心的道德判断还是一样,但利益结构变了,主导需求也变了,所以行为和选择也就变了。 人,绝不是天使。任何人的历史,都是一部道德、理性与私欲的斗争史;这种斗争,此起彼伏,至死方休。精英也好,领袖也罢,其实都是凡人,很多时候,都无法战胜自己的私心和欲望,需要外力的制约和推动。
第二章 数据帝国的兴起
联邦政府的文件、会议甚至数据都规定了可以公开,但近年来信息技术突飞猛进的发展,特别是互联网的兴起,不仅给信息公开的内容、也给公开的方式带来了新的机遇和挑战。
一个好的数据结构和一个糟糕的代码,比一个糟糕的数据结构和好的代码要强得多 ——埃里克·雷蒙
最小数据集——指代国家的管理层针对某个业务管理领域强制收集的数据指标。
对于软件开发而言,数据库的设计甚至比程序的设计还要重要。
最小数据集,其实就是一个业务管理过程当中最重要的数据指标。
普适计算:通过在日常环境中广泛部署微小的计算设备,人们能够在任何时间和任何地点获取并处理信息,计算将最终和环境融为一体。这就是普适计算,是人类的第三波计算浪潮。 一句话:万事万物,凡存在,皆联网,凡联网,皆计算。 (摄像头与传感器,马克·韦泽) RFID(射频识别标签)
如何收集、保存、维护、管理、分析、共享正在成指数级增长的数据,是我们必须面对的挑战。 如何保证这些数据现在、将来的完整性和可用性,我们面临着很多的问题和挑战。如何使用这些数据,则是另外一个挑战……应对好这些挑战,将引导我们在科研、医疗、商业和国家安全方面开创新的成功。
大数据,将成为全世界下一个创新、竞争和生产效率提高的前沿。大数据的提取、存储、分析、共享和可视化。
第三章 数据治国
尽管信息时代的技术进步已经彻底改变了商业领域和体育运动领域的决策过程,但联邦政府对这些新技术的应用还仅仅处在一个开始的阶段。要实施「数据驱动的决策方法」(Data-Driven Decision Making),我们不仅要使用新的技术、还要改变目前的决策过程。
然而,一旦打破这些障碍,我们将从中获益:政府将更有效率、更加开放、更加负责,引导政府前进的将是「基于实证的事实」,而不是「意识形态」,也不是利益集团在政府决策过程中施加的影响。
机遇就在眼前。我们现在需要具有远见的政治领袖立刻抓住这个机遇。
——丹尼尔·埃斯蒂,耶鲁大学法学院教授,2007年4月
爱德华·戴明
可以想象,随着数据的积累和增多,可以做的分析和对比也越来越多。一起交通事故的数据可能是无序的,一年的数据、一个地区的数据也看不出太多的章法,但随着跨年度、跨地区的数据越来越多,群体的行为特点就会在数据上呈现出一种“秩序、关联和稳定”。,更对的规律将浮出水面。
如果认为网上的数据发布仅仅是为了社会监督,那就大错特错了。监督仅仅只是其中一个目的。交通安全管理局在介绍他们循“数”管理的经验时,特别强调了通过网络发布数据的重要意义。 在网上发布数据,将会吸引一大批对这个问题感兴趣的各界人士参与到政策制定的过程中来,足够多的眼睛,将会使所有的问题都无所遁形,更多的问题将被发现,更多的细节将被讨论,更好的方案将会被激发。还有,通过发布这些数据,一项具体政策的执行效果能够被量化,各个州之间很方便进行“事实对比”,新的政策如果有效,很容易在全国范围内被接受、复制并推广,形成一种良性的“政策竞争”氛围。
P74 数据挖掘的打假功能
P73 CompStat:街头警察的创新传奇 计算机统计 警务管理模式
“数据驱动”的管理方法,“数据和信息是执法工作当中制定战略和决策的基础”
P82 最重要的一条:数据收集和数据分析必须成为基层警务部门的一种文化,这种文化代表着基层警务部门一种管理哲学的改变,这种改变,也是该项目实施过程最大的挑战。
第四章 商务智能的前世今生
一致的真相(A single version of the truth):独立的业务系统,通过数据挖掘的技术,可以获得一幅关于企业运营的完整图景。
收集数据、分析数据、发布数据,这一系列和数据有关的信息技术,在商业界其实有个更时尚、更响亮的名字:商务智能。P97 “商务智能(Business Intelligence),指的是一系列以事实为支持、辅助商业决策的技术和方法。”
在当今时代,最不缺乏的就是信息。信息消费了什么,这是很明显的:它消费的是信息接受者的注意力。信息越丰富,就会导致注意力越匮乏……当今,信息并不匮乏,匮乏的是我们处理信息的能力,我们有限的注意力是组织活动的主要瓶颈。 ——赫伯特·西蒙
赫伯特·西蒙(1916-2001),20世纪全世界最具影响力的科学家之一,他横跨多个学科和领域,曾获得1975年的图灵奖、1978年的诺贝尔经济学奖、1993年的美国心理协会终身成就奖。
卡内基梅隆大学的赫伯特·西蒙指出,人类的理性是有限的,因此所有的决策都是基于有限理性(Bounded Rationality)的结果。他继而提出,如果能利用存储在计算机里的信息——即数据来辅助决策,人类理性的范围将会扩大,决策的质量就能提高。 他进而预测:在后工业时代,也就是信息时代, 人类社会的中心问题将从如何提高生产率转变为如何更好地利用信息来辅助决策。 从BI到BA:获取洞察力需要迈过的那些坎
决策支持系统——商务智能:如何将数据、信息转换为知识,扩大人类的理性,辅助决策。
数据——(赋予背景)——信息——(提炼规律)——知识——(指导实践)——价值、效用、利润
P89运营式系统:是指为了提高日常工作效率而设计的系统,数据在其中的作用是一个个的流程记录,数据在其中的作用,是一个个商务流程的记录,数据在这些系统中不断积累的结果,仅仅用于查询,而不是分析。
数据仓库是一个面向主题的(Subject Oriented)、集成的(Integrated)、相对稳定的(Non-Volatile)、反映历史变化(Time Vaiant)的数据集合,用于支持管理中的决策制定。
数据仓库( Data Warehouse)是一个面向主题纳(Subject Oriented)、集成的、相对稳定的、反映历史变化的数据集合,用于支持管理决策。可以从两个层次理解数据仓库:首先,数据仓库用于决策支持,面向分析型数据处理,不同于企业现有的操作型数据库:其次,数据仓库是对多个异构数据源(包括历史数据)的有效集成,集成后按主题重组,且存放在数据仓库中的数据一般不再修改。
与操作型数据库相比,数据仓库的主要特点如下。
(1)面向主题:操作型数据库的数据面向事务处理,各个业务系统之问各自分离,而数据仓库中的数据按主题进行组织。主题指的是用户使用数据仓库进行决策时所关心的某些方面,一个主题通常与多个操作型系统相关。
(2)集成:面向事务处理的操作型数据库通常与某些特定的应用楣关,数据库之间相互独立,并且往往是异构的。而数据仓库中的数据是在对原有分散的数据库数据抽取、清理的基础上经过系统加工、汇总和整理得到的,消除了源数据中的不一致性,保证数据仓库内的信息是整个企业的一致性的全局信息。
(3)相对稳定:操作型数据库中的数据通常是实时更新的,数据根据需要及时发生变化。而数据仓库的数据主要供企业决策分析之用,所涉及的数据操作主要是数据查询,只有少量的修改和删除操作,通常只需定期加载、刷新。
(4)反映历史变化:操作型数据库主要关心当前某一个时间段内的数据,而数据仓库中的数据通常包含历史信息,系统记录了企业从过去某一时刻到当前各个阶段的信息,通过这些信息,可以对企业的发展历程和未来趋势做出定量分析和预测。
ETL工具(Extraction,Transformation,Load)工具和数据仓库理论的成熟,突破了决策支持系统的瓶颈。从此,商务智能的发展走上了顺风输水的快车道。
联机分析(Online Analytical Processing),也称多维分析。
OLAP 埃德加·科德 《信息技术的必然:给分析用户提供联机分析》
P97 数据挖掘:大数据经典案例,你知道几个——啤酒与尿布
如果说联机分析是对数据的一种透视性的探测,数据挖掘则是对数据进行挖山凿矿式的开采。它的主要目的,一是发现潜藏在数据表面之下的历史规律,二是对未来进行预测。前者称为描述性分析,后者称为预测性分析。
结构化数据和非结构化数据:按结构,数据可以划分为两类:结构化数据和非结构化数据。结构化数据是指存储在数据库当中、有统一结构和格式的数据,这种数据,比较容易分析和处理。非结构化数据是指无法用数字或统一的结构来表示的信息,包括各种文档、图像、音频和视频等,这种数据,没有统一的大小和格式,给分析和挖掘带来了更大的挑战。从结构化数据到非结构化数据的推进,也代表着可供挖掘的数据在大幅增加。
商务智能——数据仓库、联机分析、数据挖掘、数据可视化
第五章 帝国的法则
路易斯·布兰代斯
边际成本和固定成本
第六章 《数据质量法》的困局
数据质量问题和隐私安全都曾在美国引起过巨大的风波和争议。
为了保证政府的管制权不会被滥用,企业必须能够对行业管制标准背后的数据质量进行质疑和挑战。
政府俘虏理论(Regulatory Capture Theory)
旋转门(Revolving Door),类似于中国词语里的“走马灯”,指的是一些个人在官场、企业和说客三个角色之间穿梭转换,这边刚刚迈出政府权力机关的大门,那厢就成了资本家的座上宾、大公司的代言人。从权力场到名利场,换汤不换药,转来转去的,都是同一批人。
旋转门现象的出现,在美国社会有深刻的背景。进入大政府时代之后,联邦政府的职能不断扩大,对企业的管制不断加强。政府部门需要大量具备专业知识、熟悉企业情况的工作人员来制定行业管制的标准;另一方面,由于政府加大了监管力度,频繁退出更为全面、细致的行业管制措施,企业也迫切需要具有政府部门经验和人脉关系的人员加盟,其中的道理,不言而喻。
“掺沙子”法案
我们已经尝试了很多种政府组织的形式,还将在这充满了罪和灾难的世界继续尝试。没有人认为民主制度是完美的或万能的。事实上,民主制度是一种糟糕的制度。但迄今为止,这是我们对政府形式所有的尝试当中发现的最好形式。——丘吉尔 1947
P148 “无论是公司,还是消费者和环境保护的公益组织,全社会都可以来质疑政府发布的数据是否准确,各种不同的利益,都将得到保护。”但事实证明,这仅仅是冠冕堂皇的说辞;现实是,《数据质量法》仅仅成了商业组织反对管制标准的利器,公共利益的代表常常缺位。
为什么在美国这样一个高度民主化的国家,在政府与企业游说的博弈当中,公共利益常常还是无人代表或者说缺乏强有力的代表呢?这也恰恰印证了斯蒂格勒指出的:”政府最终会被利益集团捕获“。
P149 《集体行动的逻辑》 公共利益的代表缺位,是人类社会发展中的困局,每一个社会都难以避免。
经济理性人
奥尔森指出,当集体越小、利益冲突越激烈的时候,越容易联合;当集体越大、利益冲突并不明显的时候,越难联合。
奥尔森:公共利益的代表缺位、专制社会的困境,最终是可以打破的。 一个集体、一个社会,要建立合适的激励机制,奖励那些为共同利益作贡献的个人,惩罚那些没有承担集体行动成本的“搭便车者”,从而营造关心公共利益的社会文化和运行机制。
奥尔森的理论其实也很好地解释了专制制度为什么能在一些国家长期存在。
专制者将一个国家大部分人的一部分权利和自由都剥夺了、抹杀了,大家都憎恨专制,但在一定时间、一定程度内,却很少有人反抗。为什么?这是因为,通过反抗,即使能推翻专制制度,其结果是所有人都收益,但出头冒尖的人却很可能要付出极大的代价。人的自利天性,使大部分人都选择了沉默,并把希冀的目光投向他人。 专制者当然懂得这个道理,他们在维护专制的同时,会不遗余力地打击出头冒尖的反抗者,杀鸡儆猴,全力瓦解一切可能发生的集体行动。
一个集体、一个社会,要建立合适的激励机制,奖励那些为共同利益作贡献的个人,惩罚那些没有承担集体行动成本的“搭便车者”,从而营造关心公共利益的社会文化和运行机制。
P151 代议制
托克维克——《论美国的民主》
只有通过各种各样的自由结社,各种利益,包括公共利益,才能最终被充分代表。平等和结社,不仅可以帮助人类社会走向文明,也是人类社会保持、延续文明的关键。
布兰代斯大法官:国家生活的和谐,是各种对抗力量争斗的结果。坦诚表达针锋相对的观点,才会最大可能地以智慧引导政府的行为,打压则常常导致巨大的危险。 恰恰是各种不同力量之间的对抗、各种不同意见之间的争辩,才是美国社会和谐和发展的保证。
第七章 全国隐私风波
大数据就是“老大哥”:中央数据银行之争
我们有很多小的、独立的信息记录系统。这些系统,就单个而言,它们可能无关痛痒,甚至是很有用的、完全合理的。但一旦把它们通过自动化的技术整合连接起来,它们就会渐渐吞食我们的个人自由。这才是真正的危险 ——美国隐私研究委员会,1977年
P162 迪博德后来总结说, 在信息时代,计算机内的每一个数据、每一片字节,都是构成一个人隐私的血肉。信息加总和数据整合,对隐私的穿透力不仅仅是1+1=2,很多时候是大于2的。
P167 近几十年以来,美国也对统一身份证这个问题做过很多次民意调查,但除了珍珠港事件之后的昙花一现,每次都是反对意见占了绝对上风。1942年,民意调查的创始人乔治·盖洛普曾经在《纽约时报》上对统一身份证这个问题做过一个很好的总结。他认为,统一身份证是管理社会、控制公民的一种手段,在美国,这种手段被视为是警察国家的做法,是集权社会的象征,是违反美国精神的。当然,盖洛普也承认,统一身份证有利于警察打击犯罪、加强国家的安全,特别是在应对恐怖袭击、自然灾害等等突发事件当中,统一身份证将大大方便政府对社会的管理和控制。
万维信息触角
第八章 数据开放运动
争你们个人的自由,便是为国家争自由!争你们自己的人格,便是为国家争人格!自由平等的国家不是一群奴才建造的起来的!——胡适1891-1962
唯此独立之精神,自由之思想,历千万祀,与天壤而同久,共三光而永光。——陈寅恪1890-1969
自由软件运动和开源运动三剑客:理查德·马修·斯托曼(Richard Matthew Stallman)、林纳斯·托瓦兹(Linus Benedict Torvalds)、埃里克·雷蒙( Eric Steven Raymond )
P189 维基百科就是按集市模式通过大众自由协作而产生的,而网络版的大英百科全书则是典型的大教堂模式。
“足够多的眼睛,将使所有的错误都无所遁形”
P190 Tim O’Reilly(出版人)
林纳斯定律:集市模式
林纳斯第二定律:“ 一个人做事情的动机,可以分为三类:一是求生,二是社会生活,三是娱乐。当我们的动机上升到一个更高的阶段时,我们才会取得进步:不是仅仅为了求生,更是为了改变社会,更理想的是——为了兴趣和快乐。 ”
软件 = 代码 + 数据
公共财政支出数据
维伟克·昆德拉:联邦政府第一任首席信息官
P201 用数据分析的方法推动城市绩效管理
P201 Data.gov
P214 憎恶等待,人之常情
P216 根据公共数据,开发应用,二次重新:比如查询商品价格、各种因商品质量问题召回记录。
P208-218 根据公共数据创新的例子:航班延误之候机经济学、商品召回手机查询系统、数据混搭器。
第九章 试金石:白宫访客记录
本杰明·富兰克林:“ 我认为帮助穷人最好的方法,不是给予金钱实物减轻他们的贫困,而是引导鼓励他们脱离贫穷。年轻的时候我在很多地方游历,在不同的国家我都观察到:政府为穷人提供的更多,他们自己努力的就更少,自己不努力,自然更加贫穷。相反,政府为他们提供的越少,他们就为自己做得越多,他们也就变得更富有。”
“自助是最好的帮助”(Self help is the best help.Aesop.)
自助自立
第十章 矿难中的歌声和数据
政治学家奥尔森指出,利益受到侵害的大众,由于其分散性,很难有效地组织起来;而公司、资本家一方,由于其利益高度集中,很容易结盟,形成游说的势力,左右政府的政策。
奥尔森应对集体行动困境的办法:一个群体,要建立合适的激励手段,营造为共同利益而努力的文化氛围和运行机制。
斯蒂格勒除了“政府俘虏理论”,也为信息经济学提出“信息不对称理论”。该理论指出,掌握信息多的人,在社会竞争中处于有利的地位,而信息贫乏的人,则处于不利的地位。前者可以通过向后者有偿转让信息来获取利益;无偿出让,则收获“善意”;只有信息自由流动,各方掌握相同的信息之后,彼此才能建立完全的信任。 信息链的底层,只能凭借其他方开放的信息来保护自己的安全。 如果把信息公开仅仅解读为公众对政府一种单方面的监督,是狭隘的、片面的,信息公开也是政府的一种自我保护。
P263 独立调查记者 艾伦·史密斯
P266 艾伦·史密斯《煤矿安全与健康简报》的主编。梅恩(Joe Main)矿山安全健康局现任局长。 史密斯回忆梅恩:“当年他在工会工作的时候,可不是这么说的。人性的善变,远远超出我们的想象。我们要记住,无论何党当政,何人主政,政府总是有设法掩盖事实的倾向,信息公开不会自动发生,公民要参与、要抗争。”
如果一方不争,那他的利益自然得不到充分的照顾和保证。 民主框架的本身,也是一个争的结果。就算已经建立,还需要公民不断地去捍卫、去维护、去争,防止它在现实面前脱轨走样。 民主不是结果、而是参与的过程,这个过程,时时都要争。说白了,世界是现实的,其实没有一件事情可以坐等,可以一劳永逸。
P267 回顾人类社会从古至今所有政府的历史,无论民主也好、专制也罢,所有的政府有一点是共通的:因为缺乏竞争,官僚体制与生俱来都有一种僵化保守的本性,政府机关也往往因此固守不前。但这种僵化保守也不是一成不变的,很多时候,官僚们也需要制造新的口号、接受新的概念来“收买”民意、顺承时代。说到底,一个社会,普罗大众有没有公民精神、是否勇于承担公共责任、争与不争,才是最重要的。
视界一:大趋势
新的数据权,最令人激动。这将确保人民有向政府索取各式各样的数据,用于社会创新或者商业创新。通过这些措施,我们可以创建一个最开放、最负责和最透明的政府。让我这样做一个总结:你会有足够多的信息来了解政府是如何运行的,如何花钱的,以及我们工作的效果。使用这些数据、开发这些数据,让我们负起责来,一起努力,创建一个现代民主的典范。——卡梅伦
P272 蒂姆·伯纳斯-李( Sir Timothy John Berners-Lee )
下一代互联网的本质就是“数据网”(Web of Data)
“原始数据,现在就要!”
万维网和互联网的区别
P275 基于公共数据开发应用的实例 Data.gov 中国的公共数据
虽然各国的人民有不同的文化、面临不同的挑战,发展路径也各不相同,但归根结底,自由才是历史发展的最终趋势,而开放的政府、开放的经济、开放的社会正是人类之所以能够不断向前发展、获取更大自由的根本动力。
P278 data.gov开源 开放政府联盟
Data.one 中国香港
就像公用电话网一样,计算的能力,有一天会被组织起来,成为一种公共资源和公共事业,这种公共资源和事业,会成为一个新的、重要的产业。——约翰·麦卡锡(1927—2011),美国计算机科学家、图灵奖获得者,1963年
P281 网络就是你的计算力,网络就是你的电脑。这种通过网络将计算能力组织起来的做法,可以实现经济学意义上上的“规模化”和“专业化”,意味着巨大的利润空间。
P282 云的运营商把计算能力当做一种资源,集中在一起,然后再通过网络,配送给有需要的客户。客户需要的计算资源多,服务商就送得多。客户需求一下降,配送就可以立刻下调。客户购买这种服务之后,就不再需要购置额外的软件和硬件。
P283 关于云的比喻——曾经,每一个家庭、农庄、村落、城市都必须有自己的水井。今天,你仅仅打开水龙头,干净的说就通过公共供水管道输送给我们。云计算,也是这个道理。就像我们厨房里的水一样,可以根据我们的需要,随时打开或者关上。 在自来水供应公司,有一群专业人员负责水的质量、安全以及24小时不间断供应。当你关上水龙头,你不仅节约了水,你也不用为你没用的水付费。
P287 语义网(Web 3.0),谷歌的搜索服务,将不再有立足之地。
Web1.0:以网站为标志的信息传播共享
Web2.0:以社交媒体为顶峰的信息交流和协同
Web3.0:以语义网为基础的数据智能网络
语义网的建设,元数据是关键。 元数据(Metadata) 是大数据时代的一个重要概念,指描述、解释数据属性的数据(data about data),是为支持一致性的数据描述所定义的统一准则。
网络的外部性(Network Externality):网络的外部性是理解现代经济的一个重要概念。它是指某件产品对单个消费者的使用价值,取决于这件产品总用户的多少。用户的人数越多、形成一个越大的网络,每个用户从产品中得到的效用就越高。电话、即时通讯软件、社交网站等都是网络外部性的典型例子。
终有一天,全球将数数相联。
互联网将向我们“推送信息”,而不再是我们网上“搜索”信息。
那将是一个更加辉煌的大数据时代。大数据之“大“,将不仅仅意味着数据之多,还意味着,每个数据都能在互联网上获得生命、产生智能、散发活力和光彩。
视界二:大挑战
在全球经济的很多领域,大数据在以很多方式创造价值。事实上,研究表明:随着消费者、公司、各个经济领域不断挖掘大数据的潜力,我们正处在一个巨大浪潮的尖峰,这个浪潮,就是大数据驱动的创新、生产率提高、经济增长以及新的竞争形式和新的价值的产生。 —— 《大数据:下一个创新、竞争和生产率的前沿》
麦肯锡全球研究所,2011年5月
P300 自我量化(Quantified Self):数据驱动的个人新生活
利用计算机、智能手机以及各种新的电子便携感应器来记录自己学习、工作、运动、休息、娱乐、饮食、心情等等个体行为的情况…为了更好地了解我们、提高自己,我们必须要用数据来记录、研究、分析自己的行为。
其理由在于:人的感觉中存在盲点,直觉不可信任,理性思维也有局限,人脑即使有惊人的记忆力,也未必有惊人的信息加工能力。很多时候,我们会高估自己的理性,低估情绪对我们的影响。认识自己虽然很难,但非常重要。基于数据的记录和分析,可以帮助我们走出错觉、认识真正的自己。
P301 《数据分析竞争法》 麦肯锡报告
P307 大数据将在16个方面改善零售业的运营
P309 《数字化生存》——后信息时代
“长期以来,我们都太热衷与讨论从工业时代到信息时代的转变,以致一直没有注意到我们正在进入后信息时代。”
尾声 挑战中国:摘下“差不多先生”的文化标签
黄仁宇总结:中国的落后,根源之一正式缺乏以数据为基础的精确管理;而未来中国的进步,也有赖于建立这种精确的管理体系。
《中国人的性格》