劫波研究系列之三：大数据-李凯龙的财新博客-财新网

从文字到数字，从天文到艺术，人类跌跌撞撞的演化历史中处处存在数据的身影。

大数据从绝对精确走向相对精确，从因果联系转向相关性，人类完美世界的理想在万物数据化中扬帆启航。

我们今天处在一个信息爆炸的时代，微信、微博客和视频网站总能在近乎第一时间为我们带来各式各样的资讯；打车、吃饭和购物的时候，支付宝、app和小程序们也会有五花八门的推荐。回到公司，我们需要从大量电子化的文件、合同中翻阅我们希望找到的资料；工厂车间的进度相对慢一些，但我们还是能见到逐步普及的传感器，工程师们会根据控制屏上传回的代码操控机器进行工作。

— 大数据文字数字 —

这一系列事件背后的基本元素就是数据，通过计算机键盘、手机和车载蓝牙，数据源源不断地产生和流转，仿佛一夜之间就占据了我们的世界。我们早就在佛罗伦萨美第奇家族的财产登记册，以及第一台计算机绘制的炮弹射击图表中见过各种数据，但直到近些年才发现原来它们远不止是一串冷冰冰的符号。数据不仅仅属于专业人士和科研机构，它已经和我们每一个人息息相关。它走进了我们生活和工作的方方面面，有时候甚至已经到了和我们形影不离的程度。

过去由于没有发达的传递和存储数据的载体，人类能够获取的数据非常有限，加上只有在很少的情况下能够单纯依靠数据解决复杂的问题，我们并没有充分意识到它的价值。伴随着2000年以来互联网尤其是移动互联网的发展，数据量得以快速增长，很多以前没有办法解决的问题通过数据的运用得到了解决，媒体上也开始频繁提及数据的概念。西方学者用“big”来形容这一时期数据大量出现和被广泛应用的情形，也被翻译成汉语“大数据”。

如今大数据已经成为了一个非常时髦的概念，从机场广告到商务会议，我们时不时就可以见到它的身影。原来的数据加上了“大”字以后似乎就变得魅力无穷，一切商业和公共行为只要重新用数据记载，就都可以借助它实现升级。我们不禁会问，为什么数据存在了这么多年却对我们没产生什么大的影响？今天这个所谓大数据究竟又和以往有什么不同？我们说未来会是一个数字的世界，是不是指的就是这种数据量足够大，大到一切都是数据的情形呢？

故事还得从数字的起源说起。我们的祖先居住在地球上，对于这个陌生的土地充满了未知，为了更多了解这个世界，迅速学习新鲜事物，人类逐渐发明了语言和文字。至今可考的最早的文字是公元前32世纪左右苏美尔人（居住在两河流域，文明的中心在今伊拉克首都巴格达一带）创造的楔形文字。在人类文明的传递过程中，文字起到了至为关键的作用。

起初，数字和文字是不分的——如果说文字是伴随记录信息的需求而诞生的话，数字则仅仅是因为人们存放在山洞里的财产多到需要数一数才弄得清楚，因而在文字中加入的一种计数工具而已。

后来随着人类开始拥有越来越多的财产，我们开始为这种工具制定了十进制、乘法、加减等一系列规则。在这一过程中，古代印度人发明了描述一套数字的方法，也就是今天全世界通用的包括0在内的10个阿拉伯数字（因为是借由阿拉伯人传入欧洲并得到普及的，因而欧洲普遍认为它们是来自阿拉伯人的创造）。

这项发明意味着数字和文字的分离，在这之后人类开始用一种独立的记录方式承载客观世界的信息。这种叫做数字的全新记录规则的出现，也构成了我们今天所讨论的数据的基础。通过数字符号，我们将过去的所见、所闻，对未来的预测通过石板、纸张以及计算机网络保存了下来。此外还有一些特别的部分，它们是人类通过对事情的抽象提炼，用数字编写成的具备完整逻辑的理论，诸如勾股定理、麦克斯韦方程和狄拉克公式等等，由此产生了数学这一学科。

我们将这些方程和公式的原理应用到人类历史进程的方方面面，从电气工程的设计、运载火箭的升空到互联网搜索网站的诞生，同时也把对很多事情的处理过程编写成数据。人类一点点地丰富着自己的数据资料，并借由它向下一代传递智慧和思考。

很长时间以来，由于记录规则不够丰富，尤其是成本较高等原因，数据只是零碎地散布在不同的领域，人类拥有的数据量也长期停留在很小的水平。计算机尤其是互联网的普及大大改变了这一状况，借助该技术，数据的生产门槛被大大降低，大量信息开始被转换成数据在网络上进行传递。在互联网蓬勃发展的短短十几年间，我们所创造出的数据就已经超过了人类历史以往的数据总量。

维克托·迈尔在《大数据时代》一书中曾预测，到2013年世界上存储的数据将达到约1.2ZB。这样的数据量意味着如果把这些数据全部记在书中，这些书可以覆盖整个美国52次；如果将之存储在只读光盘上，这些光盘可以堆成五堆，每一堆都可以伸到月球。

事实上，2013年的全球数据总量达到了4.4ZB，几乎是维克托·迈尔当时估计值的4倍。在这之后的数据量更是增长惊人，据统计，过去几年数据存储信息量的增长速度比世界经济的增长速度快4倍，而计算机数据处理能力的增长速度比世界经济的增长速度快9倍。随着网络连接的深入，人类数据库的规模仍将保持高速增长，IDC公司就在报告中做出过预测：到2020年全世界的数据总量预计为40ZB，而在2025年更会达到163ZB。按照这种发展趋势，人类社会在不久的将来就会被彻底淹没在数据的海洋之中。

— 切比雪夫不等式相对精确相关性 —

我们一说到大数据，它给我们的直观感受就是数据量很大，经常要用一些我们平常使用计算机少有听说的单位来标示（比如ZB）。我们刚刚也已经谈到，早期人类掌握的数据并不多，对其重视程度也不够，很长时间内，数据并没有成为我们研究问题时最为核心的考量。转折开始于20世纪70年代，当时科学界兴起一种数据驱动的研究方法，简单来说就是在解决问题的时候放弃对于精确模型的追求，转而求助于大量数据的获取。

我们以民意调查为例来说明这种方法的应用。以往为了在调查中得到一个理想的统计结果，我们常常会将精力集中在设计一个更好的统计样本。由于向全社会每一个人都发放调查问卷既不现实，成本也极高，最大的难度就在于如何挑选具备代表意义的人群组成样本（抽样），以便用相对少的数据精确地统计出我们想知道的结论。此外，现实中还会经常遇到问卷回复不完全或者无效的问题。

为了解决无法直接获得全部真实信息的情况，人类发明了概率论和统计学，它帮助我们可以大致估计出类似民意调查问题的结论。现在的疑问是这个估计是否真的可信，因为毕竟根据概率进行的抽样有很大的随机性，我们希望能够从理论上证明当观察到的数据量足够多了以后，随机性和噪声的影响可以忽略不计。19世纪俄国数学家切比雪夫对此给出了肯定的证明，他提出了这样一个不等式，也称作切比雪夫不等式：

P(|X-E(X)|>=Ɛ)<ơ^2/n*Ɛ^2

根据该不等式的原理，当调查问卷的样本数据足够时，一个随机变量和它的数学期望值之间的误差可以任意小（小于不等式右边的数值），也就是上述偏差可以在数据达到一定量之后被忽略不计。既然这样，我们可以不必去追求完美的样本模型——因为它未必存在，即使存在找到它也非常不容易，而是可以通过获取更多的数据来提升结果的准确程度。

物理学的现象说明，规模持续增加可以导致质变，比如金属的导电性会随着温度的变化而彻底改变。辩证法同时告诉我们，一方面要关注事物的变化过程，一方面也要根据发展规律，不失时机的促成事物的转化和飞跃。虽然人类很早就已经掌握了相关的理论和研究方法，但由于数据量仍然比较匮乏，数据驱动能够解决的问题即使到了80、90年代仍然十分有限。然而，人类并没有就此停止用数据解决更多问题的尝试，终于在进入2000年之后，伴随着数据量的快速积累，我们很快将多年来总结的经验串联起来，在短期内取得了多项重大的科学突破。

由于相比过去拥有了足够多的数据，我们的问卷调查结果变得越来越准确。我们已经能够精确地预测某些疾病的发生，并向驾驶员实时进行路况信息的推送等等——这些在数据量没有指数级地增长之前都是无法做到的。通过大数据的方式，我们获得了很多以往没有的便利，比如互联网公司有时候会比你更清楚你希望购买的商品，并可以通过数据搜集为你绘制出睡眠质量报告等等。

人类总是不满足于现状，我们又开始马不停蹄的思考，既然大数据有如此多的好处，我们何不将一切物理世界的事物都用镜像表达在虚拟的由数据构成的世界中？甚至是我们以前认为的一些完全和信息、数据不相干的事情比如发动机的振动，房屋里阳光投射的面积，一个人的行走轨迹等，都应该通过量化的方法记载到数据的世界。

在数据大量描述的基础上，任何发动机的振动和散热，都可以通过数学模型判断其状态，甚至能预测其未来发生故障的几率。大数据可以消除误解、增加流动，帮助我们冲破层层阻隔；大数据能够减少不确定性，大大提升决策的质量。之前人类每一轮生产工具和技术的重大发明都推动了繁荣的演进，这一次的主角将会是数据。在此基础上，整个人类社会也会迈上一个崭新的台阶。

人类憧憬着这样的美好蓝图，我们每个人同时也需要尽快做一些思维上的转变，来应对大数据时代出现的新的情况。由于我们有能力通过不断获得数据让结论更加可信，大数据抛弃了过去数据量较小时期对于精准的苛求，可以容忍一定程度的误差；另一方面，因为短期数据量的暴增，我们也可以仅仅通过数据回答过去很多无法解释的问题，这时候大数据会优先将精力集中在问题的相关性上，先借助数据的堆积回答“是什么“，这就替代了我们长久以来习惯的对于因果关系的追求，反而有利于推动事情的发展。

理想状态下的大数据社会，就是最终可以将一切物质、规则数据化，然后全部交给智能的计算机去处理——因为人类依靠现有的智慧已经无力面对如此海量的数据。我们在之前的文章中谈到，人类一直在探寻完美，终于在寻觅了这么久之后，在大数据时代触碰到了它的存在。借助大数据的威力，我们可以按照自己的意愿改造这个世界，将它变成我们希望呈现出的样子。在这个新的世界，一切规则都是清晰透明的，所有共识均可以通过数字来达成。我们将这个理想中的完美世界总结成一个简单的模型：

理想模型=万物数据化+相对精确+相关性

其中第一项主要是指物质层面，二、三项指的是思想上的变化。万物数据化既是驱动力，又是最终追寻的结果，而相对精确和相关性这两个理念，都是为了契合数据化的进程所需要的。数据化之轮已然启动，它要求我们不再拘泥一隅，或是执着于预设观点，而是敞开胸怀，让数据自己在广阔的天地发声。

— 日心说数字乐谱概率 —

为了走到大数据的今天，人类经历了重重磨难，我们通过将世界一一写入数据，解决了无数个困扰我们的疑惑和难题。让我们从宇宙和天文学的例子中领会一下这当中的不易。事情照例从混沌开始，日月星辰斗转星移，早期的人类看着这些自然现象，会产生一个理所当然的疑问——我们居住的地球在宇宙中处于一个什么样的位置？我们是宇宙的中心吗？

最初颇受欢迎的是地心说的言论，它是由古希腊时期的米利都学派形成初步理念，哲学家欧克多索于公元前4世纪提出几何模型，并经由亚里士多德、托勒密进一步发展而逐渐建立和完善起来的。该学说认为地球是宇宙的中心，是静止不动的，其它的星球都是环绕着地球运行，人类是宇宙万物的主宰。

由于地心说契合了古代教会关于上帝造人的宗教理念，自公元2世纪被体系化以来，它就一直被视为能够揭示宇宙运转规律的客观真理。虽然比欧克多索略晚一些出生的阿基米德早在公元前3世纪就建立了日心说（认为太阳是宇宙的中心，地球围绕太阳运转）模型的原型。但由于古人很难接受大地是运动的观点，加之缺乏翔实的观测数据和长期以来教会的压制，日心说一直支持者寥寥。

在之后漫长的岁月里，地心说一直是西方世界的正统，直至16世纪才有人重拾日心说的科学研究。最早复兴日心说理论的是波兰天文学家哥白尼，在其临终前出版的《天体运行论》一书中，哥白尼对日心说进行了较为详细地数学阐述。哥白尼之所以能够推动进一步的研究，主要是因为近代科学的发展，人类从最初只能通过肉眼和感觉判断，开始可以借助更多的观测工具和计算推理来分析这一问题。

然而事情并没有一下子就完成演化，由于日心说与教会思想之间存在矛盾，在哥白尼之后的支持者布鲁诺被宗教裁判所判为“异端”烧死在罗马鲜花广场。1609年，伽利略通过自制的望远镜观测到了佐证日心说成立的重要证据并将之公布于众，为此他遭受到教会的威胁和迫害，并被软禁起来逼迫其与哥白尼学说决裂。

矛盾被集中在“地心”还是“日心”的论战中久久无法被解决，除了教会的原因，还有一个非常重要的就是日心说迟迟拿不出一个让所有人心服口服的准确模型（这里的模型运算和前面数据驱动的方法不同）。哥白尼和伽利略的研究虽然相比前人有了很大的进步，但是并不能从数据角度完整地证明地心说的错误。最终完成使命的是开普勒，通过创造性的提出椭圆状的行星运动模型，以及开普勒三大定律，彻底战胜了一千多年来的地心学说。

事实上，日心说最终能够在欧洲被广泛接受，还存在相应时代背景——15、16世纪的欧洲正是从封建社会向资本主义社会转型的关键时期，新兴的资产阶级为自己的生存和发展，掀起了一场反对封建制度和教会迷信思想的斗争，出现了人文主义的思潮，这就是震撼欧洲的文艺复兴运动。与此同时，当时出于对外贸易目的兴起的远洋航行，也迫切需要许多的天文和地理知识。通过在这些航行中的积累，人们也愈发发现“地静天动“的宇宙学说是值得怀疑的，这些都为后来日心说确立主导地位奠定了基础。

矛盾双方在长期的论战过程中，不仅仅是诋毁，它们之间也往往可以相互促进。在很长一段时间内，由于围绕在地心说周围的都是一批非常杰出的数学、天文和哲学学者，他们通过长期的深入研究，建立起对天体观测的一整套详细的科学方法论。比如地心说主要的支持者托勒密，他继承了毕达哥拉斯的一些几何思想，通过发明40-60个小圆套大圆的方法，精确地计算出了所有行星运动的轨迹——今天即使在大型计算机的帮助下，我们也很难解出40个套在一起的圆的方程。

后来复兴日心说的哥白尼正是采用了这种简化的圆的方程来进行他理论的阐述。虽然最后开普勒发现行星围绕太阳的运转轨道实际上是椭圆形的，但其在数学计算上也多处借鉴了托勒密的研究，而且他本人也不清楚为什么行星的运动轨迹会是椭圆而不是圆——直到牛顿提出万有引力定律，人类才最终弄清楚形成椭圆的真正原因。

就这样，演化在人类历史中跌跌撞撞的发生。它不似诗歌那般激昂，那些曾经的刀剑划过和血肉横飞的场面也会逐渐模糊。然而它又是那般执着和深邃，不容得我们一丝的狡辩与怯懦。演化永存，它看似悄无声息，却如洪流般浩浩汤汤，裹挟着一切向前。

在上面的例子中，我们已经能够时不时看到数据发挥的作用。到了今天，在爱因斯坦、霍金等人的努力下，人类建立起了相对完整的宇宙、天文知识体系，与之伴生的数据量的积累也达到了前所未有的水平。根据统计，在21世纪伊始，位于美国新墨西哥州的望远镜在短短几周收集到的数据，就已经比天文学历史上总共收集的数据还要多。中国在2016年建设的被誉为“天眼”的世界最大的500米口径球面射电望远镜，甚至可以探测到最远1000光年以外的声波，每天传输数据可达5兆字节。

天文学的的故事让我们看到了人类探索宇宙的雄心，我们同样对居住的四周充满了好奇，而音乐就是表达这一好奇心的重要载体。利用声音高低、强弱的变化，人类可以模拟大自然的美妙之音，并将我们对世界的感知记录下来，用来抒发爱慕、喜悦和悲伤之情。我们今天欣赏各种古典、爵士和流行音乐，通常会将其视为一门颇带主观色彩的人文艺术，但事实上，音乐与数字之间的联系也颇为密切。

文字记载最早发现它们之间联系的是前面我们提到的古希腊数学家毕达哥拉斯，他发现音响的和谐与发声体体积的一定比例有关，并可以用数字记录，于是编制了早期的音乐记录规则，这也为后来通行的五线记谱法的出现奠定了基础。

五线谱的发展如日心和地心的争论一样，同样经历了上千年的演化历史。从最初只能进行简单的记载，五线谱通过不断完善各种表达符号和规则，逐渐发展到可以精细地标记音量、速度和音色变化，也即将整个音乐作品完整无误的进行数据化的描述。

物极必反，后来由于五线谱太过细致入微，挤压了演奏者即兴发挥的空间，于是记谱法又发生了方向上的转变，仅仅会编辑进必要的部分，留出一定的弹性空间。这样就将音乐的最终解读权交还到表演者手中，使得每一次演奏都变得独一无二。

相比西方，中国古乐谱没有形成音高和节奏的精确量化和数字符号转码，仅仅会记录传统乐曲或唱腔的基本轮廓，它给予演奏和演唱者创作的自由度和不确定性比西方乐谱要大得多，因而又被称为“框架谱”。这当中体现了东西方对于艺术差异化的理解，同样的情况也可以在西方的素描和中国的水墨画中见到。

回到最初的理想模型，天文只是其中一个颇具代表性的案例，在化学、生物等各个基础学科的研究和形形色色的商业、生活应用中，一组组数据承载着人类对完美世界探究的理想被挖掘和计算着。我们不知道有一天真的实现万物数据化后，这个世界会变成什么样子？或许到了那一天我们可以借助数据医治癌症？又或者现在世界上选举和议会制度将会消亡——因为一切皆数据的时候，现在任何组织机构运转的效率都会远远比不上依赖数据来做决策。

然而在五线谱的发展历程中可以看到，即使数据真的可以帮助我们精确记录所有的演奏，甚至有一天所有的音乐和艺术创作都可以用数据和机器替代，但人类真的不需要留一些自己主观发挥的空间？全部的数据描述就一定意味着美好么，是否不确定本身也是一种美？大数据教会我们要放弃对因果性的执着，让数据发声，在事情中“是什么”比“为什么”重要——如果所有问题都用这种方式解答，世界是不是又显得有些索然无味了呢？

从另一个角度来看，如果万物数据化真正降临，人类是不是可以进化成为先知？因为那时候我们将拥有无穷无尽的资源，可以无限制地将公式推演下去。我们知道各种数学模型的基础都离不开概率论和统计学，但是很多研究纯数学的数学家都不把概率论当做数学，因为他们认为数学的确定性和概率的不确定本质上是存在冲突的。

如果样本本身是没有限制的，大到可以包含所有的真实信息，那么这个世界是否就不存在概率，所有的随机性也会消失？这样的话现在我们理解的所谓大数据的核心涵义：相对精确和相关性，是否就显得不再必要，又是否会消失在文明的长河之中？

或许真的有完美世界的存在，只是暂时我们心智不够，但终有一天会到达？又或许这样理想的未来仅仅只能存在于我们的想象中？无论如何，人类追寻梦想的脚步不会停止，我们也会用尽全力不断前行。

为了建设这个理想的世界，人类又开始思考各种各样的方法。在不断受益于这些数据组成的模型和公式之后，我们逐渐将愿望寄予一种叫做智能的方式——今天对此有很多酷炫的名词，人工智能、机器和深度学习等等，其实说的都是这种方法，我们期盼算法模型足够强大之后，人类可以驾驭整个数字世界的运转。

我们认为，数据终将解决所有我们遇到的问题。虽然前面说到的切比雪夫不等式告诉我们在数据无限多后误差可以忽略不计，但是追求完美的人类总是期望有一天能够真正找到那个绝对无误的模型。在拥有了更多数据之后，我们还将创造越来越多漂亮的算法，并交给智能的机器去自动执行。这样看来，如果现在暂时还存在某些问题解决不了，那只不过是模型不够完善，计算还不够智能而已。

在通往未来理想世界的道路上，除了万物数据化之外，我们还需要开发出许许多多复杂精确的模型，并搭配上超级的计算能力，帮助我们将一切障碍全部扫除。通过智能的模型算法加上客观数据的采集，人类将拥有更高等级的智慧，我们将朝着更为浩瀚的宇宙深入进发，我们有机会让世界变成我们所期待的完美样子。

数字无界，或许就在眼前！

话题：