(2015年7月在俄罗斯圣彼得堡波罗的海边)
数据,到底是什么?
很多人称数据为“资料”。“资料”又是什么?资料,就是材料,如建筑所用的水泥、沙子和钢筋一样很重要。但是,数据,咋就成了“资料”呢?
长安大学高志亮教授在2021年写了一部专著《数据的基本问题探究与讨论》(简称《数据论》),专门研究数据,为数据正名,从数据的起源到数据强国战略。现如今,我国已将数据确定为数据生产要素,与土地、资金、技术和劳动力具有同等地位了。
数据,是人类科学发现的发动机;数据,是人类技术创新的稀土元素;数据,是现代数字前沿技术的源泉;数据,是人工智能的灵魂。高志亮老师说,所有科学技术都在“燃烧”数据,然后成就了科技。
数据的起源
关于数据的起源,高志亮在《数据论》中有很多的探讨:包括西方毕达哥拉斯的“数即万物”,和东方秦始皇的统一度量衡。
毕达哥拉斯的“数即万物”,时为公元前580-500年。说明这个时代人已对数或数据来源于物质有了清晰的认识。
关于数据起源在东方,高志亮主要考察了秦始皇和印度的婆罗摩笈多,公元前259-210年,秦始皇统一了度量衡。对于数据的意义在于中国人的祖先最早利用器皿,包括斗、升和秤之类其生产数据。而考察了古印度的婆罗摩笈多后,高志亮说人类发现了“0”,这让数学大放异彩,如果没有0,计算非常的困难,后来也不可能出现微积分等数学大发展。于此同时,也让数据极大地丰富了内涵。因为,数值和数量发生了革命性的变化。
值得一提的是,高志亮老师在完成了《数据论》之后并没有停止对数据的探索,目前他正在撰写一部数据的新书,他对数据有了更新的认识,比如他发现在古老的中国有一部《易经》始于公元前1046-256年,这样对于数据的定义要比毕达哥拉斯还早500年。在《易经·泰卦》中提到:天地交,万物通。上下交,而志同道合也。这就是我国交通大学校名的出处。
说明什么?说明人类只有依靠数据才能完成“天地交,万物通”,打开宇宙的大门,打通天和地的通道。高志亮老师认为,这就是迄今为止发现对数据提出与认识最早的思维和理论,所以,数据思想最早起源于中国的《易经》。
由此,人们可以知道数据是什么了。数据,是由物质、事物生产的数值、数量和数字构成的数据域所形成的国民经济生产要素,即为数据生产要素。同时,数据还是科学技术的内生要素。
数据的原理
数据,有没有原理?
首先,这是一个根本性的问题,也是一个原则性的问题。高志亮的态度和立场很明确,数据是一个科学,必有原理。
其次,他认为,原理包括机理和机制,数据的机理,是从数到据的完整过程,即数——据。
而数据的机制,则是从物质、事物到信号的生产、采集、处理、转换、生成,构成从数据到信息的全过程。机制,如同机械式手表中大大小小的齿轮那样,需要咬合的天丝无缝,才能走秒精准。所以,数据的决定不再机理,而在机制。
第三,数据原理是客观存在的,也就是说,数据从物质、事物中采集、生产而来,到数据生成信息而消亡,这样一个完整的过程构成了数据的原理。
从而,数据的原理,是由数据的规律决定的。高志亮根据多年研究,总结了数据的基本规律有:
第一,数据“从哪来,到哪去”规律,这是数据的自然规律,无法抗拒;
第二,数据“采、传、存、管、用、智”规律,构成一个数据链,这是数据建设过程中的基本规律;
第三,“数据转化”规律,数据始终在转化过程中运行、流转、演化、生成,如数据转化为信息,构成循环系统,形成一种转化机制与规律,这是数据的必然规律。
数据除了以上三大规律外,还具有三大定律:第一是数据的物质定律:比如任何数据都源于物质、事物,数据有源、有根,又有痕。物质不灭,数据不亡等:第二是数据的属性定律,比如数据来源于哪类物质、事物,就一定代表着哪一类物质、事物的性质,任何数据的性质都赋予了数据不同的属性,不同属性的数据构成了数据的复杂性、多元化;第三是数据的价值定律,数据具有乘数作用。他还发现了数据的三大定理。
数据三大定理
所谓定理,就是无法推翻的真理。对于数据,高志亮发现:
(1)一切数据当在未被采集的原始状态之前,同物质、事物一样,同属于物质、事物态,此时数据为零。
(2)当一切数据转化为信息之时,是一个信息的集合,且多元。
(3)一切物质、事物中的数据无穷多。数据可以有大有小,有多有少,但数据具有无穷的可能性。
所以,所有物质、事物的数据都可根据所属专业和科学技术的需要实施采集或生产,即使是同一物质、事物,但由于每次采用技术、方法、人员、精度等的不同,所采集或生产的数据也不同,即数据可被无数次地采集和无数次地被应用,这就是无穷。
谁,把数据弄丢了
根据以上研究不难发现,数据存在着神奇的秘密和具有巨大的能量,这包括数据零态、信息多样性、数据无穷多、数据信息不可逆。在科学研究中,数据为人类做出了突出的贡献,没有数据,就没有科学研究与发现;没有数据,就不可能有技术的创造与发明。
可是,既然数据如此的重要,为什么没有成为科学技术中的一个分支?高志亮认为这是一件奇怪的事情。他翻阅大量文献,寻找答案,从毕达哥拉斯开始追寻,到牛顿时代,再到爱因斯坦时代;从薛定谔的《什么是生命》到杨振宁的宇称不守恒发现;从维纳的控制论到戴森的核武器;从纳蒂·塞贝尔的场论+弦论,再到1998年戈尔的“数字地球”提出,经历几个世纪的变迁;从香农和维纳,再到冯·诺依曼,然而,奇怪的是始终没有出现一位数据科学家,也没有形成科学数据研究的学科。
高志亮最后的结论是:世界科学家们共同弄丢了数据,这是科学史上的一大遗憾。他期望各个学科的科学家们一定要在数字化时代共同把被弄丢了数据找回来,让其成为科学分支与新兴的学科。
数据,成就科学技术
高志亮认为,数据统一了世界。在科学史上,曾出现两次大科学大一统:第一次是以牛顿为代表统一了理论物理学、数学和实验物理学,利用实验物理学采集的数据和理论物理学发现的原理,再用数学的语言完成了伟大的牛顿定理——万有引力定理。
第二次是以爱因斯坦为代表统一了宇宙、物质、质量和能量,当初牛顿并不知道引力的本质是什么,1916年爱因斯坦才基于广义相对论预言了引力波的存在。更重要的是爱因斯坦把质量和能量完成了统一。人们都知道世界上的任何波的形成、运动和延展、生成,都是信号、数字与数据的过程。可惜当初爱因斯坦等所有科学家们并没有注意到这一点。
高志亮认为,能量其实是数据的海洋。21世纪将要发生世界科学史上第三次物理学大一统,而且即将到来。他坚信这次大一统一定被数字与数据所锁定,今天的数能转换与数据定理一定能帮助到人类认识、理解数据,发挥数据的能动性作用,让科学技术大放异彩。
他说,中国科学院张杰院士曾提出,世界科学中心每80-120年转移一次。高志亮从数字、数据的历史线索上也发现了这样一个规律。首先,世界科学中心从东方三个古老文明国家开始,包括中国,然后在公元前0-5世纪转移至古希腊、古罗马和意大利。14-16世纪又转移到法国、英国与德国,影响最大的事件是法国大革命、英国第一次工业革命和德国引爆的第二次世界大战,都是科学大爆发的时代。此后世界科学中心转移至美国,直至今天已稳定近80年。
下一个世界科学技术中心在哪?高志亮认为会回到东方,就在中国,世界科学史发展构成一个完美的闭环。
此外,高志亮认为数据对科学技术的影响力非常巨大,没有数据,就没有科学和技术。现代科学不再像第一次、第二次大综合那样,以物理学、数学和实验物理学为主要综合,完成大统一与大一统。传统时代人们主要采用将非线性复杂问题线性化,然后形成经典理论和做成经典方法,而这些经典放之四海而皆准的时代已经过去。人类已经完全进入了一个解决非线性问题的时代了,科学必须首先解放自己,然后解开非线性问题的锁,必须利用全数据、全信息、全智慧努力地解决现实存在的大量的非线性复杂问题,唯一的办法就是利用数字功能和数据能量,统一世界、统一科学、统一技术,构建新时代的科学技术大一统。
比如2021年诺贝尔物理学奖就给了我们一个很大的启示,2021年诺贝尔物理学奖授予三位科学家,Syukuro Manabe与Klaus Hasselmann共同获得了一半的诺贝尔物理学奖,获奖理由:建立了地球气候的物理模型,能够量化变化情况以及可靠预测全球变暖;Giorgio Parisi获得了另一半诺贝尔物理学奖,获奖理由:发现从原子级到行星级尺度物理系统的无序性与波动之间的相互作用。
这说明现代科学依靠单一技术与方法不可能完成,一方面是物理学领域,一方面又是面对全球气象非线性复杂系统的混沌和随机现象有序性;一方面针对非线性复杂系统,一方面又是面对无序物质和随机过程理论。本质上,三位科学家用数据统一了物理学、系统学、气象学和数学,构建了一个以数据研究为中心的统一了天、空、地非线性复杂的科学系统。
如果总结归纳一下会发现,首先,他们面对的问题是非线性复杂的气候变迁问题,需要处理的变量是海量级别的大数据。在他们的研究中完成了,做出来了,成功了,这是一种方法创新,是数据成就了科学的成果;其次,他们面对的变量是及其敏感、微小而复杂的大系统,在无序的复杂物质中发现了隐藏模式,其发现是对复杂系统理论最重要的贡献,大数据分析和数据科学帮了他们的大忙,数据科学成就了他们的诺贝尔奖。
所以,高志亮认为,第三次物理学大一统与科学大综合是存在的、可行的,且从数字地球提出那一天已开始了,人们的具体做法是将天体、宇宙、地球和人生中的每一个物质,每一个事物全部数字化,用数字统一世界,用数据发现奥妙。从而,在今天的科学技术活动中比比皆是:
(1)天体数字化,比如我国FAST天眼的安装和天体脉冲信号的采集,将获得大量数据进行科学分析,截至2023年3月已发现超过740余颗新脉冲星。
(2)太空数字化,是以地球为中心点向外延伸500km以内的空间全面数字化。航天器绕地球飞行最大距离是400km,但人类必须对500km以内的空间数字化,实现数字孪生和元宇宙,还要做到互联互通、数据主导以及军事战略。
(3)地球数字化,数字地球已提出20多年了,人们都在努力地进行着,比如人们设想将地球表面以下到5000m以上的地壳岩石、矿产、地层和C(碳)全面的数字化,用以研究和发现新的矿物与矿产及开采利用。
(4)人体数字化和数字人类。未来人类要将把自己先期数字化,并定期动态医学数字化以补充个人数据,有利于个人健康与癌症的早期发现与治疗。还有目前正在研究制作数字自然人,未来大量工作都交给数字人类来完成与服务,这一天很快就要到来。
(5)数字中国。今年初中共中央、国务院印发了《数字中国建设整体布局规划》,并发出通知,要求我们要做到“横向联通,纵向贯通”。数字中国完全和全面实现了数字化,数字极大地丰富以后,我们国家从基础科学,包括数据基础科学到科学技术一定成为强国。
总之,数据改变科学技术,虽然已不是秘密,但我国一定要制定战略,从世界数据大国走向数据强国,迎接世界科学中心的到来。
责任编辑:kj005
文章投诉热线:156 0057 2229 投诉邮箱:29132 36@qq.com