当前位置: 首页 > 新闻中心 > 要闻速递 > 正文

新闻中心

要闻速递

NEWS

数字经济时代的数据要素特征与价值研究

时间:2022-06-29    来源:

  • 分享

2022 INNO CHINA 中国产业创新大会——北大创新评论春季论坛于2022年5月6日采用在线直播方式成功召开,本文为北京大学工学院副院长、北京大学计算与数字经济研究院副院长、长江学者特聘教授宋洁老师创新发言实录节选

各位朋友,大家好!

非常高兴今天能跟大家一起分享近期关于数据要素特征与价值的一些相关研究。

这两年大家对数据要素都已经很熟悉,在国家战略、顶层规划层面,中共中央国务院2020年4月9日公布《关于构建更加完善的要素市场配置体制机制的意见》,明确要求加快培育数据要素市场,推进政府数据开放共享,提升社会数据资源价值、加强数据资源整合和安全保护。在去年年底出台的十四五规划当中再次强调,数据要充分发挥数据要素的作用,促进数据流通与安全保护。

14345

宋洁教授 -《数字经济时代的数据要素特征与价值研究》

数据是数字经济的原动力,也是构建数字经济的核心。经济实体通过数字化转型服务不同的目标场景,通过运营过程的数据交替,来实现数据对经济实体的赋能,这是典型的数字化转型的模式。在这个循环过程当中,通过数据采集、处理、集成、挖掘,到知识决策,形成一系列的闭环,不断地体现数据的价值链。

因此,我们在数字经济与数字化转型过程当中,希望通过数据价值的挖掘,来达成数据交易,激活数据要素市场。在这个过程当中,数据交易的前提是判断数据的权属,权属安全才能保障参与数据交易者的权益。由此可见,培育数据要素市场,需要从研究的角度,对数据权属安全有理论保障,同时市场的活跃进展,也需要有实践来推动。因此,理论研究与实践相结合,是构建数据要素市场相辅相成的两方面,缺一不可。

52A0

从实践的角度来看,数据可以理解为具有流通的特征,数据从产生到运转,到处都存在着传播和分享的可能。但数据的互联互通,也带来诸如价值泄露、隐私安全的风险,这些都将会对社会治理与经济发展产生影响,同时带来了数据价值与机制的相关研究问题。

基于数据流通的特征视角,数据这一新的生产要素,相比于传统的生产要素,从经济学的视角观察排他性与竞争性的视角有什么特点?数据是否具有外部性特征来影响社会总福利?接下来通过几个例子来理解一下:

排他性在经济学中指的是一类资产归属某类消费群体后,其他消费者需要付出额外的代价,才能被使用。竞争性是指这类产品被消费者使用时,可能会限制其他消费者对产品进行分享。

以平台特点下的数字经济为例,可以发现数据如果没有权属的明确界定,很容易被复制。因此从经济学的角度来看数据生产要素的特征,就存在着非竞争性与非排他性的特点。比如平台通过海量的个人数据,训练出的个性化服务算法,对企业的利润增长体现了非排他性,而数据的溢出效应带来的非排他性,对于异构数据趋向融合,促进数据间价值得到提升。这些都将影响数据的共享与定价机制与数据交易市场的活跃。因此安全可靠的数据确权研究,是未来数据交易与定价的基础。

当前通过数据在应用、流通、交易环节所呈现的数据权属研究发现,数据确权的趋势未来不是集中在原始数据,更是一种应用和交换数据价值的权利,甚至有可能出现像金融衍生品一样合约的权属。数据权属是为了平衡数据价值链当中参与者的权益,实现数据的安全流通,并激发数字经济的发展。因此,数据的权属需要解决的不是单纯的所有权的归属,而是依附于数据权益的归属及数据背后的利益分享问题。

确立数据的产权框架,将有利于数据的资产化,推动数据的交易流通。数据产权是由多种权属构成的,并且随着社会经济生活演变不断演化,根据数据类型不同的权利分割。比如可能分成公共数据、私有数据、一些原始数据与衍生数据。不同类型数据需要不同的权益保护,比如公共数据我们更加强调权益不受侵犯,实现社会福利的最大化;对于私有数据,一方面强调个人信息保护,另一方面强调衍生数据带来增益。这些如果都能够通过更加细化的分级分类管理,将有利于未来对于数据权属研究的探讨。

也有研究指出,数据有很多社会属性,使得它具有外部的溢出效应。数据不但对当前的载体有价值,同时也赋能第三方价值。比如大家熟悉的很多互联网平台,通过向消费者提供搜索服务,获取消费者数据,同时借助大数据的算力与训练能力,可以从广告、市场营销等方面构建更多的数据产品。比如广告商也会借助这些平台的数据,来更加进行精准投放、差别定价,实现更高的营收。这个过程当中的数据外部性体现在,可能一个消费者的数据同时披露了与他具有相似性质的其他消费者的一些特征,将更加有利于平台环境下的资源配置,提高服务效率,降低运营成本,这也为数据对平台的赋能提供了可能性。

数据的外部性可能也存在双面性,在2020年美国斯坦福大学研究指出,如果缺乏对数据权属的规则,企业通过数字化服务,获取了个人数据,由于数据的非竞争性,如果数据保护规则不完善,数据可能不断地被复制与利用,长期来看企业的数据核心生产要素特征将被具备核心算法和算力实力的企业利用而趋于垄断,不利于社会总体福利的增长。由此从数据的外部性所带来的负面影响也可以看到,数据权属研究的迫切性以及对于未来交易的重要影响。

6C89

数据作为一种新的生产要素,从宏观经济学的角度是否会对一些基础理论产生影响?先考虑在宏观经济学中运用最广泛的Cobb-Douglas函数,以技术、劳动和资本作为要素,在不同的规模系数组合下,来描述经济活动的投入产出,数据这一新的生产要素融入进来之后,是否改变生产函数的结构?考虑两种类型,第一类是如果数据类似于ICT资产,它成为一种独立的资产,在生产函数里面表现的是引入一种新的变量,变量之间新的系数,会对投入产出结果产生一些结构性的影响。第二类是如果类似于DIKW模型,数据挖掘信息来助力技术水平的提升,那在生产函数里面的表现将是作为一种内生变量的设置。在实际的数字经济案例中,这两种数据的特征都有案例来进行支撑。因此在这块理论研究,还需要探讨不同的生产结构方程,对数字经济发展的投入产出预测与经济现象的解释能力,这都是未来在学术界可以探讨研究的方向。

利用大数据在微观层面去理解宏观经济的变化,可以看出数据是企业活动的产品,具备转化成信息来提升预测或者决策的精度,同时数据也可以帮助降低不确定性,为企业的战略与运营优化提供支持。数据和生产之间是不断循环和相互依存的关系,生产活动带来更多的数据,而通过数字化转型的技术,也实现数据对生产活动降本增效的赋能。

基于上述可以看到,数据流通和在经济学视角下对数据要素与价值的分析,数据的产生、治理、挖掘,是一个全生命的闭环,在这个过程当中,数据流、价值流以及资金流是交融共存的。

55A1

接下来跟大家分享一下关于数据价值的研究,数据价值研究是建立在前期数据特征的基础上,在探讨价值的时候首先要明确的是,在这些特征的基础上,如何进行测量?通过对企业内部数字化转型的路径梳理,以及未来企业间潜在形成的数据市场,我们总结了数据价值的测量,包括企业内部基于采集的成本测量,和企业业务部门之间数据共享的价值分配,同时从企业间来看,还会有数据价值评估与数据市场定价

企业不同的业务部门通过数据采集,这个过程可以通过企业内部的成本法来衡量采集数据的价值,进一步通过数据治理汇集到企业数据中台和企业业务部门,甚至是跟企业外的需求进行协作产生数据产品,来实现增值。

如何对企业内部不同的业务数据分配增量,实现未来的可持续数据融合激励,可以通过基于合作博弈的机器学习模型或者市场定价模式来研究策略。而数据在不同企业间流动来实现面向数据市场的交易,需要对不同企业贡献的数据价值进行评估和新的数据产品进行定价。价值评估将通过市场实际收入来度量,或者从统计的角度来评估数据带来信息偏差的降低或者信息量提升对于企业降本增效的价值。

是否可以把一些关于合作博弈的分配思想与数据共享激励机制设置来实现数据增值的研究?通过一个基于机器学习与合作博弈的思想研究互联网平台下数据价值的研究案例来说明这个问题。

在线服务平台是一个典型的数字化带来的运营提升的研究领域,同时能够更好地实现资源的优化配置。除了大家所熟悉的电商平台,近两年以好大夫、微医为代表的互联网平台,也是借助于数字化的能力来实现医疗资源的跨时空的供给。平台当中也呈现了像综合推荐热度、专家特长介绍、就诊评价等多种类型的数据信息,数据的价值也贯穿于整个平台运营的各个环节。

因此在这个案例当中,我们希望借助于合作博弈的思想,来实现平台的数据治理。通过需求预测来优化平台医患需求匹配程度,实现数据价值的提升,增加匹配的精度,减少平台的运营成本。

在这个例子当中,通过与合作方采集不同的类型数据,包括感谢信、总单量等多个维度的数据,对平台近20万的在线数据,进行了价值测算。首先随着数据量的增加,对于目标值的估计误差都在减小。同时,对标于信息领域“香农熵”,观察基于数据价值的目标函数和传统的基于信息的目标函数会有什么差异性。通过基于合作博弈思想的Shapley Value以及机器学习预测模型可以看出,在香农熵的结果里,熵值的大小与变量的不确定性正相关,降低不确定性所需要的信息量也就越大。随着数据样本的增加,信息也逐步增大,不确定性降低,熵值逐步减小收敛。

而基于Shapley Value所得到的函数,随着数据量的增加数据价值不断提升呈现出跟香农熵相反的方向,即随着样本数量增加,以Shapley Value所反映的数据价值是更大的。由此可以发现基于信息理论的香农熵与基于合作博弈的Shapley value存在不同的视角。基于数据价值的分析方法,能让我们看到更多基本层面数据所反应的原理。比如我们看好大夫需求预测场景下明显看出Shapley值低的地方,礼物类数据与单量负相关,同时数量差别较大,这说明这部分的数据可能存在虚假刷单的可能性。而在Shapley值高的区域,如80%-100%区域,高礼物类数据和高单量呈现正相关,也暗示高数据价值对应的平台运营的合理性。

在这个例子里面,通过数据价值的挖掘,能够帮我们找到很多平台里面可能潜在的数据刷单和数据误差的问题。如果对这类数据进行治理,删除里面的虚假数据,对于未来的平台治理与需求预测可以提供更大的帮助,能够利用数据特征来实现需求预测优化,刻画平台的需求,进一步辅助平台的供需匹配和资源优化配置的相关决策。

到此,我跟大家介绍了一些关于数据价值相应的一些特征,以及我们在行业里面的应用。非常感谢大家今天的收听,期待未来有更多的交流与分享。谢谢大家!

转载本网文章请注明出处


版权所有©北京大学大数据分析与应用技术国家工程实验室 京ICP备05065075号-1 京公网安备 110402430047 号