没有安全,数据流通就无从谈起;没有流通,数据就难以赋能千行百业。
5月10日,以“数智无界 安全共生”为主题的2025中国数谷·西湖论剑大会在杭州开幕。
中国计算机学会原理事长、CCF计算机博物馆馆长梅宏在大会主论坛上提到,没有数据就不可能有智能,就像燃料和火箭的关系一样。现在业界经常讲本轮AI革命的三要素:算法、数据、算力,实际上数据是关键。
推动AI向AGI演进,数据与AI的深度融合非常重要,但现在缺乏高质量的数据集致数据流通受限,这是不是一个关键的堵点?
对于
私有数据是让模型落地到场景里发挥价值的关键因素
王欣对
王欣接受 另一方面,更为重要的是模型在具体场景中应该如何有效利用,如何能更深刻地理解行业、理解场景。“在内容方面,互联网的网页数据可能完全不够用,因为有很多私域的场景,具有行业的特性,这些数据并不在网络空间内存在。”王欣表示,业内曾有很多讨论,认为AGI来了可能就不再需要垂域模型,但其实不然。
“我认为通用模型永远代替不了垂域场景的模型,因为垂域场景有很多私有数据,私有数据是真正让模型落地到场景里发挥价值的关键因素。”他说,到整个模型应用落地时,数据的流通可能会成为促进人工智能发展的一个关键环节。
安恒信息董事长范渊在大会主论坛上提到,可信数据空间是破解数据要素开发利用与安全防护矛盾的关键。AI原生可信数据空间可以实现可信数据空间与AI的双向赋能。
可信数据空间通过“软硬结合”保证数据全流程安全可控
那么,可信数据空间对数据的安全流通、使用可以起到怎样的作用?
对此,安恒信息CTO刘博在接受
刘博接受 还有一部分是安全,尤其是动态数据安全,数据在流通过程中定义为静态数据安全的思路已经行不通了,目前正处在向动态安全转变的过程中,用以保证数据安全。
刘博举例说,比如杭州探索出的“三数一链”,这可以视为一个可信数据空间先行先试的成果。因为可信数据空间可以有不同的形态,现在技术路线也没有完全定下来,允许几条技术路线并行,大家都在进行尝试探索,“三数一链”是目前走在最靠前的技术路线之一,是可信数据空间落地化的载体。
谈及建设可信数据空间过程中如何保证安全,自然资源部第二海洋研究所所长方银霞在接受包括在内的媒体时表示,可信数据空间是国家的一种数据流通利用基础设施,国家数据局去年11月发布了可信数据空间的行动计划,计划到2028年在全国建成100个以上可信数据空间。
“作为一个基础设施,国家有相关的建设规范,数据安全问题主要有‘硬’和‘软’两类保障。硬技术来说,包含了接入连接器等设施,还有隐私保护计算、区块链、数据沙箱、可信执行环境等多种数据流通技术,来保证空间安全可信。”方银霞说,而在“软”的方面,会建立一整套规则规范。
她举例说,在海洋可信数据空间方面,后期会发布50多个规则规范,包含了用户和数据准入认证、数据应用场景审查以及流通使用、争议仲裁、收益分配等,会从全流程进行数据可信管控。“我们依照国家数据流通基础设施的规范来建设,从技术和规则两方面软硬结合,保证全流程的安全可控。”
AI在数据分类分级等方面有很大应用空间
王欣表示,解决数据流通过程中的安全问题,需要由静态安全思路向动态安全转变,在这个过程中,AI可以发挥很大作用。
他进一步表示,AI非常容易理解文本数据,比如用DeepSeek或者KIMI,给它文本,它的分析总结能力很强。所以AI技术甚至比人更懂数据,它可以读懂是什么样的数据、有什么样的意义和价值。
另外,在流通过程中,AI也可以识别业务行为。王欣举例说,原来有API安全问题,API接口是数据流通的关键载体,但在流通过程中,API接口是什么用途、背后承载了哪些数据的流通,靠传统的软件技术无法识别,而AI可以理解其中API的接口定义以及参数、参数背后的内容,可以在分析完之后识别API接口能起到什么样的作用,大量的业务系统及人调用API接口时是正常行为还是异常行为。
“所以AI+数据安全是我们现在着力打造的AI落地场景,无论是在数据的分类分级还是在API安全方面,包括数据库审计等,都有很大应用空间。”王欣说。