档案管理作为承载历史凭证与社会记忆的重要领域,正经历着从传统保管向智能化、平台化模式的深刻变革。在大数据与云计算的驱动下,档案工作突破单一存管局限,不断适配新时代信息安全、档案资源深度复用的发展需求,加速向“知识服务”跃迁。而随着人工智能技术从通用大模型向垂直场景纵深演进,“AI+档案”正成为连接政企数据资源、激活沉睡数据价值的关键密钥,引领着行业迈向智慧治理的新阶段。
在这一趋势下,不少科技企业开始探索档案与AI结合的创新路径。作为电子档案领域的长期深耕者,上海鼎易信息技术有限公司(以下简称:鼎易)在行业数字化升级过程中积累了深厚的技术与实践经验。近日,鼎易董事长陈峰接受了信息化观察网的专访,立足企业一线实践,剖析“AI+档案”行业现状与难点,详解鼎易布局“AI+档案”的布局逻辑与未来规划。

上海鼎易信息技术有限公司董事长/陈峰
信息化观察网:当前AI技术正在加速渗透各行各业。您认为“AI+档案”目前处于怎样的发展阶段,未来3-5年,这个领域最值得关注的变革会发生在哪里?
陈峰:要讨论“AI+档案”,首先要明确,档案是一个非常专业的领域,看似宽泛,但凡是人类生命与活动痕迹,都与档案密不可分。纵观历史,档案管理的方法延续了数千年,但其行业发展速度相对缓慢,甚至滞后于现代社会的整体节奏,存在着明显的代差。
2020年6月20日,国家档案局发布了新修订的《档案法》,这从根本上改变了整个档案行业的格局。过去,我们可以把档案行业分为几个时代:一个是跨越数千年的传统历史时代;二是新中国成立后,从1983年开始引入计算机管理档案的时代,至今行业普遍采用双套管理方法。2020年电子档案应运而生后,新的问题随之出现:电子档案与大数据、电子文件、互联网的边界越来越模糊。我们需要厘清核心问题,明确档案行业的定位、职责与管理范畴。
因此,在这个时代,档案行业开始全面面向前沿技术研究。无论是硬件场景还是计算机科学,包括当下热门的AI技术、智能化、智能体以及数据集建设,都是我们正在深度融合的方向。可以说,时代的变革推动着我们从事全生命周期的电子档案研究。
未来3-5年,“AI+档案”将会是最值得关注的领域。档案是全人类社会最宝贵的资源与凭证,而AI时代来临后,大模型需要大量高质量的数据进行投喂和学习。我们要做的,就是将海量的档案知识数据投喂给AI,让AI能够快速学习并掌握整个社会最宝贵的知识与记忆。
但档案领域AI与互联网通用大模型(如豆包、千问等)是有区别的。我们所说的“AI+档案”主要服务于国家、团体、政府机关和企事业单位,是私有化的智能体。在未来,它将成为政府、院校、国央企等核心机构数字化建设的重要支撑。
信息化观察网:与其他垂直领域相比,档案数据的独特优势是什么,鼎易在大模型落地方面,是选择自研、合作还是依托现有大厂平台,目前的进展如何?
陈峰:作为长期深耕电子档案领域的企业,我们认为,对比其他垂直行业,档案行业具备多垂类融合的特性。可以用数据池、湖、海的层级概念来诠释:在形成档案的过程中,最初数据会沉淀在各类小型数据池中,比如个人电脑、各部门产品系统当中;随后下沉汇聚到平台或中台,形成数据湖;而档案数据就是最终的数据海,具备海纳百川、融会贯通的特性。
基于此,在电子档案无纸化发展进程中,鼎易提出了“鼎易动量空间”模型,致力于让动态流动的数据被快速捕捉,进而完成数据凭证化、凭证档案化、档案权证化,最终实现价值化。
关于大模型落地路径,鼎易采取自研与依托大厂合作并行的模式。在应用场景、学习模型、垂类数据层面,我们以自研为主。同时,我们也创新提出了“纯净数据库”。档案数据的性质区别于其他行业的数据,它又被称为凭证数据,其纯净度和可信度是其他行业数据和系统无法比拟的,这也是档案数据的独特优势。在AI大模型应用中,投喂数据越精准纯净,搭建的问答模型就越可信,数据利用效率也会更高。
信息化观察网:除传统的档案检索和存储外,AI在档案内容挖掘、知识关联、决策支持等方面,有哪些让您感到印象深刻的新应用场景,能否分享一个具体的案例或设想?
陈峰:经过多年的研究积累,鼎易从2012年起就开始承担各省市及国家级的科研课题。在推进过程中,我们对AI相关的标识、标签、标注等工作做了深度研究,并在某地铁集团轨道交通公司形成了一个落地产品,即此次我将分享案例“基于知识原子化的轨道交通工程项目标签体系设计研究”。
这个案例主要解决了两大痛点。第一,解决了历史与现行标准制度的差异问题。30多年前的轨道交通建设标准和现在的标准是完全不一样的,我们对此建立了专业术语、词语、词义等相关语义语境上的标签和标注,将新旧标准关联打通。
第二,解决了地铁系统复杂、工程项目多元带来的档案管理难题。地铁运营过程中会出现站名变更、设备更新、日常维修、大修改造、突发事故处置等各类动态工程变动。我们针对不同时代的站点与设备名称、应用环境等差异化内容,完成统一自动标签化处理。
在此基础上,我们搭建起知识原子、知识源、知识图谱三大体系,构成了整个轨道交通工程项目的档案知识图谱标签,最后将标签数据投喂给AI进行深度学习。在后续档案查找、运维运营等实际应用中,有效解决了新旧档案认知偏差、信息检索盲区的问题,打通了不同时期档案数据的认知壁垒,是一套完整的AI+档案创新应用方案。
信息化观察网:档案行业涉及大量敏感数据和长期保存需求,AI落地过程中,数据安全、算法可解释性、行业标准等方面面临哪些挑战,鼎易是如何应对的?
陈峰:过去,档案工作常被认为是社会的“末端事业”——重要,但并不非常紧急。然而,不同于近年兴起的大数据中心、数据仓库等概念性大型信息化基础设施,档案行业拥有数千年的发展积淀,也是目前唯一明确提出“长期保存”要求的行业,这是其他数据领域与行业无法比拟的特质。
也正因如此,档案从业者肩负着跨越全时代的责任,所承载的重担与日俱增——既要做好历史档案的留存管护,也要适配现代化的应用需求;处理同一事务既要整理纸质档案,又要同步完成电子档案的梳理归集,这让工作量成倍增加。
2020年之后,随着新修订的档案法明确“电子档案与传统载体档案具有同等效力”,并提出了“来源可靠、要素合规、程序规范”的12字要求。这意味着我们须要对原有的数据和系统进行重构与优化,将档案的重要数据汇集到档案平台,且档案平台要建立两地三中心、一套多介质的任务,真正实现为子孙后代永久保存的目标。
具体到AI落地过程中的数据安全与算法可解释性,我认为,当前档案工作需具备四种核心能力,即:算力与存力、能力与活力。
传统档案工作以纸质档案物理归档、分类存放为主,仅以物理形式存在。而新时代档案从业者,需要同时具备纸质档案保管、计算机、人工智能和业务把控的综合能力,即“4+1”核心人才。这一维度上,人的能力最为重要。只要人才能力储备充分,其他方面便迎刃而解,进而同步化解算力与存力的问题,解决“AI+档案”落地的算力适配、存力匹配问题。而所谓活力,即将档案的死数据变成活数据,从而投入到未来的经营生产中去。
针对行业标准方面的挑战,鼎易的愿景是拉近理论与实践的距离,坚持理论与实践同步推进。不能只停留在理论上,而要边走边做,边实践边完善。我们也积极响应国家号召,从早期的数字档案室与数字档案馆的试点,再到现在的高比例数字档案馆试点建设,都是在不断的尝试中去解决标准问题。用实践检验理论,是破解“AI+档案”落地难题最好的方法。
信息化观察网:“AI+档案”要实现规模化落地,离不开上下游伙伴的协同。您认为哪些类型的伙伴最关键?
陈峰:“AI+档案”确实是新时代面临的一个重要课题,它面向全人类社会,因此离不开各行业、各领域的合作与参与,这也是补齐当前档案行业能力短板的关键。
第一类关键的伙伴是各大院校。我们需要与各大院校建立深度合作意向。通过校企合作,由高校持续为行业输送专业人才,夯实档案行业人才基础。
第二类是跨行业的专家与技术伙伴。鼎易最早提出“未来AI+档案”的发展趋势与研究方向,目前,未来档案也已经成为鼎易的一个品牌。我们每年都会举办未来档案论坛,邀请各行各业的合作伙伴和专家学者参与其中,通过学术演讲、主题讲座开展深度交流交互,参会领域涵盖计算机、脑机接口、认证认检、军工航天等多个领域。以当前备受关注的脑机接口技术为例,现阶段主要聚焦海量信息数据的输入与输出研究。而我们要做的是预先将数据知识纯净化,使其能够被快速利用,而不是等到应用环节再进行繁复的判断与梳理。在这前端净化环节,我们已经有了深度基础研究积累。
第三类是软硬件与基础设施伙伴。整个生态的建设必然离不开软硬件、算力、基础信息化建设等各类行业的支撑。
此外,我想特别提及一点:我们最近提出了“电子档案库房”概念。立足档案永久存储的特殊要求,须将电子档案库房与其他应用场景的物理环境区分开,使其具备独立的生存和保存条件,进而依靠多备份、可修复的存储模式筑牢存力底座,保障档案数据长效安全。
