近年来,古籍文献的数字化大大改变了中国传统文化的研究现状。传统文学的研究因为数字人文的助力,蕴含着重大的突破机遇。在数字人文发展迅速的背景下,华东师范大学充分发挥中文学科优势,打造数字方志集成平台,实现方志资源开放共享和多角度呈现。大国汤汤,文明相传,用新科技新思维让典籍文字“活起来”,数字方志集成平台做到了“与古人对话,与时代对话”。
技术先行,深度利用方志资源
据平台负责人李欣老师介绍,数字方志集成平台采用了多种当下较为先进的技术,包括RDF、知识本体、关联数据、知识图谱等等。基于方志数据特有的时空属性,运用可视化以及知识图谱技术实现数据之间的关联关系,通过自然语言处理(NLP)技术实现文本深度挖掘与可视化检索,基于关联数据技术实现更大范围的数据集成。
传统的数据库仅仅能做到储存资源,你搜索什么就跳出来什么。而在这些技术的支持下,作为描述资源的元数据都不是独立的数据个体,而是具有关联开放数据的属性。如,通过作者可以关联开放的人物传记资料库,不仅在检索过程中按需实现了外部数据对本地数据库的有效补充,而且减少本地数据冗余。这一切不是冗长枯燥文字的罗列,而是通过生动的图谱展现在你面前。这种“智慧型服务”是通过平台的数据挖掘和关联数据功能实现。
创新为根,数据“取”“用”呈现新方式
数字方志集成平台为实现数据结构化、关联化、可视化,就必定要突破传统平台的局限,“创新”成为平台发展的核心优势,也正是创新实现了平台的“智慧型服务”。“除了本校印刷与电子资源外,研究者可以通过平台发现多来源的权威方志资源。”据记者了解,目前已有北京师范大学图书馆等十几家大学图书馆共建,力求通过平台发现更多权威数据源。同时,平台与中国历代人物传记资料库(CBDB)和上海图书馆开放数据平台的人名规范数据库通过接口关联,学者可以在一个平台上实现多平台的资料发现。
除了资源获取更为便捷之外,平台的数据存储方式也有重大改变。平台采用集中与分布相结合的开放架构,实现特藏资源从“数据孤岛”向“数据共享”转变。从平台的设计框架可以看出,用户可通过“特色资源服务云平台” “开放平台”双平台,实现对资源的发现、关联、分析和自定义加工等,这开启了馆藏资源开放共享的新模式。
平台整体设计框架
平台对于知识组织方式也同样进行了创新。记者了解到,以往的数据库平台多为“数字化”平台,即平台主要完成全文扫描数据的存储;而数字方志集成平台则是一个“数据化”的平台,一字之差,却将简单的“存储”升级为“分析”,从“死读书”变为“活学活用”。从简单元数据结构化存储向三元组图数据库存储转变,并基于知识本体进行组织。即将基于MARC结构化元数据存储方式转化成BIBFRAME2.0的作品-版本-单件方式,极大丰富了知识发现的角度。
基于知识本体的知识组织方式
平台开发定位也不同于传统的数据库检索系统,从检索系统向研究和教学实训环境转变。直观形象的“时空检索”、地理位置的资源量化分布、形象与量化关键词词云、自上而下的资源量化导航树等功能,形成了对传统检索系统强有力的补充。
知识发现多维度揭示——时空索检
平台收录的全文数据化资源,遵循数据采集-存储-加工-更新-复用循环反复的古籍内容整理流程,采用繁体字原文数据化+扫描图形式展示,本着“尊重历史还原古籍原貌”原则,力求提供高可信的古文献研究服务模式。
繁体字原文数据化+扫描图
研究和教学实训环境主要通过文本标注和可视化工具实现对文本的量化分析。作为文本解构与教学实训环境,平台的标注语料库主要来自中国历代人物传记资料库(CBDB)的历代知名人物语料库(全名、字号)等,条目多达47万余条。平台不仅可以实现学者上传文档的人名、地名、年号及职官标注,也可自定义要标记的关键词,手动增加词条,满足个性化标注的需求。同时,将标注数据通过平台的可视化工具做进一步分析。
未来可期,竭力服务数字人文研究
数字方志集成平台作为国家社科项目研究成果的一部分,发表多篇核心期刊论文,理论成果丰硕。近两年,平台积极参与国内学术论坛,在2018年6月的“中国高校图书馆发展论坛”上,“数字人文视角下的数字方志集成平台构建”应用案例荣获一等奖。
记者了解到,目前平台已完成一期建设,并期望在年内启动二期建设。“更好地服务于数字人文研究是我们一直在追求的”,谈到今后的发展方向,李欣老师说道,“以方志资源为研究内容,构建数字人文研究和教学实训环境是平台建设的一个现实小目标,我们的目的是让更多对数字人文研究感兴趣的学者能够通过平台感受到不同的研究视角。目前正在选定一本民国杂志中的一个相对完整的专题,从数据化、实体标注、可视化分析等流程做起,希望以一个完整的研究和教学案例呈现在平台上。同时,平台希望与更多人文研究者开展专题研究,使研究的价值得以充分体现。”
文|李雅静 编辑|夏茸昱