引文索引方法利用学术文献的引文来描述此引文的全文内容,这些引文一般与该学术文献内容上是相关,再利用引文作为检索路径继续查找与此引文的主题相关的新学术文献,同时利用这些新的学术文献的引文继续检索,重复此步骤不断的获取新的学术文献。
截止目前,国内外引文索引检索工具主要包括BkCI、CSCD、CSSCI等引文索引数据库。BkCI能够为科研工作者提供全面体系化、专业权威化、丰富动态的学术研究知识来源,这些知识来源主要包括具有高有影响力的图书文献。国内CSCD、CSSCI相应的引文数据主要是期刊论文间的引文数据,这些引文信息能够有效地促进交叉学科和新颖学科的发展研究。
然而,当前引文索引检索工具仍然存在一些值得深入研究的问题:
(1)BkCI收录的图书以英文为主,而在国内也具有许多高学术影响力的中文图书,要满足国内用户查阅和发现这些中文图书的需求,就需要构建中文图书引文索引数据库,同时不断积累图书的引文数据。
(2)国内引文索引数据库都缺乏图书文献的引文数据,要满足用户全面准确地发现高学术影响力图书文献,就需要构建类似BkCI的中文图书引文索引数据库。
为解决上述问题,本文研究构建中文图书引文索引数据库系统平台Chinese Book Citation Index(简称CNBkCI)。CNBkCI系统平台将所有中文图书作为来源文献,收集来源文献、参考文献、引证文献、作者数据、项目数据、奖项数据6类数据资源,为用户提供这些数据资源的检索服务,同时通过该平台对这些数据资源进行统计分析,从多维角度分析中文图书学术成果的学术影响力。首先,本文研究文献元数据、作者元数据、项目元数据、奖项元数据4类元数据规范,。其次,本文研究CNBkCI系统平台的用户角色设计、E-R图设计、业务流程设计、系统功能设计、系统框架设计。最后,文献资源是CNBkCI系统平台数据来源的重要部分,本文重点研究CNBkCI系统平台的文献资源采集方法。
1元数据规范
CNBkCI所收集的数据包括来源文献、参考文献、引证文献、作者数据、项目数据、奖项数据,其中来源文献仅包括图书文献,参考文献主要包括图书文献、期刊文献、学位论文、会议文献、报纸、电子文献、档案、法律条文等,而引证文献仅包括图书文献、期刊文献、学位论文、会议文献。根据CNBkCI所涉及到文献种类,本文将文献资源划分为图书文献、期刊文献、学位论文、会议文献、其他文献五类文献,其中其他文献包括报纸、电子文献、档案、法律条文等文献资源。本文讨论了文献元数据、作者元数据、项目元数据、奖项元数据,其中文献元数据包括来源文献、参考文献、引证文献的元数据。
(1)文献元数据
为能够准确地描述、检索CNBkCI的来源文献及其参考文献和引证文献,根据DC核心元数据,制定了图书文献元数据、期刊文献元数据、学位论文元数据、会议文献元数据、其他文献元数据。
(2)作者元数据
根据CNBkCI系统所包含的信息,作者元数据主要包含姓名、机构、邮编等信息,其中通过邮编可以获取作者所在机构的地区信息。
(3)项目元数据
根据CNBkCI系统所包含的信息,项目元数据主要包含项目批准号、项目来源、项目名称等信息,其中项目批准号是项目的唯一标识符,项目来源是该项目受资助的基金名称,项目名称是项目负责人申请的课题名称。
(4)奖项元数据
根据CNBkCI系统所包含的信息,奖项元数据主要包含奖项名称、奖项级别、奖项等级等信息,其中奖项级别主要划分为国家级、省部级等级别,奖项等级主要划分为一等奖、二等奖、三等奖等等级。
2CNBkCI系统平台设计
CNBkCI系统平台是将所有中文图书作为来源文献,收集来源文献、参考文献、引证文献、作者数据、项目数据、奖项数据6类数据资源,为用户提供各类数据资源的全字段检索、高级检索、二次检索、分类检索服务,同时为用户提供学科、中文图书、出版社、作者、机构、地区、项目、奖项学术影响力的统计分析,最终促进所有学科的中文图书学术成果的建设、发展与利用。
CNBkCI系统平台设计主要包括用户角色设计、E-R图设计、系统业务流程设计、系统功能设计、系统架构设计。
(1)用户角色设计
CNBkCI系统平台的用户主要包括超级管理员、后台管理员、企业类项目负责人、高校类项目负责人、其他项目负责人、编目员、审核员、前台管理员、高校类客户、其他客户。
(2)E-R图设计
CNBkCI系统平台的实体包括来源文献实体、参考文献实体、引证文献实体、作者数据实体、项目数据实体、奖项数据实体,来源文献实体与其他5类实体的关系都是多对多关系。
(3)系统业务流程
CNBkCI系统平台业务流程主要涉及到系统的各类用户角色、各类数据资源以及各种业务功能。在后台管理角色中,编目员能够通过人工录入、批量导入、机器抓取收集来源文献、参考文献、引证文献、作者数据、项目数据、奖项数据等数据资源。在前台管理角色中,各类客户能够使用CNBkCI系统平台所提供的全字段检索、高级检索、二次检索、分类检索4种检索服务,同时能够使用该系统平台所提供的学科、中文图书、出版社、作者、机构、地区、项目、奖项8大统计分析功能。
(4)系统功能设计
CNBkCI系统平台的功能包括后台功能和前台功能,后台功能主要包括用户管理、数据管理,前台功能主要包括检索服务、统计分析。用户管理包括权限分配、用户修改2大功能。数据管理功能包括来源文献管理、参考文献管理、引证文献管理、作者数据管理、项目数据管理、奖项数据管理6大管理功能。检索服务功能包括全字段检索、高级检索、二次检索、分类检索4大检索功能。
(5)系统架构设计
CNBkCI系统平台的架构设计包括存储层、管理层、应用层。存储层是通过数据库存储来源文献、参考文献、引证文献、作者数据、项目数据、奖项数据6类数据资源。管理层是为管理员提供人工录入、批量导入、机器抓取3种方式添加各类数据资源,同时为管理员提供各类数据资源的检索、修改、删除等管理操作。应用层是为用户提供全字段检索、高级检索、二次检索、分类检索等检索服务,同时为用户提供学科、中文图书、出版社、作者、机构、地区、项目、奖项学术影响力的统计分析。
CNBkCI系统平台包括数据管理、检索服务、统计分析3个子系统平台,其中数据管理子系统平台的主要工作是通过人工录入、批量导入、机器抓取3种方法收集各类数据资源,而各类文献资源是CNBkCI系统平台数据来源的重要部分。因此,文献资源采集方法是本课题重点难点研究的问题,下文将详细讨论CNBkCI系统平台的文献资源采集方法。
3CNBkCI文献资源采集方法
CNBkCI的文献资源主要包括来源文献、参考文献、引证文献三类文献资源,同时其采集来源文献与参考文献、来源文献与引证文献的引文关系。CNBkCI的来源文献仅包括图书文献,其采集方法从书商、国家图书馆等机构所收集的图书Marc数据中提取图书文献的元数据信息。CNBkCI的参考文献包括图书文献、期刊文献、学位论文、会议文献、报纸、专利、标准、科技报告、档案、法律条文等文献资源,其采集方法先数字化来源文献的参考文献,再利用网络爬虫从超星发现、中国知网两大商业数据库中扩展参考文献的元数据信息。CNBkCI的引证文献仅包括图书文献、期刊文献、学位论文、会议文献四类文献,其采集方法利用来源文献的元数据信息从超星发现、中国知网两大商业数据库中抓取引证文献的元数据信息。
(1)来源文献采集方法
来源文献采集方法是先利用MARC数据结构提取字段内容,再利用MARC数据块匹配数据元素,最后通过这些数据元素填充到来源文献的元数据信息中。来源文献采集方法的方法流程如图3.1所示,其方法步骤具体描述如下:
①从书商、国家图书馆收集作为来源文献的图书MARC数据集,利用记录结束符(ACSII值为29)提取所有MARC记录;
②遍历所有MARC记录,判断是否为最后1个记录,若不是,跳到③,否则跳到⑧;
③从②中的每个记录的记录头标区12-16位置提取数据起始地址,再利用该起始地址计算地址目次区长度,并利用此长度提取地址目次区字符串,最后根据目次项12位固定长度提取所有的目次项;
④遍历地址目次区所有目次项,判断是否为最后1个目次项,若不是,跳到⑤,否则跳到②;
图3.1来源文献采集方法流程图
⑤从④中地址目次区的每个目次项的0-2、3-6、7-11分别提取字段标识符、字段长度、字段起始位置,并提取该字段标识符所对应的字段内容,再将该字段标识符与MARC数据块进行匹配,定位所提取字段标识符所包含的子字段内容,最后利用该字段内容与子字段分隔符(ACSII值为31)提取该字段所包含的所有子字段;
⑥遍历⑤中所提取的所有子字段,判断是否为最后1个子字段,若不是,跳到,否则跳到④;
⑦从⑥中每个子字段提取该子字段的标识符,将该标识符与MARC数据块字段的子字段标识符进行匹配,再提取该子字段所包含的数据元素,最后返回到⑥继续遍历;
⑧处理完所有MARC记录,获取到所有来源文献的元数据信息。
(2)参考文献采集方法
参考文献采集方法是先通过参考文献数字化获取参考文献的基本信息,再通过参考文献的扩展化获取参考文献的扩展信息,最后通过这些基本信息和扩展信息填充到参考文献的元数据信息中。参考文献采集方法的方法流程如图3.2所示,其方法步骤具体描述如下:
①从收集纸质版图书来源文献,扫描所有图书来源文献,获取到这些图书来源文献的参考文献图片,并将这些参考文献图片存放到扫描文件中;
②遍历所有图书来源文献,判断是否为最后1个图书来源文献,若是,跳到③,否则跳到①;
③识别所有参考文献图片,获取到这些参考文献图片的可编辑的参考文献快照,并将这些参考文献快照存放到文本文件中;
④遍历所有参考文献图片,判断是否为最后1个参考文献图片,若是,跳到⑤,否则跳到③;
⑤标注所有参考文献快照,获取到这些参考文献的题名、文献类型2个基本信息;
⑥遍历所有参考文献快照,判断是否为最后1个参考文献快照,若是,跳到⑦,否则跳到⑤;
⑦将所有参考文献的基本信息、参考文献快照存放到数据库中,并遍历所有参考文献的基本信息;
图3.2参考文献采集方法流程图
⑧遍历所有参考文献的基本信息,判断是否为最后1个参考文献的基本信息,若不是,跳到⑨,否则跳到⑩;
⑨通过网络爬虫根据参考文献的文献类型从超星发现、中国知网2大电子数据库中选择合适的匹配数据库,并将参考文献的题名输入到匹配数据库中进行检索,再将返回的所有检索结果与参考文献快照进行匹配,最后通过正确匹配后提取参考文献的责任者、中图分类号、关键词、摘要、出版年等扩展信息;
⑩扩展完所有参考文献的基本信息,获取到所有参考文献的元数据信息。
(3)引证文献采集方法
引证文献采集方法是通过网络爬虫根据图书来源文献的第一责任者、题名、出版年、出版社从超星发现、中国知网2大电子数据库中获取图书文献、期刊文献、学位论文、会议文献4类引证文献的元数据信息。引证文献采集方法的流程如图3.3所示,其方法步骤具体如下:
①遍历所有图书来源文献,判断是否为最后1个图书来源文献,若是,跳到②,否则跳到⑪;
②提取图书来源文献的第一责任者、题名、出版年、出版社4个字段信息;
③通过网络爬虫根据②的字段信息从超星发现库中获取图书引证文献列表,遍历所有图书引证文献列表标题超链接并下载相应地页面,从这些页面中提取图书引证文献的元数据信息;
④遍历图书引证文献列表,判断是否为最后1个图书引证文献,若是,跳到⑤,否则跳到③;
⑤通过网络爬虫根据②的字段信息从中国知网的期刊论文库中获取期刊引证文献列表,遍历所有期刊引证文献列表标题超链接并下载相应地页面,从这些页面中提取期刊引证文献的元数据信息;
⑥遍历期刊引证文献列表,判断是否为最后1个期刊引证文献,若是,跳到⑦,否则跳到⑤;
⑦通过网络爬虫根据②的字段信息从中国知网的学位论文库中获取学位引证文献列表,遍历所有学位引证文献列表标题超链接并下载相应地页面,从这些页面中提取学位引证文献的元数据信息;
⑧遍历学位引证文献列表,判断是否为最后1个学位引证文献,若是,跳到⑨,否则跳到⑦;
图3.3引证文献采集方法流程图
⑨通过网络爬虫根据②的字段信息从中国知网的会议论文库中获取会议引证文献列表,遍历所有会议引证文献列表标题超链接并下载相应地页面,从这些页面中提取会议引证文献的元数据信息;
⑩遍历会议引证文献列表,判断是否为最后1个会议引证文献,若是,跳到①,否则跳到⑨;
⑪遍历完所有的图书来源文献,获取到所有引证文献的元数据信息。
由于时间和经费局限,本课题仅完成了元数据规范、CNBkCI系统平台设计、文献资源采集方法,其中文献资源采集方法是本课题重点难点研究问题,对于CNBkCI系统平台的检索服务、统计分析功能实现还有待于后续研究。
通过深入研究上述内容,本研究所构建的CNBkCI具有丰富的理论意义和应用价值:
(1)促进图书学术影响力分析理论研究,同时丰富图书评价理论,完善引文分析理论,促进学术影响力分析研究,进而完善学术评价理论;为构建会议文献、学位论文、科研报告等学术文献的引文分析理论提供借鉴;为分析期刊论文引文分析、图书文献引文分析、会议文献引文分析的联系提供理论支撑。
(2)通过建立中文图书引文数据,完善学术文献引文索引数据库信息,同时为期刊文献引文数据、会议论文引文数据、图书文献引文数据、科研报告引文数据的整合提供访问接口;通过图书检索服务,为用户扩充学术研究知识来源并增强引文导航,方便用户快捷地掌握学科间引文脉络,发现学科知识新增长点;通过统计分析中文图书的引文数据,评价图书、作者、机构、地域的学术影响力,促进学术交流及成果利用与转化,指导各学科信息资源的建设。