当前位置: 首页»信息动态 »行业动态
档案全文检索技术有着怎样的发展呢?
来源:www.cqnuoxin.cn 发布时间:2019年05月28日

  一,文件全文检索技术

  全文存档搜索,也称为存档原始文本存储和检索,是通过光盘存储器实现并与微设备在线实现的文件检索方法。我的国家自1991年以来的沈阳市档案馆 自最早应用原始存储和检索CD-ROM以来,已有数十个单元先后进行了原始文本存储和检索的实验或应用。档案的全文检索已逐渐从实验演变为实际使用。

  (1)CD原始存储

  存档原始存储和检索的发展主要依赖于光盘技术的支持。光盘是大容量存储载体,其信息存储容量非常大。 可以满足普通磁盘无法承受的存储要求。在各种各样的光盘载体中,只读光盘(CD-ROM)最常用于自动文件检索。

档案全文检索技术有着怎样的发展呢?

 

  CD-ROM存储量大,易于制造,成本低,可以连接微机进行随机检索,因此迅速普及。在中国,因为通讯设施相对落后, 建立集中的大规模在线文件检索系统存在很大困难。 CD-ROM技术的采用有利于建立分散的小文件检索系统,符合中国档案检索工作的实际。 这将是一个理想的选择。具体地说,盘具有以下优点和缺点:

  1.优点

  (1)光盘存储容量大,耐用,成本低。

  (2)光盘系统可以为用户提供与在线系统功能等效的软件,便于自动检索,快速检索速度和随机访问。

  (3)可以避免使用在线搜索所需的电信设施,无需在线搜索中的电信费和在线系统使用费,并避免在长途电信传输过程中可能出现的通信错误。

  (4)订购CD-ROM数据库后,使用量没有限制,使用时无需承受财务压力。

  (5)可以组合文本,图像,声音和其他信息以扩展存档数据库的用户范围。

  (6 ) 光盘系统的图像输出质量好, 可改善字迹模糊档案文件的可读性。

  2 . 缺点

  (1 ) 购买( 或租用) 光盘数据库, 不管其中的记录是否被利用, 都必须全部一次付费。因此光盘系统如果使用量太少, 就显得十分昂贵。

  (2 ) 由一个单位建立的光盘系统, 可供利用的档案信息资源十分有限。

  (3 ) 光盘数据库的更新是定期进行的, 其现实性不如联机检索系统的数据库。

  (4 ) 当前的光盘系统多为单用户性质, 每次只能由一个检索者使用。

  (5 ) 缺乏设备和软件的兼容性, 标准化问题需进一步解决。

  (二) 档案全文数据库

  档案全文数据库是以电子形式存储档案全文信息的数据库,通过全文数据库可以检索档案中的任何字、句、段、节等。

  全文数据库的特点如下:

  (1 ) 可以直接存取原始文献中的专门数据, 检准率高。

  (2 ) 检索及时。二次文献数据库需进行著录、标引等费时费力的前期加工, 而全文数据库直接输入档案全文, 可提供非常及时的信息。

  (3 ) 可从中找到边缘性的情报。一般的目录、索引、文摘等只收入档案的主要信息, 一些边缘性情报往往被遗漏, 而全文数据库收录的是档案全文信息, 不会遗漏一个字句。

  (4 ) 采用自然语言检索。全文数据库使用的是档案作者所用的自然语言, 因此无经验的用户也可很容易地使用。

  (三) 全文检索技术

  目前的全文检索技术与一般的档案检索技术十分相近, 类似于一般的顺序检索, 但更早地采用了“一次扫描技术”。即当检索提问中有若干个检索词时, 系统不必用每个检索词逐个地对全文进行扫描, 而是将其组成一个有限自动机, 从而对档案进行一次性扫描。

  全文检索系统采用自然语言检索, 大大提高了检准率和系统的易用性, 但却导致检全率的降低, 而后控词表是解决此问题的有效途径。后控词表综合了自然语言和常规的受控语言的长处,对于提高全文检索系统的检索效率有着重要作用。目前有关这方面的研究还不是很多, 国内基本还处于试验阶段,但已取得了一些进展。如北京文献服务处“ 汉语自动切词标引系统( CWSAIS)”中采用的基于相关标引模式的后控技术, 上海空军政治学院图书档案系开发的“ 汉语题内关键词索引及后控制词表系统” 等。

  全文检索技术在以下方面有新的发展:

  (1 ) 附加光盘。这样可以允许查找目前联机检索系统还不能提供的照片、插图及其他图解。例如, 美国的书目检索服务公司(BRS) 系统已经利用光盘来增强它们的医学全文数据库, 文本的联机检索与显示仍然通过BRS 的主机, 但当文本中必须附以插图时, 可以使用光盘补充功能来提供相应的插图。

  (2 ) 提供更有效的接口。由于全文数据库的主要用户是最终用户, 因而全文系统必须是容易查找的, 必须提供适当的检索与显示功能, 如怎样方便浏览被检出的文献, 利用共同命令语言存取其他系统的方法等, 为用户提供更有效的接口。

  (3 ) 有关文本分析方面的研究。包括对文本的切分、描述、分类、修改、转换、鉴别等。

  二、多媒体存储与检索技术

  多媒体存储与检索技术是指将文本、数值、图形、图像、声音等多种类型的档案信息进行综合处理的技术。迄今为止, 已有不少多媒体系统问世, 其中大多是实验性系统, 只在有限的范围内使用。如清华大学档案馆开发的“ T HDA 文档一体化多媒体光盘网络系统” 等。

  实际上, 目前的多媒体系统大多是将图与声压缩后当成一个文件甚至一个记录存储到计算机中, 使用时即可与文本信息一样地使用, 并且借助于附加在图形或声音旁的标引信息( 如现在的图像信息常附有一个关键词) 来实现对图形与声音的检索。而对图和声的直接检索则是今后的发展方向。

  多媒体存储与检索技术能够使用户方便、直观、迅速地获取全方位的档案信息, 保证了档案信息的完整性与准确性。本地区、本部门举行的重大活动, 召开的重要会议等实况录像、录音均可录入计算机供随时调用, 体现了档案的原始记录性。对于利用者来说, 档案由干巴巴的文字变成了内容丰富、声文并茂、生动形象的立体信息, 由此可大大提高档案的利用率。另外, 由于计算机在档案人员操作下只显示利用者所需信息, 消除了利用者查阅整本案卷时翻阅其他文件的可能性, 可起到一定的保密作用, 还可避免档案因不时取出翻阅而造成的磨损。

  多媒体检索系统是迅速发展的信息技术的结果, 与多媒体检索系统有关的技术包括:

  1 . 数字信息处理技术

  包括模拟信号与数字信号的相互转换, 文本、数值、图像、数字语言信息的编码与解码技术。这些技术的发展使得图像和音响成为计算机可处理的数据。

  2 . 计算机存储技术

  全文本、图形画面和语音信息都要求很大的存储空间, 海量存储技术的发展满足了多媒体系统对存储空间的要求。输入输出设备的发展( 鼠标扫描器、高分辨率显示和打印设备、图形工作站等) 则为图像、语音的输入输出提供了有效手段, 使用户能方便地、直接地生成和获取多媒体数据。

  3 . 面向对象的数据库理论和技术

  传统的数据库管理系统主要适应于格式化和结构化数据, 而文本、图像、语音等都是非结构化数据, 面向对象的数据库技术就是为了解决非结构化数据的组织和管理问题而发展起来的, 它为多媒体检索系统提供了理论依据和方法、手段。

  迄今为止, 研究人员在多媒体系统方面所做的大部分工作都侧重于多媒体数据的存储和传输上, 而针对多媒体信息和数据的组织及其检索方面所作的研究还很有限, 而这正是多媒体检索系统发展的关键问题。

  三、档案智能检索技术

  档案智能检索技术是应用人工智能技术模拟档案检索的过程, 实现档案信息的存储、检索和推理的一种先进的档案检索技术。从国防科工委档案馆等单位研制的实验性的智能化系统来看, 这种智能检索系统可以部分实现自然语言检索, 提高检全率和检准率, 代表了档案检索系统的发展方向。

  (一) 智能档案检索系统的特点

  (1 ) 建立在知识库的基础上, 具有很高的推理功能。这是它与一般档案检索系统的主要区别。

  (2 ) 使用自然语言进行交互。采用高级的自然语言处理技术, 来理解、分析用户的提问和向用户提供检索结果。

  (3 ) 面向用户。能把智能性工作从用户身上转移到机器上解决, 如描述情报需求, 制定检索策略及分析结果等。

  (4 ) 适用性广。适于不同类型的用户, 尤其是无经验的用户。

  一、档案全文检索技术

  档案全文检索, 又称档案原文存储与检索, 是借助于光盘存储器和与缩微设备联机实现的一种档案检索方式。我国自从沈阳市档案馆于1991 年最早开始光盘原文存储与检索的应用研究以来, 已有数十个单位相继进行了原文存储和检索的实验或应用,档案全文检索逐渐由实验向实用化发展。

  (一) 光盘原文存储

  档案原文存储与检索的发展主要依赖于光盘技术的支持。光盘是一种海量存储载体, 其信息存储容量极大, 能满足一般磁盘所不能承受的存储要求。在多种多样的光盘载体中, 只读光盘( CD - ROM)在档案自动检索中应用最多。

  CD - ROM 存储量大, 制作容易, 成本低, 可同微型计算机相连接进行随机检索, 因此得到迅速普及。在我国, 由于通讯设施比较落后, 要建立集中式的、大规模的联机档案检索系统, 存在较大的困难。而CD - ROM 技术的采用, 有利于建立分散的、小型的档案检索系统, 符合我国档案检索工作实际, 将是一种理想的选择。具体而言, 光盘存储有下列优缺点:

  1 . 优点

  (1 ) 光盘具有很大的存储容量, 耐用, 费用低。

  (2 ) 光盘系统可向用户随盘提供相当于联机系统功能的软件, 便于自动化检索, 检索速度快, 且可随机存取。

  (3 ) 可避免使用联机检索所必须的电讯设施, 免除了联机检索中的电讯费、联机系统使用费, 还可避免远距离电讯传输时可能出现的通讯失误。

  (4 ) 一旦订购了光盘数据库, 其使用量就没有限制, 不必在使用时受到经费的压力。

  (5 ) 可以将文本、图像、声音等信息结合在一起, 扩大档案数据库的用户范围。

  (6 ) 光盘系统的图像输出质量好, 可改善字迹模糊档案文件的可读性。

  2 . 缺点

  (1 ) 购买( 或租用) 光盘数据库, 不管其中的记录是否被利用, 都必须全部一次付费。因此光盘系统如果使用量太少, 就显得十分昂贵。

  (2 ) 由一个单位建立的光盘系统, 可供利用的档案信息资源十分有限。

  (3 ) 光盘数据库的更新是定期进行的, 其现实性不如联机检索系统的数据库。

  (4 ) 当前的光盘系统多为单用户性质, 每次只能由一个检索者使用。

  (5 ) 缺乏设备和软件的兼容性, 标准化问题需进一步解决。

  (二) 档案全文数据库

  档案全文数据库是以电子形式存储档案全文信息的数据库,通过全文数据库可以检索档案中的任何字、句、段、节等。

  全文数据库的特点如下:

  (1 ) 可以直接存取原始文献中的专门数据, 检准率高。

  (2 ) 检索及时。二次文献数据库需进行著录、标引等费时费力的前期加工, 而全文数据库直接输入档案全文, 可提供非常及时的信息。

  (3 ) 可从中找到边缘性的情报。一般的目录、索引、文摘等只收入档案的主要信息, 一些边缘性情报往往被遗漏, 而全文数据库收录的是档案全文信息, 不会遗漏一个字句。

  (4 ) 采用自然语言检索。全文数据库使用的是档案作者所用的自然语言, 因此无经验的用户也可很容易地使用。

  (三) 全文检索技术

  目前的全文检索技术与一般的档案检索技术十分相近, 类似于一般的顺序检索, 但更早地采用了“一次扫描技术”。即当检索提问中有若干个检索词时, 系统不必用每个检索词逐个地对全文进行扫描, 而是将其组成一个有限自动机, 从而对档案进行一次性扫描。

  全文检索系统采用自然语言检索, 大大提高了检准率和系统的易用性, 但却导致检全率的降低, 而后控词表是解决此问题的有效途径。后控词表综合了自然语言和常规的受控语言的长处,对于提高全文检索系统的检索效率有着重要作用。目前有关这方面的研究还不是很多, 国内基本还处于试验阶段,但已取得了一些进展。如北京文献服务处“ 汉语自动切词标引系统( CWSAIS)”中采用的基于相关标引模式的后控技术, 上海空军政治学院图书档案系开发的“ 汉语题内关键词索引及后控制词表系统” 等。

  全文检索技术在以下方面有新的发展:

  (1 ) 附加光盘。这样可以允许查找目前联机检索系统还不能提供的照片、插图及其他图解。例如, 美国的书目检索服务公司(BRS) 系统已经利用光盘来增强它们的医学全文数据库, 文本的联机检索与显示仍然通过BRS 的主机, 但当文本中必须附以插图时, 可以使用光盘补充功能来提供相应的插图。

  (2 ) 提供更有效的接口。由于全文数据库的主要用户是最终用户, 因而全文系统必须是容易查找的, 必须提供适当的检索与显示功能, 如怎样方便浏览被检出的文献, 利用共同命令语言存取其他系统的方法等, 为用户提供更有效的接口。

  (3 ) 有关文本分析方面的研究。包括对文本的切分、描述、分类、修改、转换、鉴别等。

  二、多媒体存储与检索技术

  多媒体存储与检索技术是指将文本、数值、图形、图像、声音等多种类型的档案信息进行综合处理的技术。迄今为止, 已有不少多媒体系统问世, 其中大多是实验性系统, 只在有限的范围内使用。如清华大学档案馆开发的“ T HDA 文档一体化多媒体光盘网络系统” 等。

  实际上, 目前的多媒体系统大多是将图与声压缩后当成一个文件甚至一个记录存储到计算机中, 使用时即可与文本信息一样地使用, 并且借助于附加在图形或声音旁的标引信息( 如现在的图像信息常附有一个关键词) 来实现对图形与声音的检索。而对图和声的直接检索则是今后的发展方向。

  多媒体存储与检索技术能够使用户方便、直观、迅速地获取全方位的档案信息, 保证了档案信息的完整性与准确性。本地区、本部门举行的重大活动, 召开的重要会议等实况录像、录音均可录入计算机供随时调用, 体现了档案的原始记录性。对于利用者来说, 档案由干巴巴的文字变成了内容丰富、声文并茂、生动形象的立体信息, 由此可大大提高档案的利用率。另外, 由于计算机在档案人员操作下只显示利用者所需信息, 消除了利用者查阅整本案卷时翻阅其他文件的可能性, 可起到一定的保密作用, 还可避免档案因不时取出翻阅而造成的磨损。

  多媒体检索系统是迅速发展的信息技术的结果, 与多媒体检索系统有关的技术包括:

  1 . 数字信息处理技术

  包括模拟信号与数字信号的相互转换, 文本、数值、图像、数字语言信息的编码与解码技术。这些技术的发展使得图像和音响成为计算机可处理的数据。

  2 . 计算机存储技术

  全文本、图形画面和语音信息都要求很大的存储空间, 海量存储技术的发展满足了多媒体系统对存储空间的要求。输入输出设备的发展( 鼠标扫描器、高分辨率显示和打印设备、图形工作站等) 则为图像、语音的输入输出提供了有效手段, 使用户能方便地、直接地生成和获取多媒体数据。

  3 . 面向对象的数据库理论和技术

  传统的数据库管理系统主要适应于格式化和结构化数据, 而文本、图像、语音等都是非结构化数据, 面向对象的数据库技术就是为了解决非结构化数据的组织和管理问题而发展起来的, 它为多媒体检索系统提供了理论依据和方法、手段。

  迄今为止, 研究人员在多媒体系统方面所做的大部分工作都侧重于多媒体数据的存储和传输上, 而针对多媒体信息和数据的组织及其检索方面所作的研究还很有限, 而这正是多媒体检索系统发展的关键问题。

  三、档案智能检索技术

  档案智能检索技术是应用人工智能技术模拟档案检索的过程, 实现档案信息的存储、检索和推理的一种先进的档案检索技术。从国防科工委档案馆等单位研制的实验性的智能化系统来看, 这种智能检索系统可以部分实现自然语言检索, 提高检全率和检准率, 代表了档案检索系统的发展方向。

  (一) 智能档案检索系统的特点

  (1 ) 建立在知识库的基础上, 具有很高的推理功能。这是它与一般档案检索系统的主要区别。

  (2 ) 使用自然语言进行交互。采用高级的自然语言处理技术, 来理解、分析用户的提问和向用户提供检索结果。

  (3 ) 面向用户。能把智能性工作从用户身上转移到机器上解决, 如描述情报需求, 制定检索策略及分析结果等。

  (4 ) 适用性广。适于不同类型的用户, 尤其是无经验的用户。

  (5 ) 具有学习能力。可以从用户与系统的交互中获取知识,使系统适应环境的变化而发展变化。

  (二) 智能档案检索系统的结构与功能

  1 . 知识库

  知识库中包含了满足档案检索要求所需要的各种知识, 如文献知识、专业知识、专家知识、语言学知识等。

  2 . 数据库

  存储大量事实型数据以及推理过程中的中间结果信息等。

  3 . 检索推理机

  综合应用各种检索策略和推理技术, 利用知识库中的知识,按一定的推理策略解决用户的问题。

  4 . 文本处理

  利用计算机自动处理自然语言形式的文本信息, 对文本进行语法、语义分析, 并采用知识表示方法表达档案内容及其语义关系。

  5 . 人机接口

  理解、分析用户提问, 产生适于用户的结果, 并具有解释功能。

  6.知识获取

  使用机器学习技术从各种知识来源获取知识。

  (5)有学习能力。知识可以从用户和系统之间的交互中获得,使系统能够适应环境的变化并发展。

  (二)智能文件检索系统的结构和功能

  1.知识库

  知识库包含满足档案检索要求所需的各种知识,例如文学知识,专业知识,专家知识和语言知识。

  2.数据库

  在推理过程中存储大量事实数据和中间结果信息。

  3.搜索推理引擎

  综合运用各种检索策略和推理技巧,利用知识库中的知识,根据一定的推理策略解决用户的问题。

  4.文字处理

  计算机自动处理自然语言形式的文本信息,对文本进行语法和语义分析,并使用知识表示方法表达文件内容及其语义关系。

  5.人机界面

  理解和分析用户问题,生成适合用户的结果,并具有解释功能。

  6.知识获取

  使用机器学习技术从各种知识来源获取知识。

相关产品

相关文章