当前位置: 首页»信息动态 »行业动态
介绍在大数据的网络时代的档案信息检索
来源:www.cqnuoxin.cn 发布时间:2019年06月10日

  一,信息网络环境

  下文件信息检索的特点

  与传统的手工检索和常规计算机检索相比,信息网络环境下的档案信息检索在检索对象,检索方法,检索软件,检索服务类型和检索效率方面存在显着差异。

  (1)检索对象

  传统的档案信息检索对象仅限于部门和系统拥有的特定信息资源,网络信息检索对象的范围更广,面向庞大的在线共享资源。 可以检索关于在web上分发的各种数据库的信息。从信息的内容,除了技术和社会科学知识,它还包括广告,风格,电影和电视,娱乐等商业和娱乐信息。从信息的形式, 除了文本信息,它还包括各种多媒体信息。

  (2)搜索方法

  传统的计算机文件信息检索主要采用人机交互文本检索方法,用户界面单一。在实际检索之前,有必要制定仔细的搜索策略,准备搜索公式,并输入搜索命令。 然后,可以在计算机文档中进行查询。搜索结果通常只是文本信息,如参考书目,摘要和数值,检索速度慢。 Web信息检索使用超文本和超媒体检索方法。 它具有统一和友好的用户界面。它不需要制定搜索类型。它使用自然语言搜索来执行标题和内容的自动搜索。除了文本信息之外,搜索结果还包括诸如音频信息和视频信息之类的非文本信息。 检索速度很快。

  (3)搜索软件

  普通文件信息检索软件一般是封闭式专用软件,每个文件检索软件不能普遍使用,用户使用不方便。网络信息检索软件是开放的公共软件,只要它是在线用户即可。 各种搜索软件可用于共享因特网上的所有信息资源。

  (4)搜索服务

  传统的计算机信息检索服务方法包括追溯检索,离线和在线预定服务,复制,在线打印,订购原始文本等,收费高。 服务范围狭窄。除了提供一般的在线搜索服务之外,因特网上的各种类型的服务器还可以提供诸如浏览和检索,超文本检索和自动内容搜索之类的服务。这些服务器对用户完全开放。 无论用户的浏览和选择如何,一些服务都是免费的,服务范围非常广泛。

  (5)搜索效率

  在传统的计算机检索中,用户租用特殊的信息通道,信息传输顺畅,但由于一般的计算机检索系统数据库数量有限,信息来源狭窄, 信息资源共享水平低,召回率低。在信息网络中,用户使用公共信息通道。由于在线用户数量众多,传输的信息量巨大,信息通道容易被阻塞。 它对检索速度有影响,但在线信息的来源非常广泛。用户可以在全球范围内交换信息,检索相关信息并共享信息资源。召回率自然很高。此外, 大多数网络信息检索采用自然语言。它不需要像传统的计算机检索那样编译搜索公式。用户的知识水平低,并且用户不需要知道存储所需信息的文档。 您不必选择搜索标识符,可以使用您熟悉的语言直接在计算机终端上查询所需信息,避免将自然语言转换为搜索标记并构建搜索时可能出现的各种错误配方,提高精度。 检索的便利性也大大增加。

  可以看出,随着信息传输速度和网络功能的进一步提高以及网络用户的增加,网络信息检索将逐步取代传统的人工检索和传统的计算机检索。 占据信息检索的主导地位。

  二、网络信息检索工具

  在信息网络环境下, 信息组织与检索方式有了很大改变, 检索工具的运行环境与前迥异, 原有的信息检索工具已不能适应新的需要, 各种专门用于网络环境的检索工具应运而生。网络信息检索工具目前主要有下面几种:

  1 . 交互式检索工具

  提供类似商用联机检索的信息检索服务, 可分为Gopher 和WWW 两大类。

介绍在大数据的网络时代的档案信息检索

 

  (1 ) Gopher

  是一种菜单式的检索工具, 用户只要在成树型结构排列的菜单上选择特定的项目( 可以是目录名, 也可以是文件名) , 就可直接检索所需信息, 而不必考虑这些信息的存储方式和存储地点, 它是目前最常用的网络信息检索工具之一。

  (2 ) WWW

  是一种基于超文本的交互式浏览型检索工具, 是目前因特网上最先进的信息检索工具。它覆盖了约2 000 万个大小不等的信息源, 可帮助用户查找各服务器在网上的地址, 通过该地址访问该服务器提供的信息。对用户来说, 文件的格式及其存储方式均是透明的, 这些文件既可来自WWW 服务器, 又可来自F TP、Gopher 或WAIS 服务器。

  2.目录搜索工具

  字典,电话簿和人员目录等功能用于查询在线用户信息以及有关Internet上各种服务和提供商的信息。例如,当前在因特网上运行的常用的基于目录的网络信息检索工具具有WH OIS,NETFIND,X。500等。

  (1)WH OIS

  互联网的用户信息服务一般用于查找互联网上用户的电子邮件地址,邮政地址,电话号码等,结构简单,使用方便。目前,有一种称为WHOIS + +新的目录服务通信协议正在开发中,可能会构建一个覆盖整个Internet的分布式目录服务系统。

  (2)NETFIND

  可以基于已知人员的姓名和关于他或她的工作地点的信息找到用户愿意发布的人的电子邮件地址和电话号码以及其他信息。

  (3)X。500

  它是由国际电信和电信咨询委员会(CCIT T)开发的目录服务通信协议,为用户提供分布式标准化目录服务。 它不仅提供有关个人和机构的信息,还提供有关网络资源,应用程序,硬件等的信息。

  3.索引搜索工具

  索引在线信息资源,为用户提供文件检索服务,检索结果可以是文件的存储地址,并且可以通过检索工具进一步获得原始信息。前者是Archie, 后者包括Veronica,Jughead和WAIS。

  (1)Archie

  建立Archie服务器的组织定期从每个FTP主机收集存储在其中的所有公共文件的目录,并将此信息存储在Archie中 索引数据库供用户检索。互联网上已经建立了数十个Archie服务器,这些服务器共存储了大约210万个文件的目录,这些文件分布在全球约1,200台主机上。

  (2)Veronica

  该功能类似于Archie的功能,Archie是Gopher的搜索工具。 Veronica服务器定期联系每个Gopher服务器并复制所有菜单。 存储在数据库中,用户可以通过Velonica搜索服务程序自动搜索相关的Gophe服务器菜单到数据库,这极大地改善了Gophe r 检索速度。

  (3)Jughead

  它是一个类似于Veronica的搜索工具。区别在于J ughead的搜索范围是预定义的,例如仅检索大学或某种类型的Gopher服务器。

  (4)WAIS

  使用因特网上的各种文本数据库作为检索对象,自然语言全文检索方法允许用户快速检索大范围的信息。 可以在屏幕上显示文件的全文信息,供用户在线浏览。

相关文章