WAIS
WAIS的主标是 “Wide Area InformationServer”,中文意思是广域信息服务器,简单来说,这是一种用户可以用来查找包含给定关键文本的Internet自动搜索服务。
道格拉卡默教授指出,简单地说,自动搜索服务可分为两大类。有些用以搜索标题,而另外一些则查找内容。Archive用来找出选定名字的所有文件不属于一类。它们是使用标题进行搜索,具有速度快的优点,不过,虽然对标题的搜索可以快速进行,但这种方法也有其不足之处,原因在于一份文档的标题有时并不能精确地阐明其内容。例如,搜索中 “cat” 猫,将与诸如 “Cat On Hot Tin Roof( 《热铁皮屋顶上的猫》) 之类的标题相配,而那都是一个有关人类生态状态的故事,再如“Gone With The Wind” 《飘》 是一部描写内战时期美国南方生活的著名小说,但无论是“South” 南方,还是“civil war”内战,均未在标题上。
由于计算机在分析语法或领会一份文档的含义方面存在诸多困难,大多数计算机程序并不希望像人那样阅读文档。正如扫描字符串“dimate”时,计算机会将有关经济的文档及有关天气的文档一起挑出来。
研究人员依靠扫描特定的单词或短语,有时并不能抽取到与某一话题相关的文档,因此Internet提供了一种搜索文档内容的自动搜索服务——WAIS。它使得Internet上巨大的信息资源变得易于检索,并且可以获得数据库 (WAIS术语称之为“源” source) 信息。
WAIS是多个公司共同努力的结晶,思考机器公司CTMC曾参与其中,因为WAIS显示该公司计算机的强大性能。后来,人们又为此成立了一个独立的公司,专门从事WAIS的开发和经营。
类似多种Internet服务,用户可通过各种方式访问WAIS。例如,用户可以到思考机器公司的quake. think. com,并在注册时输入WAIS,与此同时,也可以运用本地的WAIS客户程序。敲入WAIS后,系统管理器会自动地连接需要的WAIS服务。虽说不同的访问方式造成使用上的一定差异,但它们都遵循相同的模式。在一开始,你需要选择一个可供扫描的文档集合,这样的集合也即是 “源”,目前存在500多个源。然后,你输入一串字符描述你所要查找的信息,作为响应,WAIS将在指定的源中寻找合乎要求的文档,接着,你挑选若干样例文档,并要求WAIS查寻 “相似” 文档,比方说,假设一个用户希望到法国旅游,想搜索那里的旅游信息,则在一般情况下,当用户输入“France”(法国) 进行搜索时,它将会得到关于诸如法国文学、法国经济或法国形形色色文档。另一方面,使用WAIS把搜索限制在有关法国旅游信息的文档集合中,则将得到与旅游相关的文档。
在要求WAIS搜索文档之前,用户必须决定,使用哪些文档集合作为源,但是怎样选择? 这也同样需要WAIS的帮助。实际上,这种搜索并不复杂,当用户首次连接到WAIS时,系统将从一个被称作“服务器目录” 的特殊源开始工作,服务器、目录并不是一个常规的文档集合,与此相反,它包含的是可为WAIS所用的文档集合的描述性信息。因此,当用户通过使用服务器目录源未提出问题时,得到的回答就是关于文档集合的一个清单。
为搜索源的描述信息,用户可以输入一个句子或一些搜索词条; 随后WAIS将从头至尾地浏览服务器目录,并例举所有有关条目,其中的每个条目都将指出一个文档集合; 在这之后,用户可以选择一个到多个条目,并规定WAIS使用它们来进行随后的搜索。
在Internet中,人们有一个强烈的愿望,即实现知识的共享。查找许多数据库中的有用信息的最佳工具之一就是WAIS。