本人发表在《数字图书馆论坛》05年第十期的文章摘编发布。
前言
目前,搜索引擎的种类繁多,性能各异,以综合性的搜索引擎居多。对于综合性的搜索引擎来说,它的优点是显而易见的:它所搜索的数据量大,理论上可覆盖全部或者大部分网站;查询结果较快;具有较为友好的用户界面;采用了较高的技术来满足用户对各类信息资源搜索的要求。但是,随着网络信息资源的迅速增加,综合性的搜索引擎在满足用户的专业搜索提问时却显得力不从心。从现有的搜索引擎来看,几乎没有任何综合性的搜索引擎能够很好地满足专业检索要求的。由于综合性搜索引擎没有对专业信息进行优化处理,检索出的查询信息数量极大,而且重复过多,相关性差,利用率低,不适合专业化的信息检索。在2005年7月发布的《中国互联网发展统计报告》中,“用户经常在网上浏览或查询过的信息”的候选项第一次出现了“专业文献/论文”选项,并且占到了17.9%的比例,排名第八。但是,在“不能满足用户的需要”候选项中却占到24%的比例,排名第二。随着专业数据库的费用逐年看涨以及OA的蓬勃发展,用户越来越依赖于专业搜索引擎来查询学术文献。由此,近几年出现了一些专业搜索引擎(specialty search engine),在这其中,专业科学搜索引擎—Scirus和google最新发布的Google Scholar是两个很优秀的范例。
1. 简介
1.1. Scirus简介
Scirus科学搜索引擎由爱思唯尔科学公司(Elsevier Science)于2001年4月1日推出。Scirus是专为搜索高度相关的科学信息而设计的搜索引擎。在起始阶段,Scirus涵盖了Elsevier公司自己的信息数据库如“科学指南”(ScienceDirect),“生物医疗网络” (BioMedNet)和“化学网络”(Chemweb)等,以及网上免费提供的科学信息。随后,Elsevier公司又与其它提供科学信息的公司进行接触,邀请它们将其所有的数据库纳入Scirus可以搜索到的范围之内,从而使Scirus能够精确地找到普通搜索引擎所找不到的免费或者访问受限的科学信息资源。
Scirus的技术支持是Fast Search & Transfer 。世界许多著名的有检索需求的跨国公司,如 AT&T、 eBay、BroadVision、IBM、InfoSpace、Reuters、T-Online、Terra Lycos和Tiscali等都采用FAST搜索技术。
在此,简单的介绍一下Scirus这个专业搜索引擎命名的由来。Scirus是一位古希腊的先知,后来在一次战争中死去,被古希腊人尊称为英雄。Elsevier公司是这样解释他们把自己的专业搜索引擎命名为scirus的由来:因为科学是一门有想象力的学科,通过人们创新的思想和努力来推动其健康发展。Scirus将会为你们的科学探索先行铺路,帮助你们成为科学的先知。毫无疑问,Elsevier也希望自己创立的Scirus成为专业搜索引擎界的先知Scirus,这或许是Elsevier公司用其命名的另外一个原因。
1.2. Google Scholar简介
2004年11月18日,Google公司宣布针对科学家和研究人员推出新的搜索服务Google Scholar,它目前仍然处于测试阶段。这是Google和众多科学和研究机构合作的结果,比如ACM、IEEE以及在线计算机图书中心等机构。同时这也是其计划的第一步,最终公司将为科研人员提供学术性论文、书籍、摘要及技术报告等在内的搜索服务。他们宣称:“Google公司从科学研究中得到了极大的好处,现在到了我们报答科研社会的时候了。”它一开始将不包含在Google引擎的文本广告。但是,公司高层称,最终文本广告服务业将出现在Google Scholar搜索中。
SearchWatchEngine机构的主编苏利文称,“Google公司的科研搜索服务是一个巨大的进步,我们会继续期待这种搜索服务的表现。”
不同于Scirus的宗旨“仅检索科学信息(Scientific Information Only)”,Google Scholar的口号是“站在巨人的肩膀上”(Stand on the shoulders of giants)。这句话引用自科学家牛顿(Isaac Newton)的名言:假如我能够看得更远,是因为我站在巨人的肩膀上。绝大部分的科学研究都是在前人的发现中获取的,借此,Google Scholar希望做一个巨人,帮助学者发现更多的信息,从而获得更高的成就。
2. 收录范围
2.1. Scirus的收录范围
随着Scirus 6.5的发布,它使用FAST的搜索平台对用户提供了超过2亿个科技网页的检索,涵盖了18,000,000篇全文文献及文摘,收录范围广泛,文献种类齐全。它为用户提供了强大的检索功能,具体表现在:查找网页上最大的科技及医学(STM)数据库,能够发现更多的科技信息。如Beilstein on ChemWeb、BioMed Central、MEDLINE on BioMedNet、ScienceDirect、Society for Industrial & App. Mathematics等数据库;发现其他搜索引擎未收录的最新的报告、专利、同行评议文章、作者主页、大学网址和期刊。
Scirus成立四年来,可检索的网页数量逐年递增:2001年4月收录的网页数目为0.6亿,2002年4月增加到1亿,2003年4月增加到1.5亿,2004年4月增加到1.6亿个网页,2005年则超过了2亿个网页。
Scirus成立四年来,可检索的网页数量逐年递增:2001年4月收录的网页数目为0.6亿,2002年4月增加到1亿,2003年4月增加到1.5亿,2004年4月增加到1.6亿个网页,2005年则超过了2亿个网页。
2.2. Google Scholar的收录范围
使用Google Scholar除了可以搜索普通网页中的学术论文以外,还可以搜索同行评议文章、学位论文、图书、预印本、文摘、技术报告等学术文献,文献来源于学术出版物、专业学会、预印本库、大学机构,内容从医学、物理学到经济学、计算机科学等横跨多个学术领域。
Google Scholar可以过滤掉普通搜索结果中的大量垃圾信息,还可以通过引用链接方便地找到与搜索结果关联的其他相关学术资料。
目前,它可检索的网页并没有确切的数量,但是有着Google能够检索80亿个网页的坚强技术后盾,以及与各大数据库厂商、专业学会等的强强联合,收录范围预计能够在众多专业搜索引擎中名列前茅。
3. 检索功能
两种专业搜索引擎检索功能较为强大。用户可以通过简单检索(basic search)和高级检索(advanced search)两种方式来进行检索专业信息资源。
它们专为研究者设计了独特的功能型检索方式,提供了一个非常友好的用户界面和高级检索功能。特别是Scirus,除了其高级搜索的用户选项较多以外,它还使用一个特殊的叙词表来收录相关的科学词汇。在与慕尼黑大学(University of Munich)的计算语言学系(Computational Linguistics Department)的合作基础上,Scirus确定了超过50,000个叙词,涵盖所有专业科学领域的科学叙词表,以保证检索效率。系统对每次搜索到的信息内容会自动抽取反映主题内容的关键词,以列表的形式显示在搜索结果的右侧,点击列表中的某一个词,系统会自动添加到检索式中,对上一次的搜索结果再实施一次限定检索,这对于缩小一项检索是非常有效的。若在检索词列表中没有所需的检索词,可在检索词列表下的二次检索框内输入检索词,进行二次限制检索,以进一步提高搜索的专指性,这是一般的搜索引擎所无法比拟的。
现将两种专业搜索引擎高级检索方面进行对比:
3.1. Scirus通过高级检索,用户可以限定检索内容,达到更高的查准率。具体方法主要有以下几种:
3.1.1. 将查询结果限定在某一时间段内,Scirus提供的搜索范围从1920年起到现在;
3.1.2. 就信息类型 (information type)查询。如科学会议、摘要、科学家主页及专利等八种类型;
3.1.3. 就html或者PDF等文件格式(file format)查询。正如Scirus网页中所说的,大量的学术论文仅公布PDF格式文件,因而,PDF格式的文件的标引、检索对于一个专业的科学搜索引擎来说是至关重要的;
3.1.4. 就内容来源(content sources)查询。用户既可以从期刊中,如Beilstein on ChemWeb、ScienceDirect中查询,也可以从NASA、US Patent Office的Web网页中查询所需信息;
3.1.5. 在一定主题范围(subject areas)内查询。包括:天文学、数学、物理、经济、法律等20个专业学科,学科的排列是按照字母顺序展开的;
3.1.6. 除了以上几种检索限定外,在高级检索中还可以结合上文所提到的字段限制(如题名、作者等)来进行查询。
3.2. Google Scholar的高级检索界面显示的功能较为简单,具体表现为以下几种:
3.2.1. 按照作者查询。这是一个非常有效地获得专家文献的方法;
3.2.2. 按照出版物名称查询。如果想对特定出版物查询相关主题,这是一个好方法;但是由于许多出版物有多种拼法,所以用户可能需要多试几次才能找到。如Journal of Biological Chemistry经常会被缩写为J Biol Chem;
3.2.3. 按照出版日期范围查询。此方法特别适用于查询最新的学术文献,如只查询2005年的文献等等;
3.2.4. 搜索词限于文章标题或者全文的查询;
3.2.5. 可选择页面显示搜索结果数量,每个页面显示结果最高可达100个。