试题详情
- 简答题论述全文搜索引擎的工作原理,及有缺点?
-
工作原理是首先由数据采集搜索软件自动浏览Web上的超文本结构,像蜘蛛一样自动沿着任意网页中的链接爬到其他网页,并重复这过程,并把自动收集因特网上千万到几十亿个网页信息存放到搜索引擎的临时数据库。然后索引软件根据所定标准自行或人工筛选信息,这主要通过从网页中抽取能表达网页主题意义的词作为标引词来构建网页标引记录。标引后利用数据库管理系统来组织所采集标引的网页信息,形成索引数据库以备检索。搜索引擎数据库建立后,通过Web服务器端的检索软件,提供浏览器界面的信息查询和利用。用户只需将欲查找的关键词输入查询框中,按“Search”按钮或类似的按钮,搜索引擎就会进行搜索比较库内标引词语,把匹配的搜索结果(网页、网址和网页链接)按照与搜索关键词的相关度高低依次排列,由页面生成系统将搜索结果的链接地址和页面内容摘要等内容组织起来,通过网页呈现出来。用户通过浏览阅读,选择索取所需信息。
由于全文搜索引擎主要依靠Robot自动寻找网络资源并编制索引摘要,减少了人工作业,很大程度上提高了信息收集的速度,并保证了信息的全面性和及时性,增加了查全率。但另一方面,由于收录的资源良荞不齐,使查询结果准确度较低,缺乏清晰的层次性,搜索结果中重复链接较多。 关注下方微信公众号,在线模考后查看
热门试题
- 如果想要查找执业药师资格人员名单,应该到
- 期刊记录的知识新颖、信息密度大,定期出版
- 通过CBM数据库的主题检索途径可以检索到
- 主题词的作用是什么?
- 下列哪些是国家卫计委药物政策与基本药物制
- 下列哪项不属于中国医药数字图书馆的栏目内
- 现行中华人民共和国药典是哪一版,几年一版
- 用“肝?疫苗”能检索到()。
- 百科全书属于文献类型()。
- 简述专利的含义?
- 常用医学搜索引擎有哪些?各自的特色是什么
- 下列哪项是计算机检索中的截词符?()
- 简述题录和文摘型检索工具的联系及区别。
- 下列哪种文献不属于二次文献?()
- 简述IM主题索引的编排规则。
- 简述《中国药学文摘》的编排结构。
- 常用的护理学网站(中文)有哪些?
- 《中国图书馆分类法(第四版)》将知识门类
- 采用借阅模式管理的中文电子图书数据库是哪
- 在CBM的基本检索状态,以下哪个属于错误