搜索引擎的技术架构是什么

  • 日期:2019/8/4 17:00:48
  • 阅读:
搜素引擎如何获取和存储海量的数据?如何快速响应用户的信息需求?如何确保搜索结果的精准性和相关性?这些都是搜索引擎面临的技术挑战。对于任何一个搜索引擎而言,要想提升搜索引擎的质量,还必须先了解搜索引擎的系统架构。

  搜素引擎如何获取和存储海量的数据?如何快速响应用户的信息需求?如何确保搜索结果的精准性和相关性?这些都是搜索引擎面临的技术挑战。对于任何一个搜索引擎而言,要想提升搜索引擎的质量,还必须先了解搜索引擎的系统架构。

  一个搜索引擎主要由搜索器、索引器、检索器和用户接口四部分组成。

  1.搜索器

  搜索器也被称为蜘蛛( Spider)、机器人( Robot)、爬行者( Crawler)、蠕虫(Worm),其实质是一种计算机程序,按照某种策略自动在互联网中搜索和发现网页信息。由于互联网的信息更新速度非常快,所以搜索器必须尽快、尽可能多地搜集各种类型的最新信息,并且定期更新已经搜集过的旧信息,避免出现死链接和无效链接。就目前而言,通常有以下两种搜集信息的策略。

  (1)以URL集合开始

  搜索器顺从一个以URL集合开始,顺着这些URL中的链接,以宽度优先、深度优先或启发方式等循环地在互联网中发现新的信息。URL集合既可以是任意的URL,也可以是一些比较流行、多链接的站点。

  (2)按照域名划分

  搜索器将Web按照空间域名、P地址、国家域名进行划分,每一个搜索器负责一个子空间的信息搜索。搜索器搜集的信息类型多元化,包括HTML、FTP文件、字处理文档以及多媒体信息等。搜索器通常可采取分布式或者并行计算技术,以提升信息发现和更新的速度。

  2.索引器

  索引器将生成从关键词到URL的关系索引表。索引表一般使用某种形式的倒排表,即由索引项查找相应的URL。索引器的好坏直接影响搜索引擎的质量。

  3.检索器

  检索器的主要功能是根据用户输入的关键词在索引器中形成的倒排表中进行查询,同时完成页面与查询之间的相关度评价,并且对将要输出的结果进行排序,以提供给用户相关的反馈机制。

  4.用户接口

  用户接口是搜索引擎系统与用户之间形成信息交互的媒介,其主要功能是输入用户查询请求、显示查询结果、提供给用户相关性的反馈机制。搜索引擎不但需要具备对数以百亿的海量网页进行获取、存储、处理的能力,同时还要保证搜索结果的质量。一个优秀的搜索引擎的技术架构比较复杂,用以支撑对海量数据的获取、存储以及对用户查询快速而精准的响应。


温馨提示:本文为本站原创(翻译),转载分享请注明
本文链接: