垂直搜索引擎的总体框架设计

📁 软文 #搜索引擎

垂直搜索引擎的总体框架设计

垂直搜索引擎与主流搜索引擎如、百度这些搜索引擎比起来,在用户定位、搜索主题、用户、主题深度等方面是不同的。虽然垂直搜索引擎的技术原理与通用搜索引擎是相似的,但是比如以就业类垂直搜索网站为例,仅仅依靠类似百度这种爬虫抓取网页来构建了垂直搜索引擎的做法,是根本不可能的,这种细节区别,导致垂直搜索引擎和通用搜索引擎的技术细节处理是不完全相似的,可能因为一些小区别,严重影响用户体验,另一方面,垂直搜索引擎更倾向于人工干预和处理,比如搜集高质量主题网页。

以搜房类垂直搜索引擎为例,与通用搜索相比,当用户输入一个关键字,比如北京,此时北京就被放到了一个行业的上下文中,搜索弓」擎返回的信息就倾向于北京的房价,北京各小区的房价信息、文章、新闻等等,而通用搜索引擎这种就倾向于返回北京这个城市的介绍,北京的旅游景点,北京的著名建筑等等。所以,垂直搜索引擎一般会有以下几个特点:

(1)垂直搜索引擎网络爬虫抓取的数据源应该来自与此站点主题内容相似的行业网站,比如博客类搜索引擎的数据肯定来源于众多博客,百度空间还有许多订阅博客的数据。

(2)垂直搜索引擎的分类更精确细致、主题数据更全面,数据更新相对更实时。

(3)垂直搜索引擎是基于结构化数据和元数据的结构化搜索行为。

一个完整的垂直搜索引擎应该包括网络爬虫,分词器,索引器,检索器以及网页抽取等等各部分组成。

网络爬虫模块:这个模块其实更应该叫做信息抓取模块,它通过网络爬虫下载URL网页内容,并抓取网页上的内容,解析网页内容和网页中的URL,然后放入待抓取URL中,依次读取,直到URL为空为止。

检索模块:就是按照一定的方法将用户的查询关键词从数据里检索出来,一句话,去噪。

信息抽取模块:其实这个是垂直搜索引擎的关键技术之一,比如怎么将网页内容知储到数据

库中,怎么获取网页中的URL等等。

中文分词模块:词是中文语言的最小单位,所以需要先将句子划分为各小单位,之后才能继续下一步操作。

索引模块:索引在日常生活中随处可见,比如在字典中查找单词,就是一种索引查找方法,字典的目录相当于索引列表,这能加快用户查询时间。同理,搜索引擎里的索引建立的目的也是为了加快搜索词查找速度。

垂直搜索引擎和通用搜索引擎里的一些模块并没有明显的区别,这种原理都是通用的,垂直搜索里更有代表的几种技术,如分词模块、网页信息抽取、信息索引、排序等。


发稿网(QQ:599515669)是全国领先的在线新闻稿发布平台,团队由资深互联网专家组成,服务内容类涵盖软文发布、软文发布、微信营销、微博营销、视频置顶、百度问答等多种互联网广告行业。发稿网平台有上千媒介编辑、专业写手、段子手、营销专家,为企业、公共机构和个人提供定制化的解决方案,将创意、智慧、技能转化为商业价值和社会价值。发稿网平台凭借多年的网络资源和客户资源积累,发展遥遥领先同行业其他软文平台