SEO优化 搜索引擎排名原理

作为从业人员,搜索引擎优化是SEO基础的工作,要了解搜索引擎优化,首先了解搜索引擎的基本工作原理。搜索引擎排名大致上可以分为四个步骤。

爬行和抓取

搜索引擎派出一个能够在网上发现新网页并抓取文件的程序,这个程序通常被称为蜘蛛或机器人。搜索引擎蜘蛛从数据库中已知的网页开始出发,就像正常用户的浏览器一样访问这些网页并抓取文件。

并且搜索引擎蜘蛛会跟踪网页上的链接,访问更多网页,这个过程就叫爬行。当通过链接发现有新的网址时,蜘蛛将把新网址记录入数据库等待抓取。跟踪网页链接是搜索引擎蜘蛛发现新网址的最基本方法,所以反向链接成为搜索引擎优化的最基本因素之一。没有反向链接,搜索引擎连页面都发现不了,就更谈不上排名了。

搜索引擎蜘蛛抓取的页面文件与用户浏览器得到的完全一样,抓取的文件存入数据库。

索引

搜索引擎索引程序把蜘蛛抓取的网页文件分解、分析,并以巨大表格的形式存入数据库,这个过程就是索引。在索引数据库中,网页文字内容,关键词出现的位置、字体、颜色、加粗、斜体等相关信息都有相应记录。

搜索引擎索引数据库存储巨量数据,主流搜索引擎通常都存有几十亿级别的网页。

搜索词处理

用户在搜索引擎界面输入关键词,单击“搜索”按钮后,搜索引擎程序即对输入的搜索词进行处理,如中文特有的分词处理,对关键词词序的分别,去除停止词,判断是否需要启动整合搜索,判断是否有拼写错误或错别字等情况。搜索词的处理必须十分快速。

排序

对搜索词进行处理后,搜索引擎排序程序开始工作,从索引数据库中找出所有包含搜索词的网页,并且根据排名计算法计算出哪些网页应该排在前面,然后按一定格式返回“搜索”页面。

排序过程虽然在一两秒之内就完成返回用户所要的搜索结果,实际上这是一个非常复杂的过程。排名算法需要实时从索引数据库中找出所有相关页面,实时计算相关性,加入过滤算法,其复杂程度是外人无法想象的。搜索引擎是当今规模最大、最复杂的计算系统之一。

但是即使最好的搜素引擎在鉴别网页上也还无法与人相比,这就是为什么网站需要搜索引擎优化。没有SEO的帮助,搜索引擎常常并不能正确返回最相关、最权威、最有用的信息。以上精彩的文章由 足球赛前分析www.qcbifen.com/zqzxsq/进行实时分享!

外贸必备 海外推广5大搜索引擎 4大社交平台 17个工具

国内互联网红海一片,竞争激烈。近两年,不管是游戏App、电商还是传统制造业,企业纷纷探索和开辟海外市场。今天小贱为亲们整理了海外推广常用的搜索引擎、社交平台以及工具,希望能助大家一臂之力。

1

搜索篇

Google谷歌

作为全球搜索业务领先的Google谷歌,覆盖全球超过80%的互联网用户。Google AdWords覆盖200多个国家和地区,支持40多种语言;包含Search Ads、Display Network、Gmail Ads、YouTube、Admob等广告类型。是企业海外推广重点考虑的平台。

■YAHOO!雅虎

Yahoo是全球最早一批的互联网网站,业务遍及全球25个国家和地区,Yahoo原生广告(Native Ads)是将广告植入Yahoo新闻资讯中,让用户以为是新闻内容,而非广告的一种广告形式,这种广告的点击率高,广告体验好,用户感兴趣才会点击,因此转化效果也好。

■Bing必应

微软开发的搜索引擎,作为全球领先的搜索引擎之一,Bing必应也是北美地区数一数二的搜索引擎

■Yandex

Yandex是俄罗斯网络拥有用户最多的网站,也是欧洲第二大流行搜索引擎。目前,Yandex提供的服务包括搜索、最新新闻、地图和百科、电子信箱、电子商务、互联网广告及其他服务。企业出海方向是在俄罗斯跟东欧的,建议使用哦。

NAVER

NAVER是韩国著名门户/搜索引擎网站,使用独有的搜索引擎,在韩文搜索服务中独占鳌头。除了搜索之外也提供许多其他服务,例如韩文新闻,电子信箱等。提供服务有NAVER,JP.NAVER,happybean。做韩国市场的亲,这个平台可以了解一下。

2

社交篇

■Facebook

Facebook人人皆知,是世界排名领先的照片分享站点。企业推广可以开通一个专页页面,标题跟定位选择好,利用权重高、收录快去做排名,流量也是非常可观的,另外Facebook也可以做付费广告。

■Twitter

Twitter(俗称“推特”)是一家美国社交网络及微博客服务的网站,是全球互联网上访问量最大的十个网站之一。企业可以创建页面发布信息,吸引用户注意和互动。

■LinkedIn

LinkedIn(领英),全球领先的职业社交平台。它也可以创建企业页面,除了发布企业的招聘信息以外,也可以发布企业自家的产品,所以利用好功能效果也是非常强大的。

■Vkontakte

VK(原VKontakte)是俄罗斯最大的社交网站,发展至今已经不仅仅是大学生和高校毕业生的联系网,它已经成长为仅次于搜索引擎Yandex的俄罗斯第二大网站。做俄罗斯市场的企业不妨重点看看。

3

工具篇

信息咨询类

1.Craigslist.com

全球最大的分类信息网站,看看对方是如何描述此产品的。

2.cn.greatexportimport.com

是全球领先的贸易情报数据库,提供最及时、完整、真实的贸易情报。

3.Whois.domaintools.com

查询网站的信息,包括网站的注册时间,寻找额外的价值信息,及时保存信息。

4.archive.org

用网址查客户网站的历史版本。

5.compete.com

可以查询网站的流量和客户的额外信息。

6.quantcast.com

询盘北美客户的网站流量, 哪些关键词为你客户的网站带去流量。

7.liteflick.com

可以看网站流量,当然很多朋友习惯用Aleax。

8.triplify.com

关键词积累。

■图片处理类

9.picclick.com

可以通过关键词搜索,把和这个关键词有关的图片都集中到一起。可以学习eBay客户是如何描述产品的。

10.Gazopa.com

可以找到很多相似的图片。

11.finetuna.com

适合OEM订单、与客户交流、快速的修改图片。

12.Google Photos

由Google开发的一个优秀的图片处理软件管理图片的软件。

13.SNAGIT8/9

截图软件,可做特效。

■素材收集类

14.nicetranslator.com

可以快速翻译多种语言的及时聊天信息的网站。

15.SKYPE+POWER GRAMO

可进行电话录音。

16.radiobeta.com

广播素材。

17.mindpin.com

思维导图编辑器。

企业进行海外推广,机会与风险并存,掌握信息越全面,越能降低风险。

SEO让搜索引擎爱上网站的几种方法

怎么样可以留住搜索引擎,让搜索引擎可以长时间的在网站上爬行抓取。今天速鸟云品就分享一下让搜索引擎爱上你网站的六种方法:

1、简洁的代码:网站代码是搜索引擎爬行的第一步,不要让代码中出现了很多搜索引擎不懂或不能很好识别的代码。就像我们人走路一样,当这条路上坑坑洼洼时,我们走过一次就不想去走第二次了。所以,代码的简洁有利于搜索引擎爬行,同时也可以让搜索引擎长时间停留在网站上。

2、合理的内链:网站内部链接决定了网站收录量,而内链也是提高内容用户体验的要素之一。对于搜索引擎来说,合理的内链可以有效地减少爬行索引的时间。换句话说,当自己工作的时候,发现了一个很快捷的方式,可以节省很多时间并能及时的完成工作任务,这个时候我们就会选择快捷的方式来做。所以,网站内链作用还是很大的。

3、网站的更新频率:很多时候,很多站长的网站每天收录量都不相同或不收录,是因为没有规律的更新所发生的。当搜索引擎第一次来你的网站时,发现有更新自然会被收录,第二次来没更新,而第三次来又没更新,第四次来更新了,第五次又没更新。这种没有规律的更新频率很容易让搜索引擎对这个网站失去兴趣,自然搜索引擎就不会呆在这个网站上了。

4、文字导航:大家都知道,搜索引擎对于没有加alt标签的图片和flash都无法识别。所以让搜索引擎对你的网站有足够的兴趣。就必须优化你的图片。而且清晰的导航对用户体验也有一定的作用。

5、内容的质量:所有站长都知道搜索引擎喜欢原创内容,但原创的就一定是最好的吗?在速鸟云品看来那并不一定。原创文章加上对用户有价值的内容。这才是搜索引擎最喜欢的。那我们如何去分辩呢?首先搜索引擎是一段程序,自然辨析就靠网站的PV值了。其次搜索引擎从字数上也可以作为一个判断标准。末了就是段落格式。这样一来,搜索引擎就十拿九稳的分析出内容的优质程度了。

6、网站的外链质量:网站的外链,表面上对搜索引擎的爬行没有影响,但深一点就会发现不一样。因为当自己做的外链具备了高质量时,自然就说明外链发布的地方权重高,那么经过这些地方来的搜索引擎自然也会忠诚一点的。所以外链的质量也是有一定影响的。

7、结构要合理:许多朋友往往只注重网站外部优化,很多人认为使命的发布外链就可以了。却很少注重网站内部结构的优化,也就是内部优化。网站目录最好不要超过3层,即最多点击3次后可以达到网站任何页面是一个最好的结构。有时候根据需求需要更多的目录条理,好比一般网上商城B2B平台的网站目录就会比较深,但是都要做到最少的点击次数就可以达到网站的任何一个页面。这是提高用户体验的最主要的一点。

永诺网络是一家专业为中小企业提供网络优化推广及营销服务的网络团队。提供营销型响应式网站建设(三站合一)、网站SEO快速排名(不到首页就退款)、网站优化外包、网站建设等企业服务。 欢迎拨打电话:15210008904(微信/QQ278477169)咨询营销推广相关业务。

SEO网络优化搜索引擎的3个目标

搜索引擎的3个目标

搜索引擎可以说是目前所有互联网应用里技术含量最高的一种,尽管其应用形式非常简单:用户输入查询词,搜索引擎返回搜索结果。但是要为以亿计数的互联网用户提供准确快速的搜索结果,里面包含了很多技术手段。总的来说,搜索引擎技术所希望达到的目标可以归纳为:更全、更快、更准,如图1-1所示。

图1-1 搜索引擎3个目标

所谓“更全”,是从其索引的网页数量而言的,目前任意一个商业搜索引擎索引网页的覆盖范围都只占了互联网页面的一部分,可以通过提高网络爬虫相关技术来达到此目标。

“更快”这个目标则贯穿于搜索引擎的大多数技术方向,比如索引相关技术、缓存等技术的提出都是直接为了达到此目的。而其他很多技术也间接为此服务,即使是分布式海量云存储平台,也是为了能够处理海量的网页数据,以达到对“更全”和“更快”这两个目标的响应和支持。

在这3个目标中,如何使得搜索结果“更准”是最为关键的目标。无论是排序技术也好,还是链接分析技术也好,抑或是用户研究等技术,最终都是为了使搜索结果更加准确,以此增强用户体验。对于一个搜索引擎来说,达到“更全”与“更快”可以使其不落后于同类产品,但是如果能够做到“更准”,则能够构建核心竞争能力。

搜索引擎的3个核心问题

如上所述,搜索引擎如何能够搜得更准是其最重要的目标,那么如何才能使得搜索结果更准确?这里面涉及了3个核心问题。

3个核心问题

1 用户真正的需求是什么

搜索引擎用户输入的查询请求非常简短,查询的平均长度是2.7个单词。如何从如此短的查询请求里获知隐藏其后的真实用户需求?这是搜索引擎首先需要解决的非常重要的问题。如果不能获取用户真正的搜索意图,搜索的准确性无从谈起,即使后续内容匹配算法再精巧也无济于事。

从另外一个角度看,即使是同一个查询词,不同用户的搜索目的是不同的,如何识别这种差异?如果更进一步,即使是同一个用户发出的同一个查询词,也可能因为用户所处场景不同,其目的存在差异,又如何识别?所有这些都是搜索引擎需要解决的核心问题,即用户在此时此地发出某个查询,他的真实搜索意图到底是什么。

2 哪些信息是和用户需求真正相关的

上述第一个核心问题是从用户需求角度出发的,另外两个核心问题则是从数据角度考虑的。搜索引擎本质上是一个匹配过程,即从海量数据里面找到能够匹配用户需求的内容。所以,在明确用户真实意图这个前提条件做到后,如何找到能够满足用户需求的信息则成为关键因素。

判断内容和用户查询关键词的相关性,一直是信息检索领域的核心研究课题,不断提出的信息检索模型即在试图解决这个问题。相关研究历时近60年,尽管不断有新方法提出,检索效果总体而言也在逐步改进,但是这个领域的基本指导思想还是基于关键词的匹配,包括现在所有搜索引擎的相关性计算部分,其基本计算思路和几十年前相比并无本质差异。

如何能够在这个核心问题上有所突破?这个问题将会越来越重要,而从关键词匹配到让机器真正理解信息所代表的含义是解决这个问题必须迈过的门槛。从目前来看,尽管包括人工智能在内的很多相关研究领域对此有所进展,但是短期内还未能看到解决这一问题的清晰技术思路。

3 哪些信息是用户可以信赖的

搜索本质上是找到能够满足用户需求的信息,尽管相关性是衡量信息是否满足用户需求的一个重要方面,但并非全部。信息是否值得信赖是另外一个重要的衡量标准。

搜索引擎需要处理的信息对象是互联网上任意用户发布的内容,但是内容发布者所发布内容是否可信并无明确判断标准。这其间存在恶意的信息发布者故意歪曲事实的情况,也有信息发布者无心的错误。在同一个查询的搜索结果内,完全可能存在相互矛盾的搜索答案,此时信息的可信性即成为突出问题。

比如用户想到某一餐馆就餐,在做出消费决定前,在网上搜索曾在此餐馆就餐的用户的过往评论,以此辅助决策。而搜索到的相关内容,完全有可能是餐馆故意发布的一些好评信息,以此误导消费者。但是如果信息发布者是该用户的朋友,那么信息的可信性就会大大增加。

从某种角度看,链接分析之所以能够改善搜索结果,可以认为是对信息的可信赖度做出的评判。即将网页的重要性作为是否可信赖的一个判断标准,返回重要网页即是返回可信赖网页。

揭秘 SEO搜索引擎优化做好以下6点足矣

第一点:关键词分析

关键词对于一个网站至关重要,SEO首要任务就是关键词分析,通过对比竞争对手的关键词优化分析能够最大限度部署好你要优化网站的关键词策略

第二点:网站架构分析

用户体验可以说是一个网站是否可持续发展至关重要的作用,点击即关闭网站流量再大也是白搭,利于用户体验的网站布局和利于搜索引擎的网站架构优化从来就是一致性。

第三点:首页和内容页优化

网站优化重点是首页+内容页,说白了就是整站优化,这样做的目的就是让你的网站不仅是外表强悍,内部构造更是无敌的存在。

第四点:优质文章加关键词部署

高质量原创文章的更新代表着网站上流动的新鲜血液,而关键词的成功部署就是分布在血液中的白细胞和血小板,杀死细菌的同时也能起到内部联动浑然一体。

第五点:对话搜索引擎

知己知彼百战不殆,优化网站的同时你要持续关注你网站的排名优化进展,站在搜索引擎的角度分析需要改进的地方和做的不错应该加大力度继续做的地方。

第六点:统计工具的运用

SEOer最不能离开的工具就是统计工具,大数据时代我们站长更应该善加使用统计工具,提炼出有用的数据是我们每一个站长应尽的使命,此数据就是我们接下来优化的重要参照点。

PS:纯手工码字,尊重劳动成功,转载注明出处>>

zoomeye的简单使用(很恐怖的搜索引擎)

Zoomeye:知道创宇的一个搜索引擎

ZoomEye 支持公网设备指纹检索和 Web 指纹检索

网站指纹包括应用名、版本、前端框架、后端框架、服务端语言、服务器操作系统、网站容器、内容管理系统和数据库等。设备指纹包括应用名、版本、开放端口、操作系统、服务名、地理位置等

我们可以利用某一个指纹特点挖掘网络空间中具有同种类型的网站或者是设备

如我们要寻找关于php的网站我们可以直接输入php

我们可以看到在右边还会有webapp,这里会列出php脚本写的一些web应用,我们搜索php,同时可以通过点击左边的webapp里面的项来进行搜索,比如搜索phpmyadmin的程序点击,就可以看到

点开一个可以看到:

我们也可以在左边搜索设备:比如批量摄像头比如海康威视的http-banerDVRDVS-Webs直接搜索就可以找出海康威视的摄像头web管理界面

如果结合弱口令的话很可能进去。恐怖,隐私泄露同时zoomeye也支持一些语法,可以让我们更精确的探索网络空间常见的有:App组件名 ver版本port端口os操作系统还可以有类似googl的语法形式,如搜索某网站的子域名可以:site:xx.com更多语法可以去看zoomeye用户手册Zoomeye也有自己的api,我们可以调用api来达到自动化的挖漏洞。下边在来几个实例:php appedeCMS ver:5.7.48 比如某天某个版本的cms出现了漏洞,你需要去刷一波,这时候你用这个命令就可以找出来这个版本的cms的网站如图

同理其他的cms也是一样的方法其他的搜索的话,自己构造好搜索的语法即可,总之一句话灰常强大,刷洞的时候很是需要啊!

——我就是我 是颜色不一样的花火

你会喜欢

亲喜欢吗?记得点赞| 留言| 分享

长按公众号,可“ 置顶

———————————-

要闻,干货,原创,专业

关注“黑白之道”微信:i77169

华夏黑客同盟我们坚持,自由,免费,共享!

搜索引擎这条路 还能走多久

近日,今日头条开始在开屏广告推广“头条全网搜索”。此前,在1月初,今日头条APP就上线了站外搜索功能,使用该功能,除了会出现头条号、头条文章等内容外,还会出现其他网站上的内容。

有消息称前360搜索产品负责人吴凯已经加入字节跳动,针对今日头条母公司字节跳动正在加速进入搜索领域的报道,字节跳动方面回应称:“产品还处于测试阶段,欢迎给我们提意见和建议。”

今日头条加速“搜索”业务,进一步验证了字节跳动在盈利方面的焦虑。据字节跳动在最新一轮融资中对投资者称,预计2018年公司营收为人民币500亿-550亿元,但最终只达到目标区间下限。此消息一出,业界纷纷质疑字节跳动公司的增长放缓,这也是该公司多年来营收首次没有超过预期。

2018年,今日头条将整体品牌变更为“字节跳动”,自品牌升级以来,字节跳动一直在商业化道路上狂飙。先是通过以智能算法打入内容资讯市场,将其旗下产品打造成以AI技术驱动的内容和流量分发平台,颠覆了传统媒体和门户网站人工编辑机制,做推荐引擎对标百度,一度让百度紧张,在2018年两家多次引发口水战。

信息流与搜索两种业务分别代表着被动和主动帮助用户获取信息,今日头条无疑是信息流广告的霸主,但随着流量触顶,日活增速放缓,产品同质化严重,俨然通过打造新的流量入口,并不能增加变现。对于今日头条来说,上线搜索业务是营收放缓、保估值下的必然之举。

搜索市场乃兵家必争之地

根据StatCounter统计的数据,截止到2018年年底,国内搜索市场,百度拿下的市场份额超过7成,在剩下的百分之三十的市场份被搜狗、神马、360等搜索引擎所瓜分。无论是PC端还是移动端搜索引擎,百度都是一家独大。近几年来,PC端流量逐渐向移动端流量转移,尤其在移动端,百度拥有接近8成的市场占有率,牢牢锁定了头部流量入口,但这并不阻挡其他竞争对手向百度发起挑战。

PC端搜索市场已基本被百度、360、搜狗三分天下,但移动端搜索市场远非铁板一块。

“边骂边用“的百度:百度曾因竞价排名导致广告泛滥一度被人诟病,现在搜索结果基本有一半以上指向百度自家产品,尤其是指向搬运、抄袭和洗稿的“百家号”更是引起众怒。百度搜索市场份额虽然拔得头筹,但是口碑却日益萎缩。

“不知神马”的神马搜索:很多人不知道”神马搜索“,但由于UC浏览器默认搜索引擎是“神马搜索”,很多用户也懒得修改默认设置,于是借助UC浏览器庞大的用户群,神马搜索在移动搜索市场轻松获得了第二位的市场份额。

“掉队”的360:360搜索虽然在PC端有26%左右的市场份额,但移动端的表现不佳,搜索份额比较低,远不如百度、搜狗、神马,移动端是360的短板,在移动端已经掉队。

依赖腾讯的搜狗:搜狗搜索自然流量在总流量中的占比为26%,来自腾讯渠道贡献了大约37%的流量,剩余37%则来自于OEM手机厂商渠道。随着“腾讯与搜狗的合作条款于2019年2月到期”的消息传出,搜狗搜索业务“蹭”腾讯流量的日子或许就要结束。

移动搜索市场尚不稳定,传统搜索引擎巨头纷纷将移动搜索作为主要战略发力点,拥有巨大流量的平台也开始抢滩搜索市场。比如社交流量巨头腾讯也一直未放弃过对搜索业务的探索。超10亿用户流量的微信两年前就成立了搜索应用部,2018年微信公众平台宣布开放品牌搜索功能,开通品牌搜索的商家将获得品牌官方区和微主页的能力。

日活用户超过8千万的今日头条在2018年因遭遇了多次下架和停更、整顿,使得头条系用户数和用户使用时长下滑。对于用于月活用户增速放缓且高估值难保的今日头条来说,相比较信息流广告搜索引擎能够带来的商业化价值更高。

搜索引擎是很多人获取未知信息的重要渠道,随着微信社交流量、头条资讯流量的崛起,布局搜索引擎业务,争夺移动互联网用户新的搜索入口,是业务发展的必经过程。而未来,移动端搜索会在新平台的加入下,或将迎来新的市场格局。

左手信息流,右手搜索,或成内容渠道标配

近年来,受今日头条信息流的影响,百度搜索推出百家号,搜狗搜索推出搜狗号,360搜索上线图刻,纷纷发力内容生态建设,试图利用搜索流量抢占信息流流量。尤其百度2018年低调对外表述从“全球最大的搜索引擎平台”转型改为“国内最大的新闻资讯平台”。从平台性质来看,百度和头条也越来越趋近。

搜索是所有互联网产品中标配的功能,但大多提供站内搜索服务。随着百度等搜索引擎越来越多的流量指向自己的服务,对用户来说,越来越像站内搜索工具,但这并能抹去搜索引擎的价值。平台为用户提供搜索免费的工具,其目的是都是导向服务,实现商业价值。随着内容获取渠道、方式的变化,推荐算法等技术的演进,搜索引擎与信息流在内容分发上形成互补。搜索为用户找到所需,满足用户刚需,信息流为用户打发时间,提升用户留存时长和沉浸深度。

在一个资讯超载的时代,搜索引擎作为连接人和优质内容的便捷窗口和重要工具,其作用其实越来越重要。尤其天下苦百度已久。相比信息流被动获取信息的方式,大众更希望拥有一款靠谱好用的主动获取信息的工具,所以在百度深陷舆论泥潭之时,这不仅给了其他搜索引擎发展空间,也为今日头条布局搜索引擎业务提供了积极信号。

对于内容生态建设完善的今日头条来说,布局搜索引擎,不光是实现多元化盈利。随着移动流量触顶,增加搜索流量可以提高自身的护城河,实现搜索引擎流量与内容生态“共赢”。

今日头条2018年上线了少儿英语、游戏、金融、电商等多种服务,从其各种动作来看出今日头条在商业化方面的急迫性。用户时间是有限的,新增流量减少,通过流量换流量的形式不再带给今日头条更多营收,只能将流量导流给可以快速变现的产品,而搜索业务不仅可以承接信息流流量向变现服务的转化,还能带来直接的广告收益。

以谷歌为例,其2018年Q4季度财报显示,谷歌自己网站(谷歌搜索引擎、其他谷歌产品、YouTube)所产生的营收达270.22亿美元,搜索引擎每年都为谷歌贡献了不菲的收入。

今日头条作为一个数据挖掘的推荐引擎产品布局站外搜索功能并不稀奇,搜索在内容触及用户中依旧具有不可替代的作用,可以帮助内容和服务提供者便捷、高效地连接全网用户。今日头条可以充分利用自身内容优势,获取流量、沉淀用户,实现自身价值的快速增长。左手信息流,右手搜索或成为更多内容资讯类平台标配。

无论是搜索还是信息流,价值在于内容

链接外链并不能成为评判一个搜索引擎好坏的标志。对于用户来讲,搜索引擎一定要信息全面、靠谱、好用。在《搜索引擎百度已死》这篇文章中也指出百度搜索已经变成了百度自家的后花园,因为网友们通过百度搜索确实很难找到自己想要的信息。

所以对于今日头条布局搜索业务来说,能否做好搜索引擎,还取决于搜索结果是否让用户满意。如果用户信息积累不够,搜索信息不够全面,用户在尝试使用后就会放弃,因为检索的最终目的就是为了获取信息,如果信息本身不够全面,也就无从谈使用了。

搜索引擎本身是有一定门槛的。以苹果为例,虽然苹果手机在全球有庞大的用户基数,旗下Safari浏览器在2017年安装量就超过12亿,但苹果并没有推出自己的搜索引擎,而是默认使用了谷歌搜索。究其原因是搜索引擎本身的技术含量比较高,并不是想做搜索引擎就能够做到的。如果苹果不能做出一款非常成熟的搜索引擎产品,就很容易伤害到数亿用户的使用体验。

而对于拥有累计用户超8亿用户的今日头条来说,虽然布局搜索业务可以增加营收,提高壁垒,但如果搜索内容不尽人意就会影响用户体验。近年来,海量用户和流量主导的平台思维更助长了内容平台的抄袭剽窃之风,迫使优质资源边缘化,引发众怒。

无论是在信息流领域无人撼动的今日头条,还是在搜索领域无人撼动的百度,都面临着内容参差不齐、虚假广告的通病。不管是人找信息的搜索模式还是信息找人的信息流模式,单一模式总是没办法满足所有用户的需求。“搜索+信息流”模式虽然满足了两个用户群体的不同习惯,不仅提高分发效率,让内容更高效触达用户,但是最终的价值在于内容质量。

据数据显示,中国移动互联网整体用户规模增幅正在继续放缓,红利已经基本趋于饱和。行业竞争依然加剧,流量瓶颈困扰着几乎所有头部。可以抢夺的移动用户增量已所剩无几,而对于互联网平台来说,能做的就是要留住用户、增加用户粘性。

无论是百度“搜索+内容、服务”的发展路径,还是今日头条“内容、服务+搜索”的发展路径,都是希望找到精准用户,两者殊途同归。信息与人的连接形态虽然在变,但是本质没有变,都是要做好内容。

百度搜索采用竞价广告的商业模式难以保障内容质量,虚假广告、舆论危机导致百度搜索信用度下降。今日头条因发内容低俗、涉嫌色情和标题党问题,遭遇强监管。对于百度和今日头条来说,内容建设是提高用户粘性的前提。

凡是能用钱买来的流量都是短期流量,不是生态流量。对于像百度或者头条两个殊途同归的内容资讯平台来说,发展要依靠生态流量,建立一个从内容生产、内容审核,到内容分发、用户互动健康的闭环。

作者:翟菜花

来源:卢松松博客,欢迎分享,(QQ/微信:13340454)

机票垂直搜索引擎之性能优化

行业背景与垂直搜索

从2011年到2016年,无论国内,还是国际,整体趋势都是机票价格便宜了,坐飞机的人也越来越多。特别是国际机票,这五年里机票价格下降了30%,客运量增长了140%。

乘客越来越多,购买机票的渠道有哪些呢?现在主要有三个:网络平台、代售点和航司官网。像携程、去哪儿、飞猪、同程等,都是主流的网络购票平台;像旅行社这类代售点,是旅行团的主要购票渠道;同时大部分航空公司的官网也可以购票,而且价格相对较低。总体来说,网络平台是最大的销售渠道,占比为76%。

为什么网络平台占有这么大的份额呢?主要原因是机票垂直搜索引擎是主要的用户流量入口,用户一般是先比价,然后去预订,一个好的机票搜索引擎查询的产品丰富、价格便宜,而且响应速度快,运价也准,这些特性在技术方面实现好并不容易。

主要问题与解决方案

机票查询要快、准、低。快是指查询快,能够提供一个良好的用户体验;准是指运价准,可以保证出票的成功率;低是指票价低,能够吸引更多的用户。如果票价要有优势,就要有大量产品,产品数据多了查询就慢;如果查询要快,就必须要有缓存;数据缓存了,运价就可能不准。这三者是矛盾的,类似于CAP原则,具体示意图如下。

对于以上问题,怎么解决呢?通用的三个技术方案有:用DB+Redis平衡响应速度、数据实时性和查询成本;用削峰填谷的MQ来处理高并发;将业务服务化、模块解耦。这些只是通用的技术点,并没有什么难度,我们这里重点介绍与最终结果密切相关的四个模块:静态数据、缓存策略、实时查询和政策匹配。

(1)静态数据:能静态处理的数据尽量静态化,存储到本地,可以是数据库或缓存,以方便快速地查询,如航班信息、运价数据和政策数据等。

(2)缓存策略:从中航信拿到运价数据之后,进行热冷门数据分类,数据永不过期但持续更新,自主控制数据的更新频率。

(3)实时查询:多渠道多供应实时获取远端数据,多数据源查询速度会变慢,远端服务不可控。解决方案是三段超时,即前端用户超时、中端运营超时和后端供应超时。

(4)政策匹配:大量的产品数据和大量的业务规则不可能都提供给用户,需要通过一定的算法进行匹配过滤、排序等。

静态技术与任务打底

机票查询的静态数据主要有城市、机型、航司、运价数据等,这里重点介绍较为复杂的运价数据。运价数据的获取虽然间隔时间较长,但数据量大且更新频次不同。运价数据是由中航信统一提供的,有两种途径:黑屏查询和IBE接口,将获取的数据保存到数据库和缓存中,用户查询的时候直接从缓存中获取,同时会按照一定的缓存策略来更新。

最初我们设计了两套方案来打底运价数据,两个方案各有优劣。方案1是先预加载所有的运价数据,然后全部保存到数据库和缓存中,在航班查询时通过缓存策略进行相应地更新;方案2是把运价数据根据航线查询频率分为热门和冷门数据,然后每天凌晨对热门数据预加载,并在航班查询的时候对冷门数据进行更新。可以看出,方案1能保证数据的完整性和实时性,但预加载用时太长;方案2能控制预加载用时,但热门数据的实时性会从早到晚逐渐降低。两个方案中都需要实时更新,在考虑数据实时性的同时,还要考虑获取数据的费用,平衡好两者才是一个实用的方案。

综合对比之后,我们采用了方案1,具体实现如下图所示。

首先通过Job对运价数据进行初始化,然后以任务消息的方式发送给MQ,MQ里的消息会被后台服务自动消费,执行消息队列里的任务,把运价数据保存到数据库和缓存中。数据预加载之后,用户在前台查询时,如果缓存里面没有数据,或者查到的缓存数据是过期的,那么系统会自动发一条任务消息给MQ,或者人工配置指定的航线定时更新,Job也会自动发送任务消息给MQ,前台和后台的消息被服务消费以实现数据的更新。用户的不断请求和后台指定的任务保证了数据的持续更新,时间越久,数据的准确性越高,用户查询的命中率也会越来越高。

缓存策略与数据一致

上面说到运价数据同时存储在数据库和缓存中,为什么有了缓存还要数据库呢?存储到数据库是为了方便数据的多维查询和管理,包括对缓存的进一步干预。数据库查询的功能强大,但速度慢,缓存的性能好,但从缓存里获取的数据会有不准确的问题。怎么才能做到查询快而且数据准呢?我们的解决方法是缓存永不失效、数据分类、自主控制更新频率,以实现运价数据的又快又准。

根据航线查询的频率,将可以分成热门数据、冷门数据和没有数据,航班多、查询多的是热门数据,航班少、查询少的是冷门数据,查询不到就是没有数据。在预加载或更新运价数据时,将缓存设置为一个较长时间或永不过期,然后在前台访问时,不同数据类型采用不同的更新策略,具体如下图所示。

  • 热门航线查询,在缓存中获取数据,数据中有一个自己的缓存时间字段,然后根据这个时间来分别进行处理。

1小时之内更新的:新鲜度较高,可以直接用;

1-6小时之内更新的:预警n次,第n+1次命中时则异步更新运价;

6小时之外更新的:新鲜度太低,异步更新运价。

  • 冷门航线查询与热门航线一样,只是不预加载且缓存时间稍长。

12个小时之内更新的:新鲜度较高,可以直接用;

12-48个小时之内更新的:预警n次,第n+1次命中时则异步更新运价;

48个小时之外更新的:新鲜度太低,异步更新运价;

缓存没有数据时,直接获取最新运价,同时更新数据库和缓存。

无论预警后更新,还是直接更新,都是先把缓存中的数据返回给用户,同时异步更新数据库和缓存。虽然存在数据查询不准确的概率,但被用户再次查询时就准确了。查询到的数据即便不准确,在后继的航班预订时也会进行二次的验舱验价,运价数据和库存数据会再次更新。用户不断地查询,数据不断地更新,查询命中率就会越来越高,并且用得人越多情况会越好,会逐步趋近于n个9。

实时查询与三段超时

能静态化的数据要尽量静态化,但远端数据的实时查询还是必不可少的。实时查询如何做到又快又好呢?特别是多数据源、多供应商的实时查询场景。我们的国际机票查询就是这样的,前台页面点击查询时实时调用供应商接口,早期我们仅调用一个供应接口,产品比较单一,数据不够丰富。后面引入了多供应商,产品变丰富了,也有了低价、但同时带来了很多新问题,比如供应端接口需要20~30秒,但前端客户只能接受8秒以内,怎么办?提高供应数据门槛?但这不是核心竞争。还有查询速度变慢、外部数据源不可控、数据格式多样等问题。

对于以上问题,我们的解决办法是三段超时,所谓三段,即供应端、运营端和客户端。前端满足客人、中间满足运营控制策略、后端满足供应商,三方都要满意,这样才能使产品更丰富、价格更低、运营策略更灵活、用户响应更及时。三段超时的时间可以根据具体场景进行配置,具体如下图所示。

供应端超时:供应端是后端,是指提供数据源的一方,供应端存在的问题就是外部不可控。供应端处于数据来源的底端,解决办法是尽量加大供应端的超时时间限制。我们对请求供应接口的最大HTTP超时时间设置为45秒,这个值可以满足绝大部分情况。

运营端超时:运营端是中间端,获取供应商的数据之后,做包装转换、去重、政策匹配等业务处理。我们先统计每一个供应接口的请求时间,确认供应接口数据的质量和优先级。比如A供应数据的质量相比B和C供应数据的质量要高,那么A的请求级别可以设置得高一些。我们优先考虑获取A供应的数据,如果A的数据在8秒内就返回,而B和C的超过这个时间,那么此时在前台就只把A的数据返回给客户。对于BC的数据,由于在HTTP请求时我们采用异步并设置了较大的供应端超时,所以它会在A返回之后,继续异步请求并将返回的数据保存到缓存中,以供用户下次或其他用户使用。当我们获取了多供应商的产品数据后,这时会有一定重复的数据,需要进行规范化处理,将不同数据格式转换成统一标准,然后去重并选取最优,最后根据运营策略进行政策匹配等。

客户端超时:客户端是前端,需要处理最终展示和不同终端用户的不同需求。客户端采用多线程异步读取,这样不会影响主线程的速度,同时并发请求,提升响应速度和用户体验。这里的主线程请求时间可以理解为前台终端设备需要等待的时间,比如APP要求8秒内返回,那就设置为8秒;如果PC端B2B白屏网页查询,客户可以等待时间为25秒,那么就设置为25秒。客户端的超时时间要大于或等于所有的运营端超时时间,例如客户端超时是25秒,那么运营端线程A的超时时间最大可以为25秒,如果线程A的绝大部分航线获取时间是18秒,那么线程B和C的超时时间最好不要超过18秒,这里的用户体验要综合考虑概率问题。

政策匹配与算法优化

弄来这么多产品,不可能都提供给客人,需要根据运营规则来进行匹配。机票政策就是机票产品的运营控制策略,如下图所示,包括政策类型、客户类型、航程类型、乘客类型、航司、航班、舱位、城市、日期、返点 、定额、Office号等多种属性。

为什么有这么多属性呢?因为机票产品的运营规则很复杂,而这种规则的复杂性,直接导致在航班查询的时候,机票政策的匹配也很复杂。对于这种大数据、复杂业务规则的数据处理,需要有一套专门的政策匹配算法,具体如下:

第一步是直接从数据库查政策,在前端查询的时候,根据查询的条件,如出发到达城市、日期等,从数据库中大范围地获取政策数据,并把这些数据放到内存中。第二步是在内存中对每个产品进行政策匹配即过滤,先将每一个属性转化为业务规则如限制城市、排除供应商、航司指定供应商等,一个属性一个类,采用统一的接口,然后增加到政策过滤器中。产品与政策的匹配过程就像水流过过滤网一样,把最优政策应用到产品上如调整价格。这个过程有些复杂,为此我们编写了一套自己的政策过滤器PolicyFilter框架。第三步是按照政策返点高低进行排序。第四步是将最优政策返回给前台。以下是部分核心代码的演示:

小结

机票垂直搜索性能优化不仅适合于机票行业,也适合于其他垂直行业,在垂直搜索引擎方面有一定的通用性,只要它存在:远端数据获取、静态数据、缓存更新、规则匹配、多数据源等问题,都是类似的解决方案。垂直搜索主要有四把“刷子”。第一把刷子是静态数据与任务打底。第二把刷子是缓存与更新,保持数据的新鲜度,不仅要快,还要准。第三把刷子是实时查询与三段超时,多供应商多数据源,供应商要20秒,客户只能接受3秒,怎么办?解决办法是三段超时。第四刷子是政策匹配,好不容易弄来这么多产品,不可能都直接显示给客人,需要根据运营规则进行匹配。每一个具体的技术可能并不复杂,但把它们综合起来,解决具体的实际问题,为公司为行业带来价值,并不是一件容易的事。技术的核心价值在于技术的应用,技术价值要借助技术应用和产品才能发挥出来,这比单纯的技术学习要有意思得多,希望以上能应用到你具体的工作中。

本文作者介绍:张辉清,曾任中青易游CTO、同程交通创新技术负责人、古大集团首席架构师、携程架构师等职务。带领过30~200人的技术团队,将其研发能力提高1~2个档次。现阶段主要关注技术创新、技术创业、中小研发团队的能力提升。

# 本文内容节选自《小团队构建大网站 – 中小研发团队架构实践》一书。若对该书该兴趣,可通过点击“阅读原文”,查看购买链接。

———- END ———-

本公众号编辑部维护读者群之架构群,邀请了坐馆老司机曲健、伟山、安晓辉、史海峰嘉宾等参与交流。加群请在公众号回复:架构群。

要想让你的外贸网站平台在搜索引擎中排名靠前 你就必须先学会这些技巧

很多功夫外贸公众号的粉丝经常问猫熊哥,如何让自己的外贸网站平台在搜索引擎的搜索结果页SERP中排在第一页的最前面?

这是个综合性问题,要想解决这个问题,需要多方面下手,但是,首要的问题就是要消除外贸网站关键词中的歧义词的问题。

那么什么是歧义词呢。下面猫熊哥以实例给大家讲解歧义词对网站排名带来的混淆问题,和如何解决这个问题。

比如,国外一个进口商想进口拳击短裤 BOXERS,他在GOOLE 或者 YAHOO中搜索 BOXERS, 这里以YAHOO网站为例:

这个客户在Yahoo搜索框中输入BOXERS并搜索,结果在搜索结果页的第一页的前面竟然是如下的结果,见下图:

客户明明要找 BOXERS拳击短裤,但是搜索到的结果页里却出现狗的图片,这就是猫熊哥要说的关键词歧义词的问题:

原来,英文 BOXER 有拳击手,也有拳师狗的意思(狗的一个种类), 而复数BOXERS,不仅同样有这些意思,同时 BOXERS 也有拳击短裤的意思。

而对于搜索引擎来说,这样的歧义词会给搜索引擎带来很大的难题。同理,对于我们做外贸网站平台关键词SEO优化的人来说,也是一个头痛的问题。

功夫外贸公众号 GFWAIMAO 手机上学习外贸和外贸英语口语

那么,如何让我们的产品关键词消除这些歧义词,从而让搜索拳击短裤的潜在用户鞥搜索到我们的短裤产品网站,而不是拳师狗网站呢?

这就是猫熊哥要教你的如何消除外贸网站平台中歧义词的负面影响,提高你产品网站平台的排名。

首先,我们要开动脑筋,做头脑风暴。你做网站关键词,千万不要只用太宽泛的关键词,象 BOXERS,而是要把重点放在长尾关键词上。

比如,我们要这样想:BOXERS是拳击短裤,那就是在拳击时穿的 何不用BOXING 修饰一下BOXERS,这样就把 BOXERS 限定在拳击上,而不会出现拳师狗了。

我们想到这里,就要去搜索引擎上试着搜索一下,我们把 BOXERS FOR BOXING输入 搜索引擎一搜,结果如下图:

搜索结果显示确实都是拳击短裤的公司,这就是说明,这个长尾词 BOXERS FOR BOXING 是正确的,我们可以把它作为我们外贸平台网站的关键词。

然后,我们再接着头脑风暴,既然BOXERS是拳击短裤,而短裤的通用语是UNDERWEARS,何不用 BOXERS UNDERWEARS 搜索一下,搜索结果如下图:

搜索结果也都是拳击短裤的经营公司的网站,很好,这个长尾关键词也可以作为我们消除歧义的关键词。

接下来,再想,短裤的英语还有 PANT这一词,我们为何不用 BOXERS PANT搜索试试水?

说做就做,在搜索引擎中输入 BOXERS PANTS,结果如下图:

结果证明这个关键词也能消除BOXERS的歧义词问题,能直接搜索出拳击短裤的网站,我们也可以用这个长尾关键词。

我们不能满足于现状,再继续开动脑筋,既然BOXERS拳击短裤是体育项目,那么我们为何不在BOXERS 之前用 SPORTS 修饰语,这样就把拳师狗排出在体育之外了?

再用搜索结果来证明我们的聪明想法,把SPORTS BOXERS 输入搜索引擎搜一下,结果如下:

这样,这个关键词也是BOXERS的消除歧义的长尾关键词,我们也要拿来用。

总结上面所述,我们要在我们的外贸网站关键词中采用,BOXERS, BOXERS FOR BOXING,

BOXER UNDERWEAR, BOXER UNDERWEARS, BOXERS UNDERWEAR, BOXERS UNDERWEARS.

BOXER PANT, BOXERS PANT, BOXER PANTS, BOXERS PANTS,

和 SPORTS BOXERS, BOXER SHORTS, BOXERS SHORTS 等等。

用上面的这些长尾关键词对我们的外贸网站平台进行全面长尾关键词覆盖,这样,我们的网站在搜索引擎的排名中就会靠前。

功夫外贸公众号 GFWAIMAO 手机上学习外贸和外贸英语口语

因为,搜索引擎有“自适应搜索”功能,就是客户首先在搜索引擎中搜索BOXERS 时得到的是拳师狗的结果后,他可能在后面,接着继续搜索比如,PANTS, UNDERWEARS, SPORTS, SHORTS, BOXING 这样的词。

搜索引擎“自适应搜索”功能就会智能地把客户前面搜索的BOXERS自动地与用户后面搜索的 PANTS, UNDERWEARS, SPORTS, BOXING, SHORTS 链接,

这样就相当于客户在搜索框中之间输入,BOXERS PANTS, BOXERS UNDERWEARS, SPORT BOXERS,BOXERS SHORTS, BOXERS FOR BOXING.

而这些关键词你已经全面覆盖了你的外贸网站平台,这样你的外贸网站平台与用户搜索的查询词最全面匹配,当然你的网站就排名在最前面。

这样潜在的进口商就搜索到了你的外贸网站平台,看到了你的产品。你的机会就来了,你的订单就来了。

功夫外贸公众号 GFWAIMAO 手机上学习外贸和外贸英语口语

同理,如果你想通过Google,YAHOO. ASK, BING.等用你产品的关键词搜索国外网站并开发国外买家,你也要用上面猫熊哥教你的消除歧义词的长尾关键词去搜索你的客户,

这样的搜索方法非常准确到位。你千万不要机械石板。要学会变通,举一反三。希望猫熊哥这片文章能起到抛砖引玉的作用。

今天就到这里,就到这里。

功夫外贸公众号 GFWAIMAO 手机上学习外贸和外贸英语口语

功夫外贸:

订阅功夫外贸,让你成为外贸SOHO自由职业者!跟随功夫外贸,让外贸创业成为可能!天天阅读功夫外贸,让你外贸英文突飞猛进!你过去是谁不重要,你未来要成为谁很重要,你跟谁在一起更重要,和功夫外贸在一起让外贸SO EASY!

百度搜索引擎优化的内容

百度搜索引擎优化只是网站上一个普通的访客,对网站的抓取方式、对网站/网页的价值判断,也都是从用户的角度出发的,任何对用户体验的改进,都是对搜索引擎改进。对搜索引擎的优化,同时也会让用户受益。

面向 百度搜索引擎优化,主要分为三个部分:如何更好的让搜索引擎收录网站中的内容、如何在搜索引擎中获得良好的排名、如何让用户从众多的搜索结果中点击你的网站。简单来说,就是收录、排序、展现。

百度搜索引擎优化机器可读

  百度通过一个叫做Baiduspider的程序抓取互联网上的网页,经过处理后建入索引中。目前Baiduspider只能读懂文本内容,flash、图片等非文本内容暂时不能处理,放置在flash、图片中的文字,百度无法识别。

  建议使用文字而不是flash、图片、Java等来显示重要的内容或链接,搜索引擎暂时无法识别Flash、图片、Java中的内容,这部分内容无法搜索到;仅在flash、Java中包含链接指向的网页,百度可能无法收录。

百度搜索引擎优化网站结构

  网站应该有清晰的结构和明晰的导航,这能帮助用户快速从你的网站中找到自己需要的内容,也可以帮助搜索引擎快速理解网站中每一个网页所处的结构层次。

网站结构建议采用树型结构,树型结构通常分为以下三个层次:首页——频道——文章页。象一棵大树一样,首先有一个树干(首页),然后再是树枝(频道),最后是树叶(普通内容页)。树型结构的扩展性更强,网站内容变多时,可以通过细分树枝(频道)来轻松应对。

理想的网站结构应该是更扁平一些,从首页到内容页的层次尽量少,这样搜索引擎处理起来,会更简单。

同时, 百度搜索引擎优化也应该是一个网状结构,网站上每个网页都应该有指向上、下级网页以及相关内容的链接:首页有到频道页的链接,频道页有到首页和普通内容页的链接、普通内容页有到上级频道以及首页的链接、内容相关的网页间互相有链接。