基于网络搜索数据对我国营商环境变化情况的评估

一、引言

2003年至今,世界银行已经连续15年发布年度《全球营商环境报告》,目的在于通过督促各国改善法律制度和监管环境,从而促进民营企业的发展。营商环境指标体系经过15年的积累,已然形成较为完善的指标体系,包括开办企业、办理施工许可、获得电力供应、注册资本、获得信贷、中小投资者保护、税收、跨境贸易、合同执行和破产保护10个维度、40多个具体指标,对190个经济体营商环境进行评估。

如果中国要缩小与发达国家之间的差距,首先需要缩小营商环境上的差距,优化营商环境,这使得研究编制符合我国国情特点的营商环境指数迫在眉睫。党的十八届五中全会指出要完善法治化、国际化、便利化的营商环境;2016年3月17日公布的《国民经济和社会发展第十三个五年规划纲要》中,提出要“营造优良营商环境”。在2016年3月5日的总理《政府工作报告》中提出,持续推进简政放权、放管结合、优化服务,不断提高政府效能。2016年5月23日,在国务院印发的《2016年推进简政放权放管结合优化服务改革工作要点》中提出,推进简政放权放管结合优化服务改革工作要点。我国要吸引来自国内外的商人,必须重视营商环境的提升,逐步消除影响我国营商环境的不利因素,真正使营商环境具有可持续的、强大吸引力。

二、背景

近年来,利用网络搜索数据进行指数编制和预测在学术界和商业界均有诸多探索和研究。如百度公司与中科院利用百度搜索数据编制的消费者信心指数;IBM日本利用大数据信息技术开发了经济指标预测系统,通过统计分析新闻中出现的关键词等信息来预测股价走势。基于网络搜索数据的流感预测、失业率监测、房地产及汽车等行业销售量预测都拥有较高的准确度,网络数据的即时性能够很好地弥补传统方法的滞后性,具有更强的时效性。综合来看,目前在我国网络搜索数据应用最多的就是百度搜索数据,因此应用百度搜索指数研究我国营商环境走势更符合实际情况。

三、营商环境指数的实证分析

企业的营商环境、发展状况,是观察经济运行、改革成效的重要标准。企业的营商环境,关系到企业的生存发展,在当今经济全球化时代,哪个地区的营商环境好,企业就会去哪投资。对企业吸引力的竞争,说到底就是各地营商环境的竞争。

基于关键词网络搜索的月度数据,构建营商环境指数模型进行测算,以此来反映月度我国营商环境的变化趋势。

(一)我国营商环境整体情况

测算结果如下表显示,2017年1—7月,我国营商环境指数分别为15.42、19.15、21.91、19.36、21.49、25.39和27.77,平均值为21.50。分地区看,前7个月东部地区营商环境指数的平均值为28.17,中部地区营商环境指数的平均值为14.31,西部地区营商环境指数的平均值为13.70,东北地区营商环境指数的平均值为15.73。数据显示,2017年以来,我国营商环境整体呈改善趋势,东部地区明显好于中、西部和东北地区,而东北地区要好于中、西部地区。从变动趋势看,中部地区营商环境改善速度明显快于东、西部和东北地区。

2017年1—7月全国和地区营商环境指数增速呈现“两头高、中间低”的“V”形走势。从趋势看,2017年2—4月全国和分地区的营商环境增速整体呈下降趋势,东北地区营商环境改善速度明显快于东、中和西部地区,自2017年4月之后,全国和分地区的营商环境增速呈上升趋势,中部地区营商环境改善速度明显快于东、西部和东北地区。

(二)我国营商环境分地区情况

分地区看,由于我国地区经济发展不均衡,各地营商环境存在一定差异。2017年1—7月31个省份营商环境指数平均值排名显示,排名靠前的全部来自东部地区,分别是北京、浙江、上海、福建和天津,主要原因是东部地区拥有明显的区位优势及经济优势,使得东部地区的营商环境指数远远高于其他地区;营商环境指数排名靠后的大部分来自西部地区,分别是青海、黑龙江、新疆、云南、甘肃和西藏,这些地区营商环境差的主要原因是经济内生增长活力不足、产业结构相对单一和科技创新能力低下。

(三)我国营商环境分省情况

分省看,全国31个省份的营商环境指数整体呈上升趋势,说明我国营商环境逐月改善。在全国31个省份中,7月份营商环境指数排名与1月份排名比,上升的省份有13个,持平的省份有7个,下降的省份有11个。2017年1—7月,全国31个省份营商环境指数平均提高11.19分。其中,北京营商环境指数从35.85分提高到53.59分,提高17.74分,在全国排第1名;浙江营商环境指数从25.43分提高到41.81分,提高16.38分,在全国的排名从第3位上升到第2位,前移1位;福建营商环境指数从24.70分提高到39.96分,提高15.26分,在全国的排名从第4位上升到第1位,前移1位;上海营商环境指数从25.75分提高到38.83分,在全国的排名从第2位下降到第4位,后退2位;广东营商环境指数从19.39分提高到36.86分,在全国的排名从第6位上升到第5位,前移1位。

在某种程度上看,各地区营商环境指数越高,说明营商环境越好,也就是说明该地区营商便利度越高。根据1—7月份全国31个省份的营商环境月度平均指数分为三个等级,营商环境好的有北京、浙江、上海、福建、天津、江苏、广东、海南和山东,营商环境较好的有河北、辽宁、重庆、山西、贵州、湖北、吉林、内蒙古、陕西、江西、河南、广西、四川、湖南、宁夏、安徽、青海和黑龙江,营商环境一般的有新疆、云南、甘肃和西藏。

2017年1—7月31个省份营商环境指数环比显示,7月份大部分省份营商环境指数环比涨幅比上月略有收窄,说明大部分省份营商环境改善增速明显放缓。贵州和新疆营商环境指数环比涨幅比上月扩大最大,贵州省涨幅比上月扩大23.91个百分点,贵州省近年来大力发展大数据产业、发展生态环境、加快转型升级等重大战略举措,促使贵州省7月份营商环境指数环比涨幅最大。7月份河北省营商环境指数环比由降转升,辽宁和西藏营商环境指数环比由升转降。大部分来自东部地区营商环境指数环比涨幅变化比较小的主要原因是长期以来它们经济发展环境比较稳定。

随着近年来“放管服”改革的不断深入,我国各省份的营商环境都在持续改善。分10个影响因素看,自4月份以来企业信息查询、电力、信贷、进出口贸易、合同和纳税的指数持续上升,主要原因是各地陆续出台一系列关于提升营商环境的政策措施,使得这些方面政策环境得到进一步改善;注册资本、投资者保护和破产的指数由升转降,因这三个方面的搜索量与营商环境呈负相关关系,指数下降表明营商环境在一定程度上变好;建筑许可指数持续下降,说明随着楼市调控政策进入深水期,建筑许可的关注度下降,投资商的观望情绪增加。

六、结论

基于1—7月份全国31个省份的营商环境月度平均指数,在全国31个省份中,营商环境好的省份有9个,全部来自东部地区;营商环境较好的省份有18个,大部分来自中、西部和东北地区,其中来自东部地区的有河北,来自中部地区的有山西、湖北、湖南、江西、河南和安徽,来自西部地区的有重庆、贵州、内蒙古、陕西、广西、四川、宁夏和青海,来自东北地区的有辽宁、吉林和黑龙江;属于营商环境一般的省份有4个,全部来自西部地区。总的来说,东部地区的营商环境普遍较好,特别是在吸引人才、吸引资金方面的优势比较明显。政治权利集中的地方,营商环境比较好。在31个省份中,直辖市普遍排名靠前。可见,政治对经济发展的影响比较大,企业更愿意去政治资源比较集中的地方去投资,这些地方调动资源的能力较强。

企业版恶意程序分析服务上线 搜索速度快100倍

Alphabet子公司Chronicle于本周四(9/27)发布了锁定大型企业的VirusTotal Enterprise恶意程序分析服务,除了VirusTotal既有的功能之外,添加了Private Graph与企业管理功能,也让恶意程序的搜索速度提升100倍。

源自于西班牙的VirusTotal在2012年被Google买下,之后于今年1月被纳入Alphabet新成立的网络安全公司Chronicle,它能扫描文件与网址,提供恶意程序的分析及侦测服务,已发布网页版、桌面版、浏览器扩展程序、移动程序、公开的API与付费服务,VirusTotal Enterprise则是它的最新版本。

VirusTotal Enterprise允许用户搜索恶意程序样本、寻找未来的恶意程序样本、分析恶意程序的关系图,还能通过API自动化所有的任务。

此外,VirusTotal Enterprise提供了私有图表(Private Graph)功能,它能创建可视化的恶意程序关系图,并连接包括机器、部门及用户在内的企业资产,还能自动地从节点中找出公用性,以识别被危害的迹象,与寻常VirusTotal Graph最大的不同是,它主要供安全团队进行意外调查时使用,而不与一般VirusTotal用户共享。

在企业管理上,VirusTotal Enterprise支持企业既有的双因素身份验证,也有新的API可供企业各部门管理内部用户。

加入Alphabet的VirusTotal更利用Google的基础设施扩张其搜索与分析能力,使得VirusTotal Enterprise恶意程序搜索速度快了100倍,同时改善其搜索精确度与恶意程序分析能力,例如从冒牌程序中汲取出特定图标,再快速扫描使用同样图标的所有恶意程序,或者是分析文件中所内置网域名称、IP位置与字符串的恶意行为。

福字 360搜索指数飙升1000万 全民哄抢2亿红包

1月18日支付宝集五福活动上线。

今年的五福卡依旧是爱国福、富强福、和谐福、友善福以及敬业福。根据支付宝官方公告,“集五福”最高可获得666元的红包,累计准备了2亿红包。活动上线当日就吸引大量用户而异常火爆,根据360搜索数据,当日搜索五福,以及“福”和“福字”等搜索指数均创下历史记录,“福字”相关搜索指数过千万,“福”成了2017年鸡年春节的国民汉字。

根据360搜索指数数据,1月18日,支付宝集五福活动上线后,五福相关的搜索多个关键词搜索指数暴涨。其中,敬业福和爱国福的当日搜索指数,均达到10万以上,和谐福和友善福的搜索指数也在4万以上。而在此前的数周,五福相关的搜索指数都在一百以内。

360搜索指数数据显示,搜“福”数据远超过去年同期水平:2016年小年“敬业福”的搜索指数约6.6万,而2017年“敬业福”的搜索指数高达10万,增长高达60%以上。

另外,根据360搜索指数的24小时分时数据显示,1月18日下午3点,“搜福“指数瞬时达到最高峰,形成”万人同搜五福”的盛况。

除了五福之外,单字“福”以及“福字”相关的搜索量也创下历史记录。根据1月18日360搜索数据,搜索单字“福”的指数高达465万,而“福字”的搜索指数高达510万,两个“福”字和五福词的搜索指数之和已经远超1000万。支付宝的“集五福”活动,创造一个全民“搜福”新记录。

年年岁岁花相似,岁岁年年抢红包。虽然微信官方宣布不再举办抢红包的活动,但QQ和支付宝春节红包活动的热度远超去年。“集五福”抢2亿红包总量没变,但与去年不同,支付宝鸡年的“集五福”活动玩出了新花样:用户不但可通过支付宝App的AR扫描“福”字获得福卡,还增加“万能福”与“顺手牵羊卡”,其中万能福可代替任意一张福卡,而顺手牵羊卡则可随机抽取好友手中的福卡。

AR扫福让获得福卡的几率变大,“万能福卡”让集齐五福机会增加。支付宝官方也表示,今年集五福活动难度大幅度降低。据官方统计,活动第一天集齐五福卡用户已经超过了900万,后续发放红包将可能采取更刺激的“拼手气”的方式。

由此可见,新玩法带来的海量用户参与,是导致今年360搜索”搜福”指数飙升的直接原因。而支付宝的“集福卡”“拼福卡”“换福”带来的全民疯狂“搜福”运动,也让2017年鸡年春节更加热闹。

来源:第三方公司企宣

苹果搜索结果突变 7 万+关键词下出现 Story 会影响到 ASO 吗

9 月 20 日(周四)苹果魔咒再次应验,iOS 12 上线一天后,苹果搜索结果展示变了。在此之前七麦数据已经为让大家更好了解搜索结果展示,特别根据美国区的展示结果进行大体分析(查看详细内容猛戳>>),当时中国区的搜索结果展示并未有太大变化,而今日其搜索结果展示中 Story 出现极大调整,导致搜索结果排名产生变动。

Story 在搜索结果展示权重提高

针对这一变化七麦数据提取今日(2018 年 9 月 20 日)出现 Story 专题的关键词为此次研究样本,共计 77010 个。而根据今日(2018 年 9 月 20 日)提取中国区关键词总数大概在 270 万多个关键词,出现 Story 关键词占比仅为 2.59% 。

Story 稳坐搜索结果排名 Top 5

Story 在搜索结果的排名并不统一,而是在搜索不同关键词时展示的位置也不一样。

Story 在搜索结果排名不一

就数据显示,Story 在搜索结果中排名最高为第 1 位,最低为第 5 位。其中排名第 2 位的 Story 专栏所对应的关键词数最多,高达 60520 个。

结论:Story 虽少,但其展示位置突出,被推荐后可加大产品曝光度,建议开发者不断优化自身产品能够受到苹果小编青睐。

调整关键词多为品牌词、行业词

在此次出现 Story 的关键词样本中,按其关键词搜索指数排名后发现,Top 50 的关键词大多以品牌词、行业词为主。

根据关键词搜索指数划分,热度较高的关键词调整较小,关键词搜索指数在 [4605,5000) 之前的关键词个数高达 16365 个,占到总调整关键词的 94.48%。这一数据也说明,其影响度并不高。

37 个 Story,“今日主题”出现频率最多

而针对每个 Story 都有其对应的专题分类,每个专题分类出现的频次并不一样,专题共计 37 个分类,其中最多分类为“今日主题”。

而相关 Story 大多曾在苹果 Today 中进行推荐。

Story 与开发者不会同时出现在搜索结果中

早在七麦数据针对美国区搜索结果展示研究中数据显示,Story 与开发者相关内容展示不会同时出现,而此次中国区的变动再一次印证这一结论。

相同 Story 会出现在不同关键词下

在此次样本数据中共计有 759 个 Story ,其中最多有 1281 个关键词结果中出现相同 Story 展示,而有 8 个关键词的相同 Story 个数最多,高达 14 个。

品牌权重影响 Story 展示结果

此次苹果搜索结果中,品牌词的展示位置不一,很大一定程度由于品牌词自身权重导致的,其相关性越高,关键词覆盖越好排名也会靠前。

大众点评&猎聘的搜索结果展示

大众点评&猎聘的关键词覆盖数

建议与提醒

1、做好心理准备。开发者们应提前做好搜索结果展示排名的变动,未来苹果竞价广告(ASM)进入中国后,其展示结果会进一步变化。(如下图)

2、Story 推荐不可控性高,对 ASO 影响度不高。Story 更多是根据苹果小编自己喜好筛选,随机性较大,就目前数据显示,涉及关键词占比并不高,所以请开发者根据自身产品自行优化获取苹果推荐机会。(相关获取流程>>)

3、ASO 优化必须做。针对自身品牌词优化应格外重视,不能忽略 ASO 优化工作,使其权重不足以成为第一位。另外苹果也有表示,用户对原生搜索结果转化更好——原生的搜索结果是指 App,所以 ASO 优化是很重要的一环。

– end –

本文由七麦研究院专栏作者【石叶】原创,转载需联系七麦研究院获取授权,七麦研究院有权向非授权转载追究责任。

正能量 中国网民科普需求搜索行为报告发布 (2018年第一季度)

中国网民科普需求搜索行为特征

1

第一季度中国网民科普搜索指数

同比增长20.18%

第一季度中国网民科普搜索指数为20.96亿,同比增长20.18%,环比增长11.25%。其中移动端的科普搜索指数为16.17亿,环比增长13.55%;PC 端科普搜索指数为4.79亿,环比增长4.13%。移动端科普搜索指数是PC 端的3.38倍。

2018Q1中国网民科普搜索指数变化趋势

2

第一季度前沿技术主题

环比增长最快

第一季度八个科普主题环比增长排名依次是前沿技术、健康与医疗、航空航天、信息科技、气候与环境、食品安全、能源利用和应急避险。

2018Q1八个科普主题环比增长

3

第一季度搜索指数同比增长最快的

科普热点Top3

5

第一季度各省网民科普搜索

关注点Top5

[1] 因数据原因,以下报告内容未包含港、澳、台排名。

中国网民科普需求搜索热点

1

“超级蓝色血月”受到中国网民的

大量关注

2018年1月31日迎来一次千载难逢的天文奇观“超级蓝色血月”,这是过去152年来超级月亮、蓝月亮和月全食首次同时出现。中国网民对这一事件的内容搜索主要集中在“蓝月亮月全食”、“超级蓝月亮月全食”和“月全食2018蓝月亮”,在1月31日当天达到搜索高峰,相关的科普搜索指数为1345.31万。

2018Q1中国网民对航空航天主题、月食和月全食相关搜索的变化趋势

2

我国诞生世界首个体细胞克隆猴

引起中国网民的关注

2018年1月25日,全球顶尖学术期刊《细胞》在线发表了中国科学家的一项成果:成功培育全球首个体细胞克隆猴,分别叫“中中”和“华华”。中国网民对克隆猴相关的搜索在当天到达高峰,搜索指数为31.51万。

2018Q1中国网民对前沿技术主题和克隆猴等相关搜索的变化趋势

3

河北地震事件引发网民的热搜

2018年2月12日18时31分,在河北廊坊市永清县发生4.3级地震,当天中国网民对地震相关的搜索指数为200.88万。地震相关搜索的地域数据显示:北京、河北和广东位居前三。

2018Q1中国网民对应急避险主题和地震相关搜索的变化趋势

“科普中国”专题分析

1

“科普中国”携手CCTV共议两会带动

相关资讯指数飙升

2018年3月15日至19日,科普中国新媒体与CCTV4《中国新闻》特别节目《中国新时代》携手共议两会,带动相关资讯指数飙升,其中3月18日(周六)和19日(周日)两天的资讯指数分别达到3.89万和5.49万。从科普搜索情况来看,进入3月下旬,“科普中国”相关搜索指数持续上扬,表明媒体对“科普中国”的大量报道成功吸引了网民对“科普中国”的关注。

2018Q1“科普中国”资讯指数 & 搜索指数

2

北京、广东、山东、浙江、江苏等地

对“科普中国”的关注度位居前列

全国各省网民对“科普中国”的关注情况各异。按第一季度科普搜索指数排名,关注度前十的省份是北京(13.05%)、广东(11.04%)、山东(7.09%)、浙江(6.52%)、江苏(5.45%)、河南(4.98%)、云南(4.60%)、安徽(4.15%)、四川(3.74%)、吉林(3.66%)。相较于其对科普总体的关注份额,北京、云南、吉林、宁夏等地网民对“科普中国”的关注份额明显更高。

2018Q1各省网民对“科普中国”的搜索份额

3

品牌、App、内容、e站是网民

对“科普中国”的主要关注点

从网民的关注结构来看,第一季度“科普中国”的整体品牌(含义/标识/二维码)和“科普中国App”获得了大部分关注份额(71.09%)。其次是“科普中国”的优质内容(视频/动画/知名栏目)和“科普中国e站”(乡村/社区/校园),分别占9.60%和9.34%。此外,微平台(新媒体)、大型活动(典赞/科普中国行/百城千校万村行动)、“V视快递”和“科普中国云”也进入了网民对“科普中国”的关注视野。

2018Q1网民对“科普中国”的关注结

科普工作的对策与建议

1

加大基础前沿领域优质科普内容的

制作和传播力度

根据科普热点搜索指数的长期监测结果,前沿科技是8个科普主题中增长最快的主题,在过去5年内增幅超过10倍,特别是量子、神经元、引力波、暗物质等基础前沿领域的科普热点自2017年以来迅猛增长。另一方面,由于网民对此新一轮科技热潮还缺乏足够的认知和理解,客观上引发了一定程度的流言化或伪科学化传播。例如英国物理学家斯蒂芬?霍金逝世引发“霍金预言”走红网络,然而其实质内容往往缺乏科学性和知识深度。再比如围绕量子通信网络上也出现了部分似是而非的讨论。

建议围绕新一轮信息技术革命,加大深空探测、人工智能、量子通信等基础前沿领域的优质科普内容的制作和传播力度。针对国家科技战略以及互联网重点关注和讨论的基础前沿议题,邀请相关领域的全球顶级科学家团队发表相关专题报告、特刊或评论,借助“科普中国”的传播合作网络及其他数字出版平台,发行出版多样化的数字多媒体内容,加强互联网科学传播的时代感和影响力。

2

加强“科普中国”各类用户及社区的

培育工作

从网民对“科普中国”的关注结构来看,对整体品牌和APP的认知度明显高于其他类别;对“科普中国”旗下的各类内容、科普中国?e站、微平台、典赞?科普中国等重大活动以及“科普中国云”的关注度还有待进一步提升。

建议加强“科普中国”各类用户及社区的培育工作,面向科普中国网、科普中国云和科普中国APP建立统一的用户注册通道。同时进一步改进“科普中国”的各类用户界面,实现云端用户数据在“云、网、端”三种界面上的统一使用,针对机构、学生、女性、个人等重要群体,分类提供更加适需、个性化和定制化的界面风格和功能。

THE END

手淘免费搜索之关键词

手机端的流量不容小视

关于做关键词的数据软件有很多,今天介绍几个主要的工具,相对比较有效的工具给大家使用

第一种淘宝排行榜(top.taobao.com)

点击右边的完整榜单即可获取关键词数据(看图)

可以看行业大盘数据,也可以看子类目的关键词上升数据

有细分,数据主要还是以关键词为主,主要是上升的关注榜单,可以提供给操作关键词参考,缺点就是没有细分数据,仅仅只有关键词,没有分析的关键词了。

第二种直通车数据解析工具(直通车和免费搜索是相关联的,有参考价值)

这里首先要跟大家解释一下,为什么操作免费搜索会使用到直通车的工具,其一直通车和免费搜索的展示位置是一样的,都在同一个页面,其二直通车一样可以反映出关键词的需求。关键是不用花钱大家都可以免费使用。

下面请看图演示

这里就很好的诠释了这个工具的优点了,数据很多,包括展现-点击-点击转化,这几个非常重要的数据都可以使用到免费搜索上去。

这里的数据大家自己多看看,主要介绍工具给大家进行使用。

还有两个也是很重要的哦,一个是推广词表

这是其一,其二就是数据透视

数据透视的作用就是可以看到无线端流量占比

做手机淘宝流量,就要找无线端占比高,点击高的关键词,想过会更好!

接下来是第三个工具,这个工具需要付费,免费的工具,有参考意义,也可以直接使用,收费工具其实就是简化了很多操作,让你省去很多麻烦。

生意参谋市场行情900元一年。可以直接查询关键词,相关词(推荐使用)

可以直接查看关键词的搜索指数,点击率,商城占比,转化率等非常重要的数据

这种工具相对做关键词来讲,速度快,毕竟收费了,肯定数据精准性更强,比我们手动操作更快。关键词是做免费自然搜索的第一步要去完成的,和曝光展现呈直接关系。一定要结合自己的类目产品的核心词去好好分析制作一个合格的标题。

有很多卖家不知道怎么去做标题不是复制同行就是随便写一个标题,有的甚至30个字都不满,没有流量怪谁呢?

点击查看 ???触犯广告法被投诉怎么办?

点击查看 ???如何做好关联营销

点击查看 ???25个技巧教你提高流量

阿里巴巴复杂搜索系统的可靠性优化之路

作者 | 元茂

本文介绍了闲鱼搜索引擎系统的稳定性保障方案是如何设计的。

背景

搜索引擎是电商平台成交链路的核心环节,搜索引擎的高可用直接影响成交效率。闲鱼搜索引擎作为闲鱼关键系统,复杂度和系统体量都非常高,再加上闲鱼所有导购场景都依靠搜索赋能,搜索服务的稳定可靠成为了闲鱼大部分业务场景可用能力的衡量标准,如何保障搜索服务的稳定和高可用成为了极大的挑战。

闲鱼搜索作为闲鱼核心系统,有以下几个突出的特点:

  • 数据体量大:对接闲鱼数十亿的商品,引擎有效商品数亿;
  • 索引庞大:闲鱼非结构化商品需要与算法团队合作,预测抽取有价值的结构化信息,建立索引。已创建数百的索引字段,整个引擎索引数据量为 T 级别;
  • 增量消息多:日常增量消息 QPS 数十万,峰值 QPS 可以达到 数百万;
  • 查询复杂:很多特殊业务场景,查询条件要求苛刻而复杂。比如召回 GROUP 分组统计,聚合 / 打散 / 去重,关键词复合运算查询等;
  • 实时性性要求高:闲鱼中都是二手商品,卖家商品的库存都是 1;商品上下架频繁,对引擎数据的同步更新实时性要求非常高;
  • 智能化扩展:由于闲鱼商品非结构化特性,为保障召回数据的效果以及相关性;需要引擎具备智能插件扩展的能力,能与算法开发人员协同。

鉴于闲鱼商品搜索引擎以上主要特点,本文详细介绍闲鱼搜索在系统高可用上做的各种努力,希望能给读者一些启发。

闲鱼搜索整体架构

正式引出搜索稳定性保障方案之前,我们需要对闲鱼搜索技术有一个简单大致的了解。

我们比较过很多外部开源的搜索引擎,都不能完美支持背景中所列的需求点。闲鱼使用的是阿里巴巴最新研发的搜索引擎平台 Ha3,Ha3 是一款非常高效,智能强大的搜索引擎,它完全满足闲鱼搜索的要求。

Elasticsearch 是基于 Lucene 的准实时搜索引擎,也是比较常用的开源搜索引擎,但是其在算法扩展支撑 / 绝对实时的能力上与 Ha3 相差甚远。在同等硬件条件下,基于 1200 万数据做单机性能对比测试发现,Ha3 比 ElasticSearch 开源系统的 QPS 高 4 倍,查询延迟低 4 倍。Elasticsearch 在大规模数据量场景下的性能和稳定性与 HA3 相比尚有很大的差距。

闲鱼搜索体系运行流程

下图是闲鱼搜索体系系统结构图,主要分在线和离线两个流程:

索引构建流程

索引构建即我们所谓的离线流程,其执行者 BuildService①,负责将不同存储类型的纯文本商品数据构建成搜索引擎格式的索引文件。原始的商品数据有两类,一类是存放在存储上的全量商品数据,这个定期 (一般以天为周期) 通过 DUMP②产出,另一类为实时变更的数据,在商品信息变更后,由业务系统即时同步给消息系统 Swift③。最终分发给在线服务的 Searcher④更新索引。

搜索查询流程

搜索查询即我们所谓的在线流程。闲鱼搜索服务应用 A 发起搜索请求,通过 SP⑤进行服务能力编排。

首先 SP 发起 QP⑥算法服务调用,进行用户意图预测,并获取排序辅助信息;

然后结合 QP 返回的结果加上业务系统的查询参数,向 Ha3 搜索引擎发起查询请求;

Ha3 搜索引擎 QueryService⑦中 Qrs⑧接收到查询请求后,分发给 QueryService 中的 Searcher 进行倒排索引召回、统计、条件过滤、文档打分及排序、摘要生成;

最后 Qrs 将 Searcher 返回的结果进行整合后返回给 SP,SP 经过去重再返回给业务系统。

闲鱼搜索体系团队构成

闲鱼搜索的运维体系,是一个相当复杂的构成,其中涉及很多团队的鼎力协作。

首先必须有 Ha3 搜索引擎团队在底层提供核心的搜索引擎能力支持,主要负责 Ha3 搜索引擎核心能力的建设维护,提供并维护引擎运维操作平台和实时引擎搜索服务。

然后是算法团队,在 Ha3 搜索引擎上进行定制,优化用户搜索体验,对闲鱼非结构化的商品通过算法模型进行理解,预测抽取出结构化信息,供搜索引擎商品索引使用。监控维护 QP 集群服务,开发并使用 Ha3 引擎排序插件,进行召回数据分桶实验,验证调优。

最后是我们业务工程团队,串联整个搜索流程,监控维护整个搜索链路的可用性。主要维护搜索对接的数据,Ha3 搜索引擎接入管理,进行 SP 搜索服务编排,制定合理的查询计划,以及闲鱼搜索统一在线查询服务的研发维护工作。

本文亦是从业务工程团队的工作角度出发,阐述如何对复杂搜索业务系统进行稳定性的保障。

稳定性治理

部署架构优化

独立网关部署

Ha3 引擎通过 SP 提供基于 HTTP 协议的搜索服务 API,对类似闲鱼这样复杂的搜索场景,每个闲鱼上层的业务如果都通过拼接 SP HTTP 接口参数的形式来使用搜索服务,所有上游业务都需要关心 SP 的拼接语法,会使开发成本剧增,而且如果由于特殊原因 SP 进行了语法调整或者不兼容升级,那么所有上层业务都需要修正逻辑,这样的设计不合理。

为了让业务系统与搜索系统完全解耦,并且提高搜索服务的易用性,闲鱼搜索通过统一的业务搜索网关来提供简单一致的分布式服务,供闲鱼各上层搜索业务使用,并与 SP 对接,屏蔽掉 SP 对上游业务系统的穿透。

最开始闲鱼搜索服务与其他很多不相关的业务场景共建在一个比较庞大的底层应用中,这种部署方式对稳定性要求很高的业务模块来说有非常大的安全隐患:

  • 各业务模块会相互影响:存在一定程度的代码耦合,同时还涉及机器资源的竞争,风险比较高;
  • 应用太过庞大,严重影响开发协作的效率和代码质量。

于是将闲鱼搜索服务部署到独立的容器分组,新增应用 A 供闲鱼搜索服务专用,作为各业务使用搜索服务的独立网关,同时对接下游的 SP 搜索服务,保证服务是隔离和稳定的。

前后部署图如下所示:

多机房容灾部署

最初,闲鱼商品搜索服务对接的 Ha3 搜索引擎只部署在一个机房。当此机房出现比较严重的问题时,对上游业务影响非常大,甚至会引发故障。鉴于此,对闲鱼商品搜索引擎的在线离线集群进行双机房部署容灾。在详细展开之前,我们先大致理解下 Ha3 引擎 DUMP 流程的原理:

如上图所示,Ha3 引擎 DUMP 流程大致流程可以简单分为以下几步:

  • 准备源数据:评估业务需求,将需要接入引擎的数据准备好。一般业务数据大部分都是 DB 数据表,也有少数的 ODPS⑨离线数据表,算法团队提供的数据绝大部分都是 ODPS 离线数据表;
  • DUMP 拉取数据:通过 Ha3 引擎团队提供的运维平台,可以将这些表的某些数据字段接入到创建好的搜索引擎中,后续 DUMP 执行的时候,Ha3 离线引擎会拉取这些接入的表字段数据,形成一份引擎自用的镜像数据表,在这一步中,我们可以使用引擎团队提供的 UDF 工具,对数据进行清洗 / 过滤等处理;
  • 数据 Merge:引擎将所有的镜像表数据,通过我们指定的主键进行 Join,最终形成一份数据大宽表,供引擎创建索引使用。这一步数据 Join 后,还可以对最终的数据通过 UDF 进行进一步的清洗 / 过滤处理,验证通过的数据才会进入到大宽表;
  • 创建更新索引:Ha3 离线引擎通过 buildService,使用大宽表的数据,与事先我们在 Ha3 引擎运维平台指定好的索引 Schame 对齐,重新构建索引。

以上流程可以通过 Ha3 引擎运维平台手动触发执行,执行完上述流程后,会生成一份新的索引。新的索引集群服务可用后,在线实时模块会将查询服务切换到新的索引集群上,完成一次索引的更新。这个完整流程我们将其称之为”全量”。

全量完成后,当系统有新的商品信息变动,且相应的数据表有启用实时更新 (我们称之为增量功能,DB 表是通过 binlog/ODPS 表是通过 Swift 消息通知的方式实现),则离线 DUMP 引擎会感知到此次变动,进而将相应的镜像数据表中商品数据更新,并会按上述离线 DUMP 流程中的步骤,将这个改动信息一直向引擎上层投递,直至成功更新引擎索引中的相应数据,或者中途被系统规则丢弃为止。这个实时数据更新的流程我们称之为”增量”。增量更新还有一条通道:算法同学可以使用特殊的方式,通过 Swift 增量消息的方式直接将需要更新的数据不通过 DUMP 流程,直接更新到 Ha3 引擎索引中。

闲鱼商品量飞速增长,目前已经达到数十亿。接入了数百的索引字段,由于闲鱼商品非结构化的原因,索引字段中只有一小部分供业务使用,另外大部分都是算法接入的索引,比如大量抽出来的标签数据,向量化数据等,这些向量化数据非常大。最终的情形表现为闲鱼商品搜索引擎的 DUMP 处理逻辑比较复杂,而且索引数据总量异常庞大,增量消息量也处在非常高的水位,再加上闲鱼商品单库存的现状,因此对数据更新的实时性要求非常高,这些都给稳定性带来了极大的制约。

索引数据是搜索引擎的内容核心,如果进入引擎的索引数据有问题,或者新变更的数据没有更新到引擎索引中,将直接影响搜索服务的质量。

搜索引擎单机房部署期间,时常会因为一些不稳定的因素,导致 DUMP 全量失败,或者增量延迟,甚至停止。一旦引擎 DUMP 出现问题,需要恢复基本都很困难,很多场景下甚至需要重新跑全量才能解决问题。但是闲鱼商品索引数据体量较大,做一次全量往往要大半天,没有办法快速止血,对业务造成了较大的影响,于是对搜索引擎进行双机房部署容灾 (M/N 机房),互为备份。

两个离线 DUMP 机房采用相同的引擎配置和相同的数据源,产出相同的索引数据,分别供两个在线机房使用,两个机房的在线流量比例也可以按需实时调整。当 M 机房出现不可逆问题时,自动或手动将流量全部切换到 N 机房,实现线上快速止血,然后再按部就班排查解决 M 机房的问题。

下图为最终的搜索机房部署情况:

进行引擎双机房部署虽然增大了机器资源成本,但是除了上述业务容灾优点外,还有以下好处:

  1. 引擎需求的发布,之前缺乏有效的灰度流程。当搜索引擎有重大变更 / 升级,出现高风险的发布时,可以先在单机房小流量 beta 测试,数据对比验证通过后,再发布到另一个机房;
  2. 平常单机房能支撑全部搜索查询业务的流量,当遇到大促或大型活动时,将两个机房同时挂载提供服务,这样搜索服务能力和容量直接能翻倍,避免了单机房频繁扩缩容的困扰。
  3. 性能评估时,可以单独对未承载流量的机房进行压测,即使由于压测导致宕机也不会对线上业务造成影响。

流量隔离

上文独立网关部署一节中讲到,闲鱼搜索通过统一的业务搜索网关来提供简单一致的分布式服务,供闲鱼各上层搜索业务使用。使用统一的微服务,就必然带来上游不同业务优先级和可靠性保障的问题。

闲鱼搜索服务支撑了种类繁多的上游业务,为了统一对各业务场景的流量 / 服务质量进行度量和管理,在上游业务接入闲鱼搜索服务时,需要申请使用相应的业务来源,这个业务来源标示会伴随着整个搜索查询的生命周期。在日志采集时直接使用,从而可以针对业务维度进行监控告警,实时感知业务运行的健康情况 (简单监控视图如下图),也可以对具体业务进行流量管控,降级限流等。

搜索业务来源生命周期图

分级监控体系

对高稳定性系统,当出现问题,或者即将产生问题时,能即时感知,显得尤为重要,方便实时进行跟踪处理,防止继续扩大。目前使用的主要手段是建立健全完善的多维度监控告警体系。

引擎基础服务监控

使用监控可以快速发现问题,如果监控的粒度够细还能进行问题的快速定位。不过有时也会存在误报或者漏报的情况,因此真实的监控一定要结合每个业务自身系统的特性,梳理出关键链路,针对关键链路进行多维度 360 度无死角监控,并且进行合理的预警规则设置,监控预警才会比较有效。

闲鱼搜索引擎在线离线流程 / 各上游重要应用系统的核心链路上,建立了完备的日志数据采集模块,对关键指标进行了精准的监控预警设置,做到任何问题都能及时被感知到。下图是搜索服务相应核心日志以及监控告警情况。

模拟用户行为的在线业务监控

上文提到,闲鱼搜索引擎索引体量比较大,需要很多团队共同协作,搜索流程复杂度比较高,而且有算法同学的加入,对闲鱼非结构化的商品做了很多 AI 识别,加上闲鱼都是单库存商品,对引擎实时性要求非常高。

前面已经做了一些容灾的保障方案,但是对实时性的感知上还需要更进一步,才能及时知道数据的准确情况,是否存在更新延迟,以及延迟时间大概是多久等一系列健康度信息。

解法是从业务层面进行实时性的监控告警,提取出闲鱼商品量比较大更新也比较频繁的类目 K,在闲鱼的后台业务系统中,通过 Jenkins 间隔一定时间(时间步长可以实时调整),使用类目 K 作为关键词和品类,根据商品更新时间索引降序招回,模拟用户轮询的方式发送搜索查询请求,召回满足要求的第一页商品。然后根据引擎召回数据的商品更新时间与当前系统时间进行差值比对,大于阈值时长(可以实时调整)说明存在较严重的数据更新延迟,则进行告警信息发送。

压测

全链路压测

对搜索服务以及各上游业务系统进行全链路压测改造,并使用线上真实的用户请求构造大批量的压测数据,在保证不影响线上业务正常进行的前提下,验证链路在超大流量模型下系统的容量和资源分配是否合理,找到链路中的性能瓶颈点,验证网络设备和集群容量。

引擎单链路压测

Ha3 搜索引擎在线流程,支持通过回放线上高峰时段查询流量的方式,进行引擎在线服务性能压测。

Ha3 搜索引擎离线流程,支持通过回放一段时间 Swift 增量消息的方式,进行引擎 DUMP 增量性能压测。

灰度发布

闲鱼商品的非结构化特性,离不开算法赋能。在我们的研发周期中,与两个算法团队,相当多的算法同学保持着深度合作,给闲鱼搜索带来了跨越式的发展,但是在团队协作和研发效率上也给我们带来了极大的挑战。

算法团队、引擎团队、加上业务工程团队,非常大的搜索项目开发小组,每周都有非常多的新算法模型,新的引擎改造,新的业务模块需要上线。

大量的新增逻辑改动直接上线,会带来很多问题:

  • 首先是代码层面,虽然预发环境有做充分测试,但也难保没有边缘逻辑存在测试遗漏的情况;即使预发测试都完全覆盖,但线上和预发终究环境不同,线上大流量环境及有可能会暴露一些隐藏的代码问题;
  • 第二方面,假使代码没有任何质量问题,但所有功能全部绑定上线,所有逻辑都混杂在一起,如何评定某个模块上线后的效果成为极大的困扰,特别是算法模型的优化,和业务上新模式的尝试,都需要根据详细的效果反馈数据指标来指导进行下一步的优化方向。

因此急需一套灰度实验保障体系,不仅可以用来协调和隔离整个搜索业务中各个模块,做到对各模块进行单独的效果评估,并且还能提高大家的协作效率,让各模块能进行快速试错,快速迭代。

为了解决以上非常重要的问题,业务工程团队开发了一套实验管理系统,用来进行搜索实验灰度调度管理,系统功能如上图所示,其具有以下特点。

  • 实验灵活方便,一个实验可以包含多个实验组件,一个实验组件可供多个实验使用,一个实验组件又可以包含多个实验分桶;
  • 各页面模块的实验都可以在系统中实时调控,包括实验的开 / 关,以及实验之间的关系处理;
  • 搜索实验埋点全链路打通,统计各种实验数据报表;
  • 统计数据接入了闲鱼门户和通天塔,可查看各个指标不同分桶的实验曲线;
  • 提升实验迭代速度,提升算法 / 业务效率,快速试错,加速搜索成交转化的增长。

应急预案

根据评估分析或经验,对搜索服务中潜在的或可能发生的突发事件的关键点,事先制定好应急处置方案。当满足一定的条件时进行多维度多层级的自动降级限流,或者配置手动预案进行人工干预。

任何时候发现线上问题,首先需要快速止血,避免问题的扩大。具有自动预案会自动发现问题,自动熔断,我们需要密切关注系统的运行情况,防止反弹。若出现反弹,并且对业务有较大影响时,快速人工介入执行降级预案。完成止血后再详细排查具体原因,当短时间无法确定问题根源时,如在问题出现时有过变更或发布,则第一时间回滚变更或发布。

对系统中各级的依赖服务,熔断降级已经系统负载保护,我们使用的是阿里巴巴自主研发的资源调用控制组件 Sentinel[4],目前已经开源。或者也可以使用 Hytrix 降级限流工具。

问题排查

将闲鱼搜索链路接入阿里搜索问题排查平台,搜索实时查询请求的各个步骤输入的参数信息 / 产出的数据信息都会在此工具平台详细展示,方便各种问题的排查跟进,以及数据信息对比。

可以对各查询条件下各个分桶的实验召回数据进行可视化显示,方便各个实验间的效果对比,以及每个召回商品的各类细节信息查看,包括业务数据和算法标签数据,还包含每个商品对应的各引擎插件算分情况,都能详细阅览。

还可以根据商品 Id,卖家 Id,卖家 Nick 进行商品索引信息的披露。可以排查相应商品在引擎索引中的详细数据,如果数据和预想的有出入,具体是离线 DUMP 哪一步的处理逻辑导致的状态异常,都能一键查询。

接入此问题排查平台后,能非常直观的掌握引擎的运行状况,搜索召回的链路状态,对快速发现问题根源,即时修复问题都有非常重大的作用。

总结与展望

本文主要介绍闲鱼如何保障复杂场景下搜索引擎服务的稳定性,主要从架构部署,隔离性,容量评估,风险感知 & 管控等方面进行阐述,介绍了如何稳定支撑 20+ 线上搜索业务场景,做到了快速发现恢复线上问题,高效提前预知规避风险案例 50+,极大程度提升了搜索服务的用户体验,保障了闲鱼搜索全年无故障。

经过上述治理方案后,闲鱼搜索系统稳定性得到了极大的保障,同时我们也会继续深耕,在搜索能力的高可用、更易用上更进一步,让上游业务更加顺滑。

希望给各位读者带来一些思考和启发。

参考资料:

Ha3: https://yq.aliyun.com/articles/585400

ODPS:https://www.aliyun.com/product/odps/Sentinel:https://github.com/alibaba/Sentinel

注解:

① BuildService:为 Ha3 提供全量、增量、实时索引 build 服务的系统。

② DUMP: 我们把索引数据的生成过程称作离线 DUMP。搜索引擎的全量 / 增量索引是通过 BuildService 系统生成的,然后分发给在线部分的 Searcher。

③ Swift: Swift 是一个高效可靠的计算与存储分离的消息系统。

④ Searcher: Searcher 是搜索引擎查询的执行者,倒排索引召回、统计、条件过滤、文档打分及排序及摘要生成的过程都是在 Searcher 上完成的。根据业务的需要,有时也会把摘要 (Summary) 单独分出来,搭建一套独立的摘要集群。

⑤ SP: Search Planner,是一个统一的搜索服务接口。它的职责是根据用户指定的查询条件(关键词、类目等),得到 Query Plan 的结果,制定查询计划,查询搜索的各大系统,直接得到最终结果返回给上游业务。

⑥ QP: Query Planner,是用来预测用户 query 的搜索意图的查询服务。它的职责是通过预测用户 query 的搜索意图和收集相关信息来决定去哪个数据集合 (引擎) 检索数据、检索什么样的数据、对检索的数据辅助排序。

⑦ QueryService: QueryService 是搜索在线查询部分,在其系统内部,包含 Qrs 和 Searcher 两种基本的角色。

⑧ Qrs: Query result searcher,是用于接收用户查询,将用户查询分发给 Searcher,收集 Searcher 返回的结果作整合,最终返回给上游业务。

⑨ ODPS: Open Data Processing Service,开放数据处理服务;ODPS 是阿里巴巴自主研发的分布式海量数据处理平台,提供了丰富的数据处理功能和灵活的编程框架。主要服务于批量结构化数据的存储和计算,可以提供海量数据仓库的解决方案以及针对大数据的分析建模服务。本文中的 ODPS 特指其中存储的离线表数据。

各互联网公司的一线专家也在不断提升运维能力,从被动救火式运维向主动精细化运维实践、基于机器学习的智能运维实践、基于 Kubernetes 的自动化运维实践、全链路日志监控实践等方面转换。QCon 北京 2019 可能会有适合你业务的方案:

云原生架构下的混沌工程实践

Uber 核心派单系统及其集群管理演化

Kubernetes 日志平台建设最佳实践

美团机房大规模容灾演练实践

点击 「 阅读原文 」或识别二维码查看大会日程,现在购票即享 9 折限时折扣,立减 880 元,团购还有更多优惠!有任何问题欢迎联系票务小姐姐 Ring:电话 / 微信:17310043226

数据 联想乐商店2016搜索大数据 移动App用户行为大揭秘

日前,联想发布2016搜索大数据。数据显示,搜索用户遍布大江南北,广浙用户占比较高。从用户属性来看,以充满朝气的10-18岁的学生群体为主,同时带来的搜索特征是“夜猫子”属性明显,搜索高峰期出现在凌晨和周末。在搜索喜好方面数据显示用户喜欢追热点,玩游戏。在游戏方面偏好益智休闲,射击竞速和养成类游戏。此外,报告还评选出小美应用榜、人气应用榜和人气游戏榜等年度App搜索榜单,用户最爱搜索哪些应用,一览无余。

具体数据如下:

声明: 本文采用 协议进行授权 转载请注明来源: 本文链接地址:

什么是微信公众号的搜索机制

一、微信公众号搜索排名机制:

1、微信认证服务号>微信认证订阅号>微博认证号(认证接口基本关闭)>已认证公司但未认证名字的公众号>未认证公众号

2、搜索关键词在微信公众号名称中的位置。比如:微信营销>张三微信营销

3、微信公众号的受欢迎程度

二、影响公众号排名的因素:

1、互动量。关注后强烈引导用户互动。用户首次关注后自动回复,设置好导航,回复什么关键词可以得到什么东西。

2、掉粉会降低排名

3、微信公众号简介中最好包含关键词

4、订阅号和服务号分开。占据两个排名。可适当分别设置不同关键词。订阅号内容亦可推荐服务号。

5、日常宣传活动中多推广二维码或者微信账号(不是微信名称),微信认证是年审,万一下一年你没法通过认证,你之前推广的名字排名第一的可能就不是你的了。那就为他人作嫁衣裳啦。

6、重视weixin.sogou.com 这个订阅号搜索引擎。可以做适当优化,增加关注。由于订阅号内容的相对封闭和原创性,未来可能有更多的网站来转载这里面的内容。做好优化和内容里面的账号展示也值得重视。

中国搜索助力河南中小企业发展高峰论坛在郑举行

中新网郑州1月13日电 12日下午,中国搜索助力河南中小企业发展高峰论坛在郑州市举行。来自河南省各地市近百家中小企业的企业家代表到场参加,详细了解了中国搜索的核心产品及优势,多家企业现场与中国搜索河南运营中心达成合作意向,希望借助国家级平台中国搜索来推广自己的企业及产品,进行品牌宣传。

中国搜索是由中央七大新闻单位——人民日报、新华社、中央电视台、光明日报、经济日报、中国日报、中国新闻社联手打造的国家级搜索引擎,强大的跨媒体、融媒体、新媒体传播载体,权威的互联网百科、数据、资料库,丰富多彩的互联网+创新应用平台。中国搜索拥有国务院网信办授予的新闻信息“采集、发布”资质,是国务院网信办批准的“可供网站转载新闻”的中央新闻网站。

论坛现场,品牌顾问从中国搜索的成立背景、十大优势、核心产品、营销价值等多个方面对中国搜索进行了全方位、立体化的介绍。据了解,中国搜索自2014年3月上线以来,依靠权威的品牌、过硬的品质、丰富的内容、贴近的服务、先进的技术、良好的用户体验、博采众长的优化创新和优势互补的合作,日均访问量大幅提升,受众已覆盖到全国各地及全球190多个国家和地区,在全球网站中的综合排名不断提高,现已进入中国互联网站前100强之列。

中国搜索目前可以为海内外客户提供7×24小时“国搜直达号”、搜索热词、新闻百科、地图标注、网址导航、报刊索引、团购比对优选等搜索应用服务、诚信认证服务、品牌推广服务、舆情监测服务、第三方电商服务以及党政机关、企事业单位、社团组织和地方城市大数据、云计算、云存储等技术开发和运维保障服务。

对于中国搜索的品牌及产品,本次论坛的与会人员给予了高度的认可,表示“权威、公正、绿色”的搜索体验正是互联网信息纷繁复杂的当下,广大网友所需要的。在对中国搜索有了一个全面的认知后,多家企业表示希望借助这样一个国家级平台,对自己的企业和产品进行互联网推广,将最真实的企业和产品信息提供给用户,杜绝虚假信息和假冒伪劣产品损害顾客的利益和扰乱市场秩序。

中国搜索河南运营中心负责人表示,2017年将投入更多的精力,以更先进的技术、更优质的服务、更高质的媒体融合传播,来帮助河南省的中小企业发展、壮大。在服务企业的同时,也将承担更多的社会责任,给广大网友提供“权威、公正、绿色”的互联网体验。(胡增才)