法律大数据 法律人在大数据时代 需要掌握的三种搜索方式

智商、情商,已经是当今社会中耳熟能详的词,大家也都会比较在意自身的智商、情商到底高不高,毕竟“二商”的高低往往决定了自己人生的高度、宽度及深度。

但大家都没有注意到的,也是刚出现不久的另一“商”——“搜商“,甚至不少人听都没听说过。

那么,搜商到底是个啥东西呢?

答案就是:

搜商,是一种搜索智力,是一种与智商、情商相并列的人类能力,是人类通过某种手段获取新知识的能力。

它强调的是你所获得的知识与所花费时间的比值,是智商和情商悬而未决的遗留问题—效率问题。

搜商和一个人运用搜索引擎的熟练程度、对不同搜索引擎的特点了解程度以及自身掌握知识面的广度都有莫大的关系。

其实,搜商有三个核心:

1、搜索意识;

2、搜索渠道;

3、搜索技术。

搜索意识,是指在这个万物互联的时代,我们必须要有一个坚定的信念——万物皆有路径可达。只要我们清楚的知道自己想要什么,就必然有办法或途径能够找得到。

搜索渠道,就是要清晰的知道去“哪里”才能找到最合适的“信息”和“人”,简单说,也就是网站、数据库、APP等信息载体。

搜索技术,就是搜索语言,那是一个完全不同于我们人类的语言模式。

我们今天先就搜索渠道的问题,做个简单的介绍,希望能够对提高我们法律人的搜商有那么一点点帮助。

一、搜索引擎

1、百度搜索

优点:百度是目前世界上最大的中文报纸资源库;其全部是免费的,操作起来相对简单方便,不用像谷歌一样,还要学会翻墙技术或科学上网;百度的高级搜索功能定位相对来说较为准确。

另外,大数据是靠深度学习的结果,而人工智能是需要大量数据来喂养的怪兽,百度作为最大的中文报纸信息库,其中国的用户更多,必然也更适合中国人。

缺点:百度信息库里广告太多,加上百度竞价排名的运作模式,导致我们搜索到的信息不一定是我们想要的,如果不懂搜索技术的话,那搜索起来就会更加困难无比。

2、谷歌搜索

优点:广告少;信息更准确,干扰项较少;搜索更快;算法更先进,中英文翻译耗时几乎可以忽略不计。

缺点:需要付费才能使用,且还要学习翻墙上网的技术,相对来说不太方便;由于用起来不方便,国人用户相对也就较少,那么其对中国的适应性自然会差那么一点点。

3、必应搜索

优点:属于微软的产品,为了与谷歌、百度竞争,广告相对也不多;信息准确度和搜索速度,不如谷歌,和百度相差无几。

缺点:中国人一般还不是很习惯用必应搜索,有那么点水土不服的意思。

总结语:

建议每个都试用一下,找出那个更喜欢的,就以它为主,其他的作为备选项。个人认为只需要找到一个,将它用到极致就足矣,无需面面俱到。

二、法律数据库

1、聚法案例库

优点:免费(高级会员,需要付费);可视化程度高;聚法导航,法律人需要的信息库基本都可以一览无余;高级搜索功能比较强大;案例数据仅次于无讼案例库;有在搜索结果里再次搜索的功能;可以定位搜索当事人、诉讼请求、争议焦点、审理查明、法院认为、裁判结果等。

缺点:综合搜索时,难以定位确切时间段;裁判文书性质,缺乏更细致的划分。

2、无诉案例库

优点:免费使用,人人都用得起;具备可视化功能;目前案例数据信息最多,有4200多万条;法规相对权威,会清楚标注法规是否有效;显示界面较为人性化;也是法律人的一个广告平台,可以在无讼名片上编辑个性化信息,可以在无讼阅读发表专业性文章,以达到宣传的目的。

缺点:可视化方面稍有欠缺,不如聚法案例库。

3、威科先行网

优点:高级搜索功能强大;可进行时间定位;定位时,可选择需要排除的选项;法规特别权威。

缺点:费用比较高;无法可视化;定位搜索的功能相对不太强。

4、裁判文书网

优点:免费,国有平台;权威,法官亲自上传;法官更为信任(提交合议庭时,最好来源于此)。

缺点:案例相对较少,紧靠法官上传,毕竟人少力量小;界面呆板,反应速度太慢;高级搜索功能不太好用。

总结语:

不差钱的,可以选择威客、聚法高级为主,用裁判文书网进行鉴定案例真假;

不想花钱,就选择聚法查看案例,无讼查法条,用裁判文书网进行核查。

不过,最好每一个都试试,看看到底哪个更适合你自己,毕竟适合的才是最好的。

三、另类搜索源

1、微信搜索

优点:消息最新,新闻第一时间都在微信上;信息最全,为了吸引流量,微信公众号作者会将信息补充的齐全,甚至会把某个问题分门别类的整理到极致。

缺点:信息的权威性存在一定问题,公众号作者一不小心可能会把一些道听途说的资料放出来,导致阅读者以讹传讹,所以,最好和权威的案例法规数据库进行对照核实。

2、知乎搜索

知乎上的作者专业性相对较强,但是由于知乎的用户不如微信多,其数据相对也就较少。

3、博客搜索

博客的人气,早已今非昔比,其用户急剧下降,导致其数据信息更新速度也会变慢,最多只能作为搜索的辅助工具。

总结语:

把微信搜索用到极致,你就有可能将其他甩开一大截。

从百度移动搜索建站优化白皮书中总结了几个重点

在百度惊雷算法推出以后,百度马上就出了一个叫做移动搜索建站优化白皮书,那么这个移动搜索建站优化白皮书中说到的比较详细,对于很多新手优化的人来讲,看不到重点,那么今天我也分析了一下这个白皮书,把重点捡起来告诉大家!

白皮书:《百度移动搜索建站优化白皮书》

那么在前言上,就告诉大家一个建站到优化的标准,先购买域名和空间,然后在选择程序建站,维护内容,最后上线处理网站问题,这是一个比较正规的建站到优化的流程,很多人看起来视乎和自己做的一样,那么这里有个细节,我要给大家提醒一下了。

咱们先注册域名和主机,其次在本地建站测试并且填充部分内容后再上线,大多数的站点都是先解析域名上传到服务器,一边修改网站,一边提交到搜索引擎,这是不正确的做法,虽然不会导致K站,但是会延长网站收录时间。

域名的选择

不建议选择难得见到的域名,比如说:.top、.win、.co、.bid等域名,当然这个只是拿这些域名做比喻,其实这类域名还是非常多的,为何不建议使用这种域名呢,因为这种域名大多数不需要实名制,所以大多数做非法行业的都是用这类域名,而搜索引擎对这类域名是本身是排斥的,所以如果你用这类域名会延长索引和收录。

那么另外一个域名的选择是,大家做移动站点尽可能使用类似m.ssffx.com的域名做为移动站点域名,尽量不要使用一个域名多个模板(除响应式站点外),同时也不要使用类似www.ssffx.com/m/的目录作为移动站点。

如果说你的站点是新闻或者媒体的话,可以开多个子域名,甚至所泛解析都可以,但如果是个人博客的话,不建议一个目录使用二级域名或者三级域名来操作,这样操作的话不但栏目不清晰,而博客更新频率相对较少,而一个三级域名算一个站点了,所以三级域名下的内容更新就更少了,相对而言没法办集中权重。

服务器选择

在服务器选择上我个人感觉经验比较丰富,最便宜用过9.8元的服务器,最贵的用过7000多一年的服务器,一个博客能够折腾这样不容易了。那么主机的安全性咱就不多说了,除了安全性,还有以下几个方面需要注意。

1、不建议使用国外的服务器,当然除非你做英文网站。

2、不建议使用虚拟空间,建议购买云服务器,因为虚拟主机大多数都是共享IP的。

3、主机是否设置禁止搜索引擎爬取,是否设置有404错误页面,是否设置有301转向等。

程序及系统

咱们在选择程序的时候尽可能选择比较安全的一些程序,其实大多数网站被K不是因为算法,而是因为站点出现安全故障所致,搜索引擎本身就不会无缘无故K站。那么除了安全意外,程序发布文章也有几个细节需要注意。

1、文章发布的时间与真实时间一样,比如今天早上出现的新闻,你发布时间为昨天,搜索引擎会误判断,这属于黑帽SEO了。另外发布的时间最好精确到秒,就像本文的发布时间一样。

2、Tag不要太多了,很多网站为了给自己站点增加关键词,大量堆砌tag,这是作弊现象了。

3、分类明确,栏目下对于的文章应该发布到相对应的栏目去。

4、文章不应该挂羊头卖狗肉,其实站群都是这么做的,明显的作弊。

以上四点是咱们发布文章的时候需要注意的,那么在程序方面还有几个细节也值得大家去注意的。

1、模板不应该经常更换,模板可以跟着情况换,但不要随意更换,我为何从老主题换到新主题,最主要的原因是,现在的显示器越拉越大了,老模板满足不了。

2、不建议使用过多的插件,不但站内的插件不建议使用太多,站外的也不建议使用太多,比如说:打赏、分享、留言、点赞等,而实际上一篇文章又几个人打赏了?有必要装这样的插件来影响网站打开速度吗?

3、URL伪静态层级关系要清晰,命名要规范,比如说本站的URL是纯静态的,可以看得出,每一篇文章从URL中就可以看到上级目录是什么,并且可以从URL直接打开上级栏目。这种属于比较清晰的URL了。

网站结构

网站结构是网站优化的重点,也是咱们在做网站中的用户体验的一个重点,一个网站是否能够深受用户的青睐,就看网站结构和内容了。那么这次白皮书上关于这一点也写的非常详细。

1、URL尽量不要出现生僻字符,比如说“II”这类字符,尽量不要在URL上出现。

2、URL不要设置太长,最好不要超过256个字节,看到很多网站文章页面用标题的拼音做URL,这就是严重的错误。

3、最好不要使用#号,如果说#号后面有有效参数,那么搜索引擎可能就抓取不到这个页面了。

4、不要出现孤岛链接,什么是孤岛链接了,也就是说这个链接没有栏目关系,单独的一个链接,而这个页面你又想让他排名,其实这是非常苦难的,不建议单独做个链接或者多个链接,如果确实出现了,需要手动提交到搜索引擎上。

5、重要的内容不要放到有深度的栏目下,比如说很多站点栏目下建立栏目,从而又建立栏目,最后把重要的内容放到最深层的栏目中,其实这是不推荐的。

网站安全优化

这是重点中的重点,网站不安全说什么都没用,很多网站就是因为网站不安全导致网站运营不下去的,包括我的博客也差点因为安全问题毁于一旦!

1、HTTS加密,现在搜索引擎能够完全的掌握和识别htts的协议了,所以有条件的最好是使用这样的一个协议。不懂的可以花几十块钱淘宝找人申请。

2、经常查询网站是否被黑,比如通过索引、流量等异常数据来查询网站是否被黑,同时还可以site自己的网站来查询自己站点是否有收录异常内容。

3、如果网站出现被黑现象,SEO技术人员需要清楚异常内容,并好做404,同时将死链接提交到搜索引擎,并且排查被黑的可能性,将漏洞堵住。

4、网站程序使用最安全版本的程序或者使用最新版的程序,以免站点出现漏洞,所以网站程序及时更新也是个重要的话题。

5、不要使用开源的robots文件,比如说织梦的robots文件大家一看就知道这是织梦的系统,从而黑客也就容易找到织梦的漏洞黑下你的站点。

6、使用cnd网络服务,不仅可以提高网站打开速度,还可以为你网站保驾护航,大多数的情况,我站点收到CC攻击的时候,我第一时间会打开CDN拦截这类IP。

网站优化

网站优化就是核心问题了,也就是我们的日常维护了,看起来只是每天更新一下,而实际上这就是关系到排名上的问题了。

1、网站更新的频率,并不是说越多越好,更多的是质量。

2、内链是推荐大家在文章中增加的,但是一定要做高质量的内链,也就是相关性一定要比较强。如果内容中出现外链,建议使用nofollow标签。

3、网站优化的基础越好,越容易被抓取收录,所以需要长时间更新高质量的内容。

4、在白皮书上可以看到百度的UA,主要可以查看到对于的百度PC版的UA和移动版的UA,可以直接用来判断百度蜘蛛。

5、提交链接分为主动提交、手动提交、sitemap提交,如果量大可以用主动推送和sitemap提交,像我这种博客类型,一天一篇,那就自动和手动都无所谓了。

6、访问速度也是一个重点,网站的JS合并和CSS压缩,利用通用的资源,充分利用浏览器缓存,JS放入页面末尾,对图片、视频指定高度宽度,使用CDN将用户的请求定向到最合适的缓存服务器上。

7、robots文件不要使用中文字符,如果有中文字符的URL需要屏蔽,那么使用UrlEncode编码,很多工具可以转化URL编码的。

8、比如404、403、503等状态的死链接,取消对其链接,并且提交到搜索引擎

9、标题上的优化主要有这几项是不被允许的:文不对题、大量堆砌关键词、标题在不同关键词下变化、

10、禁止使用js生成的内容,因为目前很多JS搜索引擎是无法识别的,所以不要在主体内容中使用JS来调用。

11、网站页面不要超过128K,内容太多搜索引擎无法抓取,另外主体内容最好放在前方,所以一般相关链接都放在底部,或者网站的右侧,代码的底部。

12、内容最好不要出现空短内容,比如说很多论坛,一篇帖子没有登陆无法查看,而搜索引擎抓取不会登陆,所以这类内容最好使用robots屏蔽。

13、网站设置的canonical标签标签,一个页面不要设置两个canonical标签,canonical标签主要是解决页面重复度的问题写法如下。

14、做具有价值的内容,首先是原创内容,并且没有歪曲、篡改、抄袭别人的作品,并且内容符合站点定位,同时在文章的地步出现来源:xxxx(本站站点名)”或“本站原创等字样。比如本文底部。

15、外链建设的相关性至关重要,现在的外链主要针对品牌,其次是针对链接来源,不建议乱推荐外链或者交换友情链接。所以本站早早的友情链接撤销了。

总结:百度白皮书固然很详细,但细节我都挑选在这里了,剩下的是百度站长平台工具的使用和问题的解答,这里就不细说了,从建站开始,大家都一直在使用百度站长平台的工具,相信大家都会使用!

本文由好推建站提供:网站建设 www.haotui.com.cn

周涛 海量数据信息搜索平台 数据淘 让数据流通

文|刘金玲

周涛是一直我最想要专访的人物,于我们36大数据而言,我们做大数据领域领军人物的专访,如果专访不到周涛,那我们的专访就是不完整的。

在整个中国大数据产业生态链中,周涛是无可取代的人物。如果我们把Viktor Mayer-Schönberger维克托-迈尔-舍恩伯格称为北美“大数据教父”的话,那么中国“大数据教父”的称号非周涛莫属。周涛身上有太多值得可圈可点的事,比如:

A、中国最年轻的教授,年仅27岁就被电子科技大学聘为教授;

B、中国最年轻的博导;

C、中央电视台2015年度科技创新人物;同时获得此项殊荣的还有2015诺贝尔奖生理学(或医学)奖的屠呦呦;

D、维克托-迈尔-舍恩伯格书籍《大数据时代》的译者;

…………等等。

这是大家印象里熟悉的周涛。有媒体人士2010年曾经这样写过周涛,他是这样描述周涛的:

他1岁多就会下象棋,3岁便会玩麻将,很小就被人叫做神童;6岁便学完小学数学课程;17岁考入中国科技大学,在大学期间自学完成研究生所有课程后被保送读博士。2010年,年仅27岁的他被电子科技大学聘为教授,被称为中国最年轻的教授。迄今为止,他已经在《美国科学院院刊》、《美国物理评论》和《欧洲物理快报》等世界一流学术刊物上发表论文50余篇。

如果一定要问我,我印象里周涛是个什么样的人?我会告诉你,他是个非常有才、务实、谦逊、随和的人,很瘦但也很精神,双目炯炯有神,似乎能够看透一切。我们互相加了微信后,偶尔也会在微信聊上几句,他幽默风趣的谈吐让人很舒服。他的朋友圈偶尔会发一些生活琐碎的事,微信头像是一只猫,完全没有学院派的严肃,倒更像是一个痴迷于大数据技术的大孩子。

其实,你也许不知道,周涛目前已经拥有3家大数据公司,他是BBD(数联铭品)的首席科学家,是数之联科技的CEO,还是成都卧龙大数据的创始人。卧龙大数据(成都知数科技有限公司)成立于2014年6月,公司立足于互联网大数据以及大数据分析挖掘技术,为企业提供技术解决方案以及智能决策支撑。该公司目前已成为国内最大的第三方用户画像公司。

今天,针对卧龙大数据的发展以及中国大数据产业链的情况,我们与周涛进行了连线,下面是专访内容。

36大数据:如今“大数据”对于我们普通民众来说并不陌生,经常有人谈论,但众多说法不一,周涛教授能不能给我们大致介绍一下大数据呢?

周涛大数据不是数据量的简单刻画,也不是特定算法、技术或商业模式上的发展,而是从数据量、数据形态和数据分析处理方式,到理念和形态上重大变革的总和。所以我们提出大数据是基于多源异构、跨域关联的海量数据分析所产生的决策流程、商业模式、科学范式、生活方式和观念形态上的颠覆性变化的总和。

在大数据时代有三个明显的趋势:

第一个趋势是数据总量爆炸性的增长。我们现在每天产生的数据量相当于公元元年至大约一千年全人类产生的数据总量,而且这个量还在以指数级规律不断增长。所以大数据时代第一个重大的矛盾,就是日益增长的数据总量和我们普通人分辨甄别数据能力之间的矛盾,我们把它形象地叫做数据过载。

第二大趋势是数据的形态发生了巨大的变化。以前我们接触的绝大多数数据是结构化的数据,说白了就是一张张的二维表格,简单易分析。但是现在新增的数据更多的变成了非结构化的数据,比如语音、图像、视频、社交关系网络、空间移动轨迹等等。这些数据量非常大,里面藏着巨大的价值。但和结构化的数据不一样,我们没有一种普适的办法去挖掘这个价值,这就带来了我们大数据时代的第二个大的挑战——如何挖掘非结构化数据中的价值,甚至把它转化为结构化的数据。

第三就是数据的关联形态发生了变化。以前我们也有很多数据,比如说新浪微博的数据,腾讯QQ的数据,线下公安局的犯罪记录数据。这些数据在不同的部门价值都非常大,但是数据和数据之间并不沟通,类似于信息的孤岛。所以我们没有办法知道在微博上的那个人就是在淘宝上买东西的那个人,也就是在医院看病的那个人。但现在不一样,我们通过一些商业模式、技术手段、资本、产品等等办法,可以打通不同领域的数据,能够将不同平台不同维度的数据通过同一个人、同一家企业、同一部手机、同一个位置关联起来。所以,怎么样在安全、隐私可控的情况下,使这些跨领域关联的数据产生1+1远大于2的价值,是大数据时代的又一大挑战。

36大数据:我们知道周涛教授不单是大数据科研领域的先锋,也是将大数据结合商业实践的创业典范,最近听说您在成都创立了一家名为卧龙大数据的公司,大概是一家什么样的企业呢?

周涛:卧龙大数据是一家年轻的公司。说它年轻主要不是说成立时间短,更多的是指我们的团队年轻。我们的团队大部分由90后组成,平均年龄不超过25岁,但他们却有着最前沿的创意想法和令人瞠目的计算机技术能力。

针对我刚才说的三大挑战,卧龙大数据在做对应的三方面基础工作:

一是对海量数据的大规模采集、存储、分析、处理,目前我们的数据采集存量已经超过PB级别,这相当于国家图书馆25倍的信息量,同时每天还在以TB的量级在更新。这些数据包含了新闻、社交、电商、招聘、企业、旅游等方方面面。

二是在进行非结构化数据的结构化处理。例如:我们可以实现用计算机对连续文本进行语义理解,根据语义内容再将数据内容转化为结构化数据进行数据分析预测。譬如淘宝的商品信息数据就是非结构化的,商品颜色、规格、风格、包装等诸多信息杂乱且不规则的表达在商品标题和商品描述中,我们能用计算机将之一一识别并按照结构化数据的特点填放到“表格”中,这样就可以使商品数据的分析变得十分简单。

三是在做数据的跨域关联。我们通过把不同维度的数据进行跨域关联来综合描绘一个目标体,这个目标体可以是人、商品、品牌、商铺等等。比如我们以前从单一信息维度来描述我们的用户,只能标注这个用户的性别、年龄等基本信息,现在通过关联微博等社交数据后我们则可以知道用户的爱好和社交圈关系,关联电商数据后我们则可以知道用户的行为偏好和消费习惯,甚至关联招聘数据以了解用户的工作情况,关联POI地理定位数据了解用户的生活工作地点……当然这些数据都是经过脱敏处理的,让用户画像在为人们提供更便捷、更贴心、更个性化服务的同时,做好个人的隐私保护。

36大数据:卧龙大数据目前有具体的产品吗,有什么特点呢?

周涛:卧龙大数据目前的产品有两项:一是“数字画像“系列,二是“数据淘”。

数字画像是依托于我们刚才说的跨域关联技术推出的产品。在个人画像和企业画像方面,我们已经向国内知名的银行、征信机构、信贷公司等提供服务,帮助他们丰富目标客户的数据维度,使其在征信判定上成本更低,效果更准确。在商品画像方面,我们与国内外多个跨境电商机构合作,帮助跨境电商企业选择国内外不同地区里评价最优、销量最好、利润最高的跨境贸易商品。在品牌画像方面,我们依托海量数据储备和实时采集,将“品牌”这类人们能够普遍感知但无法定量计算的概念具象化为数值,为不同行业的品牌商提供从品牌覆盖度、舆论热度、美誉度、忠诚度,到市场表现、科技力、涉诉情况、资本表现、用户细分、商品优缺点等维度的定量化数据展示,帮助品牌商利用大数据在精细化生产、个性化营销、实时化品牌保护等方面提供决策支撑。

数据淘是卧龙大数据搭建的一个数据垂直搜索平台,它与目前已有的数据交易平台是有本质区别的。该平台的核心不在“交易”,而在“搜索”。它将会整合线上线下海量数据信息,打造成为数据行业的“百度”“谷歌”,帮助数据需求方快速找到数据拥有方,成为连接数据需求者、数据供给者以及各类第三方数据交易平台的搜索入口。该平台将承诺免费为数据供需双方搭建联系桥梁,使数据流通更加透明、更加低成本。一切机构、企业、个人以及第三方数据交易平台都可以通过数据淘展示数据,亦可以通过数据淘发布数据需求,使存在于不同领域的数据能够更好地无障碍流动,繁荣数据市场。

36大数据:请问周涛教授,能不能和我们分享下在这个越来越快速的时代,我们需要学习哪些知识才能够紧跟大数据时代的步伐呢?

周涛:首先要说明的是“大数据”不等于“计算机”,它不是一个简单直接的技术问题,更多的是一个理念和方法论的问题,它是一项综合的能力。在大数据时代,并不是说每个人都要重新学JAVA、C、Python语言,而是要懂新时代的管理理念是什么,要懂商业机会在哪儿,要跟着这个浪潮往前走。具体来说,我有下面三个大的建议:

第一个是统计理论的掌握,因为学了统计学的人判断事情比较严谨,比较客观,比较理性,明白什么是普遍,什么是偶然。但是我这里讲的统计理论还不是指某种具体的统计工具和统计思路,而是重点强调的“统计观”,就是我们能区分关联和因果,能看得出一个统计结果是不是显著的,有多么的显著等等。是要做正确的统计,而不是错误的统计。

第二个是机器学习,因为这是代表了绝大部分大数据问题的方法论。我们能够做分类预测,并且将来能够做大规模的无与有监督的学习,这里面可能涵盖了绝大部分以后大数据方向的创新性应用。并且,机器学习这个问题本身,哪怕你就是不懂怎么编程,你也一定要有这个概念。

第三就是要打开视野,要持续多读书,养成定期定量阅读的习惯,即时无法完全掌握,看完那么多书也好。所以除了自己的专业领域,在其他方面的学科,比如说数学、物理、计算机、心理学、生物、社会学、经济学、国学、历史学等等方面的书籍也都应该去涉猎。这些本科的教材至少要读完,这样才能有一个开阔的视野。

————————————

访问完成后,我不知道写一个怎么样的结尾比较合适。因为我对周涛引人入胜的介绍深深吸引了。周涛给我介绍的不止是卧龙大数据公司的情况,更是一副描绘大数据未来的蓝图。透过周涛的介绍,我们不止看到了一个跨时代的变革,更看到了智能化的未来。

用户画像是目前银行、征信机构、信贷公司的技术短板和刚缺,卧龙大数据的“数字画像”产品刚好满足了这个刚需。中国银行、百融金服都是他们的合作伙伴。

再说“数据淘”这款产品,这是一款海量数据源的搜索平台。数据淘的出现,将改变中国大数据产业链上数据源获取困难的情况,同时也给那些拥有数据源的公司带来更多的增值机会。在为行业打通数据孤岛、实现数据流通的同时,也从侧面积极的推动了中国大数据的全面发展,意义非常重大。

6月6日,36大数据中国行系列活动将走进成都。届时,我们不止会请到周涛到现场与大家进行分享,还会第一时间为大家报道关于卧龙大数据旗下两款产品的评测使用报告,尽请期待。

如果你对卧龙大数据产品有什么看法?或者有什么问题想问我们的“大数据教父”周涛,欢迎评论来告诉我们。

文章来源36大数据,微信公众号(dashuju36),36大数据是一个专注大数据创业、大数据技术与分析、大数据商业与应用的网站。分享大数据的干货教程和大数据应用案例,提供大数据分析工具和资料下载,解决大数据产业链上的创业、技术、分析、商业、应用等问题。www.36dsj.com

End.

生态的野心:微信探路移动搜索

本报记者 倪雨晴 特约撰稿人 冀成才 广州、北京报道

4月24日,微信在内部宣布成立搜索应用部,具体负责四大方向,包括搜索业务、阅读推荐业务、AI技术研究及落地、微信数据平台建设和数据能力的应用。

作为坐拥8亿多用户、包含各类信息的超级APP,微信进入搜索领域并不令人意外。事实上,腾讯早就想在搜索领域立足,结合微信制定搜索战略也是顺势而为。

微信方面向21世纪经济报道记者表示,因业务发展需要,微信事业群内部架构作了一些调整,包括在原有的组织人员基础上成立“搜索应用部”。

从发布微信搜索指数,到小程序的能力开放,直到搜索部门成立,微信步步为营。北京一家互联网公司创业者陈雷称:“尽管现在这些信息的入口都比较深,但是这个趋势不可小视。微信掌握了用户的所有个人数据,通过大数据它已经知道了每一个用户的偏好。所以当微信做搜索的时候,可以更精准的推荐。微信之所以现在把入口隐藏的这么深,打通体系内外的信息之后还这么低调,我认为微信在准备一场‘战争’。在没有必胜的可能性之前,微信是不会贸然开战的。”

搜索与社交生态

众所周知,微信的基因在于社交。如今正式进军搜索,微信要做的是社交搜索,而不是传统意义上的搜索。

以前段时间发布的微信指数为例,其特点并不是搜索本身,而是搜索后的社交行为。当用户将微信指数搜索页面进行分享,并乐于分享时,微信指数产品便以极低的成本完成了传播。值得一提的是,相比于百度指数,微信指数将这门2B生意变成了2C产品。 百度指数主要针对商业数据的统计,微信则针对生活数据,涵盖的范围更广。

推演到搜索的新功能,用户或许还可以看到有哪些朋友和你在搜一样的内容,朋友圈中搜索比例较高的信息是什么。现在微信已经可以搜索朋友圈转发和阅读的热门文章,而微信运动等功能可以和朋友彼此分享数据。所有的功能都是和社交绑定。

在此基础上,微信搜索框内能搜索的内容也在扩容,除了朋友圈、文章、公众号、小说、音乐 、表情外,小程序承载的各类服务也成为搜索对象。

DCCI互联网研究院院长刘兴亮告诉记者:“微信这么做还是为了巩固自身的生态,第一能够为现有业务进行服务,如微信广告、月度等智能推荐,用人工智能的技术应用到现有业务上;第二,之前腾讯将搜索业务交给搜狗,但是现在搜狗江湖地位不如以往,交给自己人做也很合理。”

显然,外界现在已经不能把微信当成一个交流通讯的社交软件了。一位资深互联网产品经理表示,“现在用户可以在不离开微信的情况下,满足各种各样的需求。曾经Google出了一款个人电脑叫chromebook, 整个电脑里面就只有一个软件就是chrome。Google希望用户用搜索引擎和chrome上的插件解决到所有上网的需求。微信就在往这个方向发展。”

搅动市场

在业内看来,移动搜索早已是一片红海,行业目前也趋于稳定。根据Analysys易观发布的《2016年第4季度中国移动搜索市场季度监测》报告显示,在2016年第四季度移动搜索引擎访问次数上,百度以78.1%的占比排名第一。2016年全年来看,百度的份额也高于搜狗、宜搜、360等应用。

微信的搜索业务缺将有别于传统的搜索引擎,其本身就有公众号和各类应用产品,但是如果进一步放开搜索内容范围,允许更多外网信息进入,在客观上会对传统厂商产生一定程度上的竞争,分散原有的搜索入口。

未来的移动搜索将需要让用户更快更顺畅的进入搜索界面,更方便的开始检索。苹果的Siri无论手机在解锁前还是解锁后长按手机都能快速打开搜索界面,直接语音输入搜索需求。根据2017年的第一季度的《美国用户搜索偏好报告》,苹果的siri成为仅次于谷歌之后的第二大搜索引擎

“如果仅仅从搜索量来看,微信搜索可能已经是中国的第二大搜索引擎了。尽管官方数据没有公布,但根据我们的调研,平均每个用户一天要用到4到5次微信搜索,但是都不会打开百度的网页一次。”北京创知网络营销公司的负责人陈琪表示,“微信的在中国网民的渗透率大概是80%,搜索框又在微信首页的顶部,微信搜索量大不是一件稀奇事。所以我们在目前在研究微搜索信公众号和朋友圈的排名推荐方式。”

一位移动搜索业内人士告诉记者:“微信的搜索可能会对整体搜索引擎产生冲击,其一,微信独有内容其他搜索引擎基本无法搜索,腾讯也可能对微信进行内容生产上的支持;其二,从数据可以看到用户大量的时间留在了微信;其三,搜索场景不同,相比百度和搜狗,微信目前阶段的场景更聚焦一些。”

业内巨头百度在移动搜索的业绩还得益于PC浏览器的惯性。除了百度和搜狗、靠自家产品给自己带量的360、背靠阿里的神马搜索等玩家也在各自场景深耕。

此外,一名VC投资经理称:“这个事情受到最大冲击的可能是今日头条。今日头条就是用搜索和AI技术,为用户提供阅读推荐服务。因为用户量大,用户使用时间长,所以今日头条已经估值超过110亿美元。当微信开始深度涉足这块业务之后,今日头条的业务肯定会受到影响。但是如果微信都开始这么认真的对待这块业务了,所有做信息分发的创业公司的估值可能又会上涨了。”

(编辑:黄锴,邮箱:huangk@21jingji.com)

不可思议 Google Adwords搜索量数据居然不完全可靠

起这个标题不是哗众取宠,而是真真实实的事情。

很多人总是非常依赖adwords的搜索数据,殊不知adwords大词的搜索量是有水分的。

其实这件事如果不发生在我身上,我估计还傻傻的一直以adwords的搜索量作为官方最准确的数据来判断。

发生在我身上的真实案例

去年和一个客户做一个对赌项目,原定计划3个月时间把网站从0做到2W的PV/天,所以我们看准了一个两百多万搜索量的词,心想把这个词做到第一后,算他每月有210W的搜索量,每天至少也有6-7W的搜索量吧。

结果把这个词做到美国站第一后,真正带来的流量只有几千每天,结果这个项目最后只做到1W4左右PV每天,时间期限到了之后,没达到要求。

然而不止我一个人被坑过

去年参加的一次清迈SEO大会,发现很多人都在谈论google adwords不准确的情况,也是对某个词期待非常高但是排名做到第一后并没有对应的搜索量进来。

当时Ahrefs的Tim也说了这个事情,说google并没有过滤掉重复搜索部分的数据,如果你搜索这个词3次,他也会算在里面,包括一个新西兰的digital agency的朋友也这么和我说过。

大词的搜索量混淆着各种象形词的流量

这个概念在moz的文章也有讲到,他把类似“Types of lights”,“ Types of lighting”,“ Types of light”等词的搜索量都混合在一起了。

所以,你看到的大词的搜索量,很有可能是这个词的很多变体搜索量以及长尾词所组成的。

Daniel还是奉劝一句,别一味的追求大词!

奇怪的现象 – 被隐藏搜索量的非商业性质关键词

Google Adwords显示没搜索量的有时候搜索量却非常高。Rank

Fishkin也指明了,Google会把隐藏部分关键词建议,因为这些词看起来并不具备商业性质。

之前看了Dan的关于找关键词机会空间的教程,找了一个看起来会有人搜索但是adwords显示搜索量为N/A的关键词, 当文章写完并把关键词排名做到第一名之后,神奇的事情发生了!

通过这个词每天带来了将近400多个自然搜索流量,这个真的是出乎他的意料。

不真实搜索数量的背后

当时和朋友也聊过这个事情,他说google这样做是有阴谋论的,Google Adwords所做的这些也是为了让自己利益最大化。(企业都是利益驱使的,这个不奇怪)

对于隐藏非商业性质词的搜索量,Google肯定是希望adwords广告主更多的投放商业性质的关键词,这样广告主有效果才会继续投放广告,客户如果投了很多非商业性质的关键词,结果没带来询盘,肯定就不会想继续投了。

所以把非商业性质的关键词隐藏掉是符合他们adwords的立场的。

虚高的搜索量,大部分是没有筛选掉重复搜索或者把近义词的搜索量都混合在一起了,具体google这样做的目的不是特别明确。

站在adwords的立场,google这样做并没有什么问题,只是苦了依靠数据来判断搜索量的SEO人。

如果避免选到错误搜索量的关键词?

多维度去思考

如果你在做SEO,不要光盯着搜索量去看,要多维度去思考。比如这个词你认为确实会有人去搜,但确实在adwords没有看到搜索量,我们就要借助其他工具来参考下,或者直接头脑风暴判断这个词是否有人会搜索。

最近和一个做仿牌的朋友在聊,他说他根本就不信adwords的数据,因为某些仿牌的搜索词本来就很高,但是在adwords这些地方写着没有搜索量,一看就知道很假,所以他都是按照自己认为有搜索量的词来做,适当会参照一些其他工具的搜索量。

说到工具,以下有几款工具可以借鉴:

KWfinder – 这款我暂时还没用过,但是海外很多SEO都推荐,所以有兴趣的大家可以研究一下。

Keywordeverywhere – 一款google浏览器插件,可以直接在SERP页面查看关键词搜索量。

Ahrefs– 别以为ahrefs只能查看反向链接哦,那天大会Tim就讲了很多关于他们ahrefs的关键词搜索数据,认为比adwords的更加精准。

Mozexplorer – Rand也推荐了这个(自己产品肯定会推荐下)这个就见仁见智了,我个人觉得搜索数据更新太慢了。

而ahrefs,semrush,ahrefs其实都会调用了adwords的数据,只是有些做了后期处理,用的时候还是需要再加上自己的思考,也没有百分百准确的数据。

不要只盯着一个词,多想想长尾词

有时,真正带来流量的是众多的长尾词而不是一个搜索量非常大的词,如果你围绕着目标关键词的长尾词去覆盖,你的流量绝对是有保障的。

在Moz里面,一位叫Russ Jones发布了一篇“Google Keyword Planner’s Dirty Secrets”,我觉得完美的回答了知乎上面的一个关于“谷歌做了哪些恶”的问题,有兴趣的可以看看。

Daniel预计在2018年3月3、4日在深圳南山区(详细地点2月中旬会通知)举办一场Google SEO(白帽)全天培训班,教大家如何从零开始将网站排名逐步做到首页。

这是Daniel首次开课,我准备把7年积累的SEO实战经验,行业前沿的SEO做法以及可落地的方案一一传授,全部都是实战型的干货哦。

1月30日开始接受报名,学员限定在30人内,满人后停止报名。

前十名报名的,有机会现场培训将网站当站内优化案例来演示,让你更加清楚一个优秀的站内优化网站是如何实现的。

费用及课程表咨询,请加我私人微信 :seomrdaniel

简体中文环境下关闭google安全搜索功能的变通方法

好几次在使用google搜索的时候都遇到没有返回任何结果,提示:“由于开启了Google安全搜索功能,“”已被Google过滤掉。”的情况,知道这可能是敏感词过滤,也没有特别在意,搜不到就不搜了,今天特意查了一下这个情况并找到了绕过这个“google安全搜索功能”的方法,在此记录下来和朋友们分享。

google的网页搜索帮助里面对安全搜索的说明如下:

安全搜索功能有助于防止您的搜索结果中出现成人内容。虽然任何过滤器都无法做到准确无误,但安全搜索过滤器能在最大程度上帮您屏蔽掉这类内容。

进入安全搜索:启用或停用页面链接,里面对启用或停用安全搜索的操作说明如下:

访问搜索设置页面。

在“安全搜索过滤器”部分中执行以下操作:

选中“滤除含露骨内容的搜索结果”旁边的复选框,以启用安全搜索。启用安全搜索后,即可从Google搜索结果页中过滤掉含色情内容的视频和图片,以及可能指向色情内容的搜索结果。

取消选中复选框即可停用安全搜索。停用安全搜索后,系统会在您搜索时提供最相关的搜索结果,并可能会在您搜索色情内容时向您提供相关信息。

点击页面底部的保存按钮。

但是在简体中文的“搜索设置”页面里面并没有找到“安全搜索过滤器”部分的内容。亲爱的,人家是有开关,咱们是默认封死的!

据说自google退出大陆市场,google.cn转入google.com.hk后,大陆访客都默认启用了google的“安全搜索功能”,而且简体中文界面上根本就无法关闭“安全搜索”选项。我看了一下google.com.tw(google台湾),在搜索按钮右侧会看到一个关于安全搜索的下拉菜单,用户可以自由选择,关闭安全搜索后搜索相同的词就不会被过滤,看来这还真是给我们的“特殊待遇”啊!

那么下面就介绍一种变通的方法可以帮助我们关闭这个“安全搜索功能”,让我们偶尔也享受一下别人的“一般待遇”。

1、打开GOOGLE网页搜索简体中文首页,然后将语言选择英文(English)。

这时搜索界面变成英文,在英文界面下搜索刚才被过滤掉的关键字,仍然是返回被过滤了的英文提示,别伤心!好消息来了!虽然在英文界面下仍然被过滤了,但是此时我们看到在搜索按钮右侧出现了一个下拉选项,默认是“SafeSearch on”(安全搜索打开)。

我们可以单击其右侧的小三角,在弹出的下拉选项中选择“off”(关闭)。

这时再搜索先前被过滤掉的关键词就没有问题了。

到此,我们就算绕过了google网页搜索中简体中文环境下无法关闭“安全搜索”的问题,享受到了“一般待遇”。

顺便说一下,在这方面度娘倒是挺开放的(也许是胆大或者技术能力做不到吧),有图为证。

关于度娘,您还可以看看。

微信做搜索 未来是 微信网 还是 万维网

看到微信要做搜索的新闻其实并不惊讶,毕竟近几个月来微信一直「小动作」不断,3月份微信指数推出之后,广告主在微信平台投放广告时就会问「你们有没有基于微信热词的广告报价啊」,似乎预示着一些零碎的出招结束之后,微信还是会踏入移动搜索领域。

动作很快,4月24日,搜狗发布公布2017年Q1财报的同一天,腾讯的微信事业群内部架构作了一些调整,微信事业群下成立搜索应用部。负责微信的搜索业务、阅读推荐业务、AI技术研究及落地、微信数据平台建设和数据能力的应用。

腾讯内部的一封邮件对大家很关注的「搜索应用部」进行了解释,其中包括四个产品中心:

1、搜索产品中心,在充分运用微信数据能力的基础上,打造微信搜索服务及精准阅读推荐服务,由基础产品部下搜索产品中心整体平移而来。

2、广告用户技术中心,为微信广告业务建设完备的用户体验评价系统及对比试验系统,负责小程序及搜索、搜索生态的建设工作,由基础产品部下广告用户技术中心整体平移而来。

3、模式识别中心,负责语音识别、图像处理、对话机器人及自然语言处理等方向的技术研究及落地等工作,由技术架构下模式识别中心整体平移而来。

4、数据中心,负责微信数据平台的建设,为各相关业务提供用户画像及数据分析、数据挖掘能力的支持,由技术架构部下数据中心整体平移而来。

看到上面四块内容,有人说,此次架构调整标志着微信将搜索框正式上升至战略高度,而微信在移动搜索领域的野心也暴露无疑。

其实关于微信做搜索的消息从未停歇过,本文我们还是回到微信这个产品本身去聊聊布局搜索的一些可能性吧,欢迎大家留言讨论。

一、有节奏的上功能,况且同行也衬托的好

搜索入口统一,用户使用路径短,体验根据用户的需求慢慢增强。

微信在移动端的搜索没有一下子放个什么大招,基本是在根据产品的形态发展来逐步给搜索功能添砖加瓦的。

最初微信只是一个通讯工具的时候,搜索的基本是一些本地内容,比如通讯录好友、聊天记录收藏等。

在今年微信官方公布的一份《2017年微信用户&生态研究报告》里有这样一个数据:

截止到2016年12月,微信及WeChat合并月活跃用户数达8.89亿。

微信的好友规模调查显示,45%的用户微信关系超过200人。

这两个结果对比起来看基本能表明,满足了熟人关系链沟通之后,你的微信里「泛好友」越来越多了,用户关系链稳定之后,对朋友圈内容、公众号文章的消费也快速增长起来,微信在产品上也顺势提供了「朋友圈内容搜索」、「公众号账号、文章搜索」等功能。

微信顶部的一个搜索框是唯一的一个搜索入口,承载着最短的用户使用路径

当微信开拓线下场景,铺设小程序的时候,微信搜索开始支持小程序了。现在的微信搜索入口,还加入了小说、音乐、表情等垂直内容,对于靠吃微信红利的营销类用户来说,今年3月微信推出基于微信大数据的移动端指数“微信指数”,一时间刷爆朋友圈,也让人觉得微信搜索背后隐藏着搜索排名、关键词广告、竞价、广告展示、周边增值服务等巨大的商业价值。

从整个微信搜索的发展过程来看,每当用户因为满足不了需求咬牙切齿骂微信的时候,它总是能给你送上一点不大不小但确实能解决问题的功能,不免让人觉得,微信内部除了「用完即走」,是不是还有「吊你胃口」的产品哲学啊。

相反它的老对手百度在移动端的体验就比较尴尬了,光是「如何关闭手机端百度首页下的推荐?」这一需求,就有60多位知乎网友争相去提供解决方案。一个是用户盼着早点上功能,一个是用户迫不及待帮你砍功能,可以说是高下立判了。

且不说是因为微信占据了我们大部分的手机使用时间,如果微信能逐步提供一个干净的全网搜索结果(事实上2015年微信就对部分用户开放测试了站外搜索功能),作为用户,又有什么理由拒绝呢。

二、搜索即服务,微信手里的好牌越来越多

搜索引擎发展到一定阶段都会去扩展垂直内容、整合垂直资源。百度旗下就有百科、视频、文库、新闻等,视频服务有爱奇艺,O2O外卖服务有百度糯米,电影票有百度票务等等。

除搜索之外,百度在移动端提供的一些服务

搜狗在早期靠着输入法、浏览器和搜狗搜索“三驾马车”的绝杀战略风光无限,今年搜狗的Q1财报公布了,营收方面,第一季度搜狗收入达到人民币11.2亿元,较上年同期增长16%,其中移动搜索收入占比72%。不过,再看看几乎同一时间发布的搜狐2017年Q1财报,以美元计算的话,搜狗的营收则变成了1.62亿美元,同比增长10%,环比下降5%。

除了搜狗搜索,搜狗在移动端提供的一些服务

搜狗援引CTR数据认为,在PC、WAP、APP三端总覆盖人数,以及移动端月活是行业第二,360看到对这个排名想必肯定也不会答应。而且现在搜狗变成腾讯系搜索引擎,说不定未来还得面临来自微信搜索的内部竞争。

再看看微信呢,在腾讯的支撑下,可以说是一个风口上的服务品类都没落下。

共享经济:摩拜单车和滴滴出行

生活服务:美团外卖和大众点评

消费升级:京东优选和美丽说

内容时代:阅文集团、知乎、腾讯新闻、天天日报

微信钱包里的第三方服务未来会越来越多,逐步包揽我们生活里的一切消费需求。

三、订阅号提供信息,小程序提供服务,百度没做成的微信来做

移动端一个搜索入口,用户既能搜索到信息(订阅号提供),也能搜索到服务(小程序提供),这样的一个搜索形态可能是百度在移动端上想做而没做好的。

我们在一文中提到过,移动互联网时代,一个完备的账户体系是不可或缺的资产,阿里的账户体系包含了你所有的金融生活,腾讯的账户体系中包含了你所有的社交关系。而百度呢,因为账号体系的薄弱带来的用户关系链缺失让它在日后的服务交易型业务中有些力不从心。

广告对于搜索引擎来说是一个不可或缺的盈利来源。百度搜索和微信搜索在广告方面代表着两种截然不同的方式,前者靠竞价,损害了用户体验和利益之后成了众矢之的,虽然在今日头条等一众产品的倒逼之下也做了信息流广告,但口碑这东西估计是看不到了。后者一开始就依靠用户的关系链做朋友圈的信息流广告,点赞、转发等用户行为给一些预算充足、体验良好的口碑广告带来了不少机会。

搜索推荐不分家,百度的账号体系薄弱带来的数据建模、用户画像等方面带来的影响也让他在和微信的对峙中处于下风。订阅号的内容通过朋友圈分发,大量的用户交互行为(转发、点赞、评论、打赏)都能成为一个搜索引擎中重要的排序因子。

四、面对日益壮大的微信,传统的互联网搜索引擎应该感到警惕了

这事儿在历史上已经上演过。

谷歌和必应就曾在搜索引擎里加上社交网络的信息来满足用户更多的需求。这里需要的了解的是,Google曾经的网页搜索排名会依靠200多种不同的因素来决定,比如PageRank(网页的权重)、Anchor text(超链接的文本内容)、HTML title (标签内容)等等。

我们可以假设这样一个场景,如果我在朋友圈发表了一条我很满意并且得了很多赞和评论的状态,我在微信公众号里发表了一篇我觉得质量很好的原创文章,那么即便我在微信的网页里有PageRank了,但我仍然希望能有一些SocialRank来增加一些内容的权重。

阅读数、点赞数、评论数、转载数都是很好的排序因子,百度想从网页收集这类信息就比较麻烦,还有一点就是公众号的原创识别,网页搜索做原创识别一直是个不小的难题。想象一下,如果你发布的一条内容它得到了更多的转发和点赞的话,在网页搜索里,你的这条内容将会有一个更大的权重。

「人」这个因素在互联网时代变得越发重要,这也是为什么面对日益壮大的Facebook,Google显得非常的忧伤。在国内其实也是一样的道理,如果我要搜索一些权威资料的话,传统的搜索引擎可能会给出更为准确的答案。但如果我想搜索身边发生的事情,想知道我的朋友们都在看什么玩什么,那么微信就更可能提供给我感兴趣的内容。

搜索2.0时代的PageRank在社交网络时代会演化成何种形态其实也蛮让人期待的。

五、互联网应该是开放的还是一个生态一个生态相互独立的?

互联网时代,封闭和开放是个永恒的命题。

如果未来微信搜索越做越大,它完全可以创造出一个独立于万维网之外的一个平行世界。这个平行时间里,你需要的优质信息公众号提供,你需要的娱乐社交朋友圈提供,你需要的生活服务第三方小程序提供,当他能满足你一切要求的时候,你还会怀念外面的世界么。

如果未来真的有两个世界,那么如何平衡两个世界之间的利益就只能交给张小龙和他的微信团队了。微信搜索在更好的广告模式、更高效率的内容分发以及更健康的搜索生态上仍然需要不断地改进和迭代。

所以,移动端搜索这场战役还远没有结束,PC端搜索群雄卡位割据的局面又出现了,我们仍然可以期待未来会有一个体验更好的中文搜索服务出现,到时候它是读作「微信搜索」还是「搜狗搜索」就显得没那么重要了。

智能运维及海量日志搜索分析的实践之路

本文根据〖2016 全球运维大会•深圳站〗现场演讲嘉宾分享内容整理而成。

讲师简介:陈军

17年IT及互联网研发管理经验,曾就职于Cisco、Google、腾讯和高德软件,历任高级软件工程师、专家工程师、技术总监、技术副总裁等岗位。他发明了四项计算机网络和分布式系统的美国专利,拥有美国加州大学计算机硕士学位。

导言

陈军:谢谢那么多人来参加这个大会,感谢这个机会。刚才前面有一位朋友问到日志分析的情况,日志易就是专门做日志分析的,我也专门讲一下日志。

实际上日志只是一个方面,我今天要讲的是一个更大的话题,《IT运维分析与海量日志搜索》。

IT运维分析

“IT运维分析”是这两年新提出来的概念,过去那么多年我们一直在讲的运维,实际上讲的是运维管理,即ITOM。

而ITOA是这两年随着大数据技术的产生而产生的,它就是把大数据的技术用在IT运维产生的数据上面。

因为IT运维本身就会产生大量的数据,用大数据的技术去处理IT运维产生的数据,来提高IT运维的效率。它的用途是在可用性监控、应用性能监控、故障根源分析、安全审计这些方面。

据Gartner估计,到2017年15%的大企业会积极使用ITOA,在2014年的时候这个数字只有5%。这个报告还是基于欧美的市场,欧美IT方面的投入更大、更加精细化,在他们那里才做到明年有15%的大企业积极用ITOA。

很多公司还停留在ITOM(IT运维管理)的阶段,ITOA是一个新的阶段,要去做分析,分析之后来提升管理水平。

ITOA的四种数据来源

ITOA是把大数据的技术用在IT运维产生的数据上面,所以数据的来源就很重要,它分析些什么数据?

机器数据: 其实主要就是日志,服务器、网络设备产生的数据;

通信数据: 实际上就是网络抓包,这些流量的数据,把它抓包解包之后会产生大量的数据;

代理数据: 在.NET/Java这些字节码里面插入你的监控代码,去统计函数调用的情况、堆栈使用的情况,在代码这一级来进行分析,插入代码也可以获得一些程序执行的数据;

探针数据: 在全国各地布点来模拟用户的请求,来发起ICMP的ping、HTTP GET这种请求,对系统进行检测,看延时的情况、响应的情况。

所以,ITOA就是围绕着这四种数据来源,使用大数据的技术来做分析。

美国一家ITOA公司做的用户调查,这四种数据来源使用占比,大家可以看到:

日志占86%

流量抓包占93%

代理数据占47%

拟检测占72%。

这是美国一家公司做的调查,这个数据背后其实也是有理由可以解释的。

ITOA四种数据来源的比较

1、 机器数据:

日志无处不在,网络、设备、服务器、应用程序都会产生日志,比较全。

但是它也有它的情况,不同的应用可能吐出来的日志包含的信息不一样:

有的应用可能吐出更多的日志,包含的信息比较面;

有的日志可能吐出来的日志非常少,只有出错的时候吐出日志,正常情况下都不吐出日志。

所以,可能你能够获得的信息不够,日志内容的完整性和可用性不太一样。

2、 通信数据:

这个信息也非常全面,只要有通信,你就可以抓包。它的问题是什么呢?

有一些事件未必触发了网络流量,如果没有触发网络流量,你就抓不了包。

另外,有些包可能是加密的,你抓了之后解不了密,不知道里面的内容,或者里面很多应用层解析的规则你不清楚,没有办法解析,不知道它包含的意义。

它用的都是二进制的,你这个解包,每一种应用你都需要专门自己开发解包的规则,去把它给解出来。

3、代理数据:

就是在字节码里嵌入你的统计分析代码来进行监控,它是一个代码级的监控分析,它是非常精细化的,精细到代码这一级,哪一个指令被调用了多少次,在这一级做统计分析。

但是它有它的问题,它是具有侵入性的。

当你做这种分析的时候,你已经改变了这个程序,你在原有的生产线上植入了你的代码。

你植入了代码:

如果稳定性有问题,可能导致进程崩溃。

还有安全的问题,你植入的代码会不会把敏感的信息拿走?

哪怕解决了稳定性和安全性的问题,植入的代码每一次又会被执行,可能也会造成性能的影响。

这就有点像量子力学的“测不准”原理,你观测这个量子的时候,你的观测行为就改变了它,你观测得到的东西实际上不是最真实的,并不是它原来执行的情况。

4、探针数据:

模拟用户请求,现在市面上也有一些产品。

他们在全国可能有几百个节点,它布节点,不断地对你的后台服务器发起请求,来监测全国各地的用户访问你的服务的情况,包括网络的延时。

它是一种模拟监控,而且是端到端的监控,好处是可以模拟从客户端一直到服务器请求到响应等来回的种类的延时。

但是它就不是真实的用户度量,现在讲监控监测都讲真实的用户度量。

对于服务商来讲,他关心的是真实的用户感受到的延时,而不是一个模拟的请求。

当然,模拟的请求发现慢了,可能是网络出问题了,立即要采取行动。

一些小的应用,因为他们没有办法在全国布点,日活量不够,那可能会用这种方式。

像大的应用,不管是微信,淘宝,这种每天的活跃用户都是过亿的,全国到县区这一级都有大量的用户。

其实他们是不太需要用这种探针数据去模拟用户请求的,他们直接统计真实的用户请求就知道网络状况,而且他们要做这个事情可以直接来做,不需要用第三方的应用。

我记得08年汶川地震的时候,腾讯QQ的后台马上就看到汶川地区的QQ用户下线了。所以,这种大的应用直接就可以知道网络的状况。

可以看到,这四种数据来源中,具有侵入性的是代理数据,日志和网络流量都是旁路的,网络也是通过镜像流量旁路来抓包的。

日志数据、通信数据、探针数据这三类对应用本身是没有产生直接影响的,但是代理数据是会对应用直接产生影响。

所以,这也说明了为什么代理数据的使用百分比是比较低的,而日志和网络抓包是非常高的,也就是了这个理。

日志:时间序列机器数据

首先,它是从服务器、网络设备和应用软件这些机器上产生的,甚至现在智能设备越来越多了,传感器等这些都会产生日志。

它还有一个很特别的地方是时间序列,为什么叫时间序列?

日志一个很重要的东西是带时间戳,基本上我们很少见到没带时间戳的日志。

我们是一个第三方的独立厂商,是卖工具给各种类型用户的,所以各种各样很奇葩的问题都会遇到,比如说:

有的客户日志真的没有带时间戳的,带多个时间戳的也有,一条日志里带了好多时间戳。

还有时间戳的格式有近百种,标准的时间戳日志是放在比较靠前的,有的是时间戳放在靠后,都有,它的位置也不固定。

日志包含的信息:

日志包含了IT的系统信息,比如:服务器的信息,网络设备的信息,操作系统的信息,应用软件的信息;

日志也包括用户的信息,用户的行为信息;

也可能包括业务的信息。

所以,日志反映了IT系统的事实数据。

LinkIn这家公司是硅谷很有名的做职业社交的公司,它在大数据方面是走得比较前的。

他们的工程师写了一篇文章叫《深度解析LinkIn大数据平台》,有中译本,在CSDN上,大家可以搜索一下。

非常长,十几页,它的中文翻译跟原来的英文名称是不太一样的,你看中文的名称好象跟日志没啥关系。

但是你要看它原文的名称,意思是“每一个软件工程师需要知道的实时数据的统一的抽象”。

日志是一个什么东西?

是每一个软件工程师必须知道的实时的、数据的一种统一的一种抽象,LinkIn是把日志做到极致了,LinkIn里面很多不同业务系统之间的对接都通过日志。

Kafka现在是用得最广泛的消息系统。

Kafka这个消息系统是在LinkIn十多年前发明的,十多年前上线,就是用来处理日志、传输日志的,把日志在不同的系统之间流转。

所以,有兴趣的同学可以看一下这个文章。

越来越多的公司也意识到日志需要统一来管。

我之前工作过不同的公司,公司一大了之后,内部有好多部门,不同的业务,每一个业务部门统计分析自己的业务数据,然后报给老板。

这些报上来的数据可能都互相打架,这边讲得非常好,那边看出来好象不太那么好,各个部门有自己的动机和利益,统计出来的东西不完全客观。

所以,有的公司老板就意识到这个问题了。

日志集中管理,不同业务部门的日志全部交给一个部门来负责,他们会成立大数据部来统一处理日志,把不同业务系统的日志对照着来看,就会更加协调,更加统一,数据更加对得上号。

这个大数据部门就像国家统计局这样的角色,各省说它的GDP是多少,还得看它的用电量。

从其他角度来看,日志就是非常重要的角度来看业务的情况,包括日活是多少,每天新增的用户是多少,这些全部在日志中可以看出来。

一条Apache Access日志

大家对Apache日志比较熟悉,Apache日志也是一个包含信息量非常丰富的日志。

首先,它是一个文本数据,它带来了时间戳、主机名、产生这条日志的IP、字段。

我们把每一个字段抽出来:

IP地址叫Client IP;

时间戳叫Timestamp;

POST,我们给它这个字段名称叫Method;

report叫URI;

这个HTTP的版本1.1,Version;

这个状态码是200;

21是字节;

从哪里过来访问的;

User Agent也比较重要,客户端那边是什么操作系统、什么浏览器;

0.005是本台服务器响应的时间;

0.001是后面应用服务其的响应时间。

所以,从这一条日志中可以分析出来的东西就非常多,可以做业务分析,也可以做应用性能的监控。

你的响应时间是多少就可以监控,是不是网站慢了,是不是堵了,甚至从URI这里可以看出安全审计,你是不是被安全攻击了。

所以,日志包含的信息是非常丰富的。

日志的应用场景

运维监控:可用性监控、应用性能监控

安全审计:安全信息事件管理、合规审计、发现高级持续威胁

用户及业务统计分析

谷歌的安全做到没有内网了,它认为内网是不安全的,内网和外网是一样的,内网得做很多防护。

其实APT这种技术就是认为没有内网,内网是不安全的,所以才需要APT。

如果内网是安全的,我在外面放道防火墙就足够了,就像你家有个大铁门,但是小偷爬墙进来,爬窗进来,甚至挖个地洞进来,甚至现在还有无人机了,从窗户飞进来。

所以,你必须得全方位地监控,全方位地监控流量和日志,做APT最重要的就是这两个数据来源。

现在及过去的做法

过去

1、很多小公司没有集中管理日志,扔在那里,觉得日志是个负担,出现问题才登录到这台服务器,用一些脚本命令,或者写一些简单的脚本程序去查一下日志。

大部分公司还是停留在这样的阶段。

2、服务器的硬盘满了,首先第一件事就是去删掉垃圾。

日志是有时间效应的,太久之前的日志是没有什么用的,特别是对运维工程师来讲,关心的可能就是今天的日志或者昨天的日志,出现问题了从日志里看是什么问题。

对安全工程师来讲,这个日志需要的时间就要长了,有些渗透攻击可能是几个月、一年之前发生的,得去查。

黑客如果入侵了系统,聪明一点的黑客第一件事可能就是删除日志,把自己入侵的痕迹抹除掉,因为他的登录行为都在日志中反映出来。

3、日志在过去只做事后的追查,没有实时的监控分析。

出现错误不能预先知道,都是已经知道错了,然后到日志去找原因,日志没有作为一种监控的手段,只是用来作为追溯根源的手段而已。

4、一些公司开始意识到日志的重要性了,开始把日志管起来,但是管的方法不对,用数据库来管日志。

其实市面上也有一些所谓的日志管理分析产品都是基于数据库的,基于数据库有什么问题呢?

首先,这些日志越来越多,可能海量的日志每天上TB。

我们现在日志易在生产线上跑,在乐视跑每天新增日志量是20TB。

这样一种日志的量,你用数据库是根本没有办法处理的,而且数据库是用来处理结构化数据的,非结构化数据是没有办法处理的。

所以,我看过一些用数据库处理日志的产品,数据库有所谓的表格式,但是这个表就三列:

IP地址

产生日志的主机名、时间戳

日志文本信息

所以,他没有对日志做任何的字段抽取,又不支持全文检索,有时候搜一条日志得把整条日志的信息写全了才能搜出来,否则搜不出来。

所以,数据库处理日志是一种非常落后、过时的方法。

近年

随着大数据技术的出现,就出现了像Hadoop这样的框架了,大部分互联网公司目前都是用Hadoop处理日志的。

但是Hadoop处理日志又有什么问题呢?

Hadoop是批处理的,不够实时。

用Hadoop处理日志通常是晚上处理当天的日志,第二天早上十点钟或者九点钟上班可以看到前一天的日志统计分析的情况,或者有时候要查一些东西也得跑个几小时才能看到日志的情况,而且查询也慢。

我06年到09年在Google美国总部的时候是做网页抓取爬虫。

当时是每天3000台服务器的一个集群,每天爬一百多个网站。

全世界的网站都爬下来了,但是不是说全部,一部分有的更新慢,有的网站几天才访问一次,有的是每天要去访问。

爬这些不同的网站,出现错误的信息就千差万别、千奇百怪,都得看日志。出现了新的错误或者新加了一个功能的时候,原来的程序是处理不了的。

当时我在Google,经常每天早上上班的第一件事是先看一下日志:

有一些错误信息是无法确认的,不能归类的;

不能归类的那部分我马上写一个小的程序,可能也就几十行;

写完之后去跑,跑下来可能几十分钟甚至一两个小时,可能到下午才能出现结果。

所以,Hadoop的东西是给开发人员用的,不是给运维人员用的,它还得写程序,而且它是做离线挖掘,没有办法做在线分析。

所以,对于运维工程师来说,你要让他用Hadoop,顶多用Hive来查一下。当然,每次运维工程师可能都得求助于开发工程师再改一下Hadoop的程序来处理。

后来,为了解决实时性的问题,又出现了Storm、Spark这些性能更好的流式处理,但是不管是Hadoop、Storm、Spark,它都是一个开发框架,不是一个拿来就可以用的产品。

另外可能又有一些工程师用NoSql,NoSql的方案也很多,但是NoSql不支持全文检索,它不是一个搜索引擎,你只能是检索它对应的值是什么,并不能够直接搜一个日志的信息。

现在

现在我们需要一种新的技术对日志进行实时的搜索分析,就是所谓的日志的实时搜索分析引擎,它有什么特点:

快:日志从产生到搜索、分析出结果,只有几秒钟的延时,我马上要知道信息。

日志里出现了一个错误的信息,不会像Apache出来一个500的状态码,500意味着后台的应用服务器出错了,运维工程师是最担心的,出了500的状态码马上进行告警,以前可能是用脚本写一些工具来做告警。

但是你用日志实时搜索分析马上可以告诉你这个500出现了多少次。

大:每天要能够处理DT级的日志量。

灵活:它是IT工程师的搜索引擎,是所谓的Google for IT,它可以搜索分析任何的日志、日志里任何的字段。

Fast Big Data:大而快的数据,不仅仅是一个大数据,是一个事实大数据。

日志搜索引擎

日志管理系统的进化

最早的1.0用数据库来做日志,到2.0用Hadoop或者NoSql,到3.0就是实时搜索引擎,我们现在就进入到日志3.0的阶段。

日志易亮点

日志易就是一个可编程的日志实时搜索分析平台。

搜索处理语言(SPL)

有一个搜索框,光有一个搜索框让你搜东西太基本了,我们是运维工程师,我们具备一定的脚本编程能力,它的可编程在哪里?

日志易可以在搜索框里编写脚本语言。

我们实现了脚本语言的搜索处理语言,它包括管道服务。

你有多个命令,用管道服务把这些命令串起来,跟你在Linux脚本里面命令行写脚本一样,有很多小的命令执行单元操作,再用管道服务把这些单元操作给串起来。

所以,写这种SPL的脚本就可以完成这种复杂的查询付息。

这样,这个产品就变得非常灵活强大了,用户的业务是千差万别、千变万化的,我们不需要把业务定制到产品里,而是提供基础的平台,让用户直接在搜索框里去写脚本语言来做这种定制化,就可以适应不同的应用场景。

任何的应用场景都可以在搜索框里写这种脚本程序,这种脚本程序可能是几十行,甚至是上百行的脚本程序,来进行复杂的分析处理。

日志易可以接入多种的数据来源:

可以是日志文件;

可以是数据库里的;

甚至我们给券商做的恒生电子交易系统,它产生的日志是二进制格式的,我们调用了恒生电子交易系统提供的Java API来把它解码成文本格式。

我们提供企业部署版,也提供SaaS版,SaaS版是每天上传500MB的字节处理免费,欢迎大家试用,在我们的网站上有。

日志易功能

搜索。

告警。基于搜索结果,某个字段出现了多少次,可以去告警;

统计。进行统计分析,可以进行事务关联,不同系统产生的日志可以关联起来。

配置解析规则,识别任何日志。

刚才前面的演讲,有一位同学问到日志多种多样,要不要对日志归一化、统一日志格式?

当然,如果你能够说服开发人员去改系统去统一日志格式是最好的,但是现实的现有的系统没有人愿意去改,就没有办法去统一日志的规格。

日志易强大的地方是可以让用户在Web界面上配置解析规则,来抽取里面的字段,把日志从非结构化数据转成结构化数据,就可以对每个字段进行统计分析,非常强大灵活。

任何格式的日志我们都可以把它从非结构化数据转成结构化数据;

安全攻击自动识别的功能;

开放API,可以让用户在上面做二次开发,对接第三方系统;

高性能、可扩展分布式系统。现在在乐视那里跑到每天20TB,每秒钟峰值达到100万条的处理量。

案例

案例一:某大型综合金融机构

这是一个大型的综合金融机构,总部就在深圳,也是中国最大的。

他们之前需要逐台去登录服务器:

没有办法集中查看日志;

没有办法对海量日志进行挖掘和用户行为分析;

而且没有办法做多维度的查询,比如时间段、关键词、字段值;

而且没有办法进行日志的业务逻辑分析和告警。

在之后:

建起日志云,在内部建立了一个私有云来处理日志,已经接入了一百多个应用,每天新增的日志量是8TB。

做了这个之后的好处是省去了登录服务器的操作,就能够快速地查看,降低登录服务器的人为误操作的概率。

对金融系统来说,这些生产线上的服务器是非常关键的。

如果每个运维工程师都登录到生产线上的服务器去查看日志,一不小心,一个误操作,可能就影响了生产线上的应用,就导致一次事故。

上了日志易之后,就禁止运维工程师登录服务器去看日志,所有看日志就在它内部的日志易云上来看,解决了需要日志统一管理的痛点。

而且可以进行多维度的查询,提高定位异常原因的效率,可以对日志数据进行数据挖掘、用户行为分析,可以对系统的健康指数每天出报表。

现在很多用户用日志易主要的一个功能是每天出报表给老板看,因为之前是用Hadoop,Hadoop是第二天出昨天的报表,用了日志易之后是当天6点钟的时候就可以出报表,让老板下班前看到当天的情况。

而且可以是事先告警,只要一出错,就马上告警,而不是事后去追查这个问题。

案例二:中移动某省分公司

用来分析营业厅业务办理的Web的日志,这里就用了SPL搜索处理语言,营业厅里面一笔交易是经过多个子系统的,每一个子系统都会产生日志。

用了之后,就把一笔交易的每一笔子系统产生的日志给串起来,串起来之后还原成一笔交易,分析一笔交易的延时情况、响应情况。

这就是在搜索框里写的,这还是比较短的,它搜索的字段就是“json.url”,通过管道符把前面搜索的结果传给后面的事务命令。

因为不同子系统的日志都传给命令了,这个命令执行的操作是找ID,因为每一笔操作都是有一个独立ID的,根据这个ID把这一笔交易在不同子系统上产生的日志都串起来。

串起来之后排一个顺序,是以查询作为起点,传入参数,事务命令的参数有stamp,还有ends,一笔事务是从查询开始的,以提交作为结束。

但是如果一直不提交也会超时,超时间的时间是30分钟,如果30分钟都不提交,就认为这笔事务就够了,就超时了,这样就不会无限地等下去。通过这样一个事务的命令,把这个交易给串起来。

这就是串起来之后的结果,这是我们的界面,这就是在搜索框里刚才写的搜索处理语言的程序,出来的结果就把这些交易全都串起来,一笔缴费业务,营业员所有操作都一目了然。

它还得监控这些营业员,看这些营业员各自的效率怎么样。

每个步骤所需要执行的时间都排好,包括网络处理时间、服务器处理时间,都排好序。

这就是我们在中国移动山东省分公司做的一个案例。

案例三:国家电网

主要用在安全信息事件管理,因为终端信息安全是日志的调查、分析、取证,它要到各省分公升去做审计,快速排查日志里的问题。

合作客户

Q&A

Q:我有几点疑问,第一,站在运维的角度,日志管理只是运维中的一部分,在我看来,它的价值是可以集中管理,可以集中查看。另外,把我平常查看日志里面,我要搜keywords,根据我的经验去发现问题,最重要的是业务要产生价值。

那么,从这一点来看,假如说拥有日志易,肯定要通过API对接,把我的经验放在这个平台上,形成规则,这样的一个思路。日志易API是不是开放的?

陈军:非常好的问题,日志易对标的是美国的一家公司叫做Splunk,那家公司做了十几年,那家公司上面有五百多个应用,已经做成了平台,比如Cisco的日志是一个应用,某个防火墙的日志又是一个应用,它的上面好多应用。

回答你刚才问的这个问题,日志易也开放了这种API,把运维工程师的经验积累下来,它可以基于API来开展一些应用。

另外,你的一些经验,可能是通过SPL,写了就可以保存下来,共享给其他同事,他们就直接点击保存搜索,就来运行你之前写的SPL这个脚本处理语言,来分析出同样的结果,来做同样的分析。

Q:第二个问题,刚才举到乐视的例子,一百万条数据,这一百万条数据是产生数据完之后,多长时间我就可以索引到它?

陈军:只有大概几秒到十几秒。

Q:无论是在线版本还是离线版本都可以,是吧?

陈军:都可以。

Q:你好,我是华为公有云运维的,我们接触到两种类型:一种是Splunk,它号称自己是没有schema,它是后分析;还有一种是ELK,ELK是事先分析schema。事先分析可能统计比较快。不知道日志易是哪种流派?

陈军:非常好的问题,这是设计上就需要考虑的问题,其实也是我们反复想的一个问题。

两个流派,一种叫Schema on Read:

一种叫Schema on Write,在写的时候就要有schema,Splunk 这种叫做Schema on Read,在读的时候、查询的时候才会产生schema,才会做结构化,这样的好处是非常灵活。

日志进来之前你不知道该抽取什么字段,你不知道它的schema就把它做全文索引存下来了,然后检索分析的时候再去抽取字段,做schema,灵活。

灵活,任何东西都有代价,代价是检索非常慢,一次检索可能是几十秒钟,甚至几十分钟都有,因为你在检索的时候才去做这个schema。

另外一种ELK,叫做Schema on Write,你写的时候就先把schema给抽出来,再做索引,就不够灵活。可能检索的时候发现原来抽的字段是不对的,得把这个日志重新搞一遍,很麻烦。

但是它的好处是检索非常快,几秒钟就检索出来了,分析出来了。

日志易目前是Schema on Read,但是我们也在开发Schema on Write。

其实这些东西都是可配置的,系统设计的一个理念是去实现这个机制,把这个策略交给用户,用户自己可以选Schema on Read还是Schema on Write,我们两种都支持它,其实两种都有它的好处,都有它的坏处,用处自己做评判,自己做选择。

现在这个东西比较新,还得不断培育教育这个市场,他们用得还没有上升到那么高级的水平,大部分Schema on Write是可以接受的。

但是也有一部分已经反映不够灵活,这种少量比较高级的用户用到比较高阶的阶段了,Schema on Read的要求了。

Q:乐视的20TB,每天是多少主机?

陈军:几十台可以处理这样的数据量,产生就非常多了,我们有Agent,集中管理几千个Agent,这个Agent可以对日志进行限流、压缩、加密、脱敏等等。

Q:在Java里面有一个Eclipse报错,这个不是看一条一条的,是上下多少行,这种您是怎么处理的?

陈军:这个很简单,我们配解析规则,而且这些解析规则是内置的,都不用用户去配的。

这个Eclipse非常多行,但是它都有特征,有空了多少格、有缩进,都有规则,根据规则把多行日志归成一条日志,它虽然是多,但是它是一条日志。

老司机分享九大精准匹配搜索技巧 看看你会几个

可能大多数朋友都会有这样的搜索经历,输入关键词,但搜索推荐结果往往可能不是自己想要的。这是为什么呢?

说到底还不是你没有掌握精准搜索技巧,今天我就为大家分享九个大神们都在用的搜索技巧。准备好了吗?老司机要开车了!

1、操作方法:在关键词外加上“”

2、适用状况:如果你只想要查询某个关键词的资料,并且不希望这个关键词会被拆分。就可以使用这个搜索方法。例如输入“番号”,搜索结果就都会是“番号xxxxx”。

不含某个词可用减号

1、操作方法:在不想搜索到的关键词前面加上空格和“-”

2、适用状况:例如你不想在搜索番号的时候出现“A”,可以输入“番号 –A”。

必须包含某个词可用加号

1、操作方法:在想要搜索到的关键词前面加上空格和“+”

2、适用状况:例如你想要在搜索番号时必须包含有“A”,可以输入“番号 +A”。

1、操作方法:在A、B两个关键词中间加上“|”

2、适用状况:如果你需要在搜索结果中包含关键词中的任意一个,可以使用这个方法进行搜索。例如输入“国内游|自驾游”,就会出现任意一个相关的搜索结果了。

1、操作方法:在关键词外面加上《》

2、适用状况:例如搜索《贝多芬》,搜索结果就不会包含有个人资料信息,而是其他的相关资料。

1、操作方法:在关键词前面加上“inurl:gov” (注意:冒号为英文半角,并且后面不加空格)

2、适用状况:例如输入“inurl:gov新闻”,那么搜索结果都将是来自政府网站的页面内容。

1、操作方法:在关键词前加上“intitle:” (注意:冒号为英文半角,并且后面不加空格),多个关键词同样适用。

2、适用状况:如果你在关键词前加上“intitle:”,如“intitle:美女”,那么搜索结果中网页的标题里必定都含有“美女”这个关键词。

1、操作方法:在关键词后面加上“site:” +网站地址名(注意:冒号为英文半角,并且后面不加空格)

2、适用状况:例如输入“女神site:www.xxx.com”,那么搜索结果都是来源于指定网站的。

1、操作方法:在关键词外加上“inurl:” (注意:冒号为英文半角,并且后面不加空格)

2、适用状况:如果你输入“inurl:百度”,那么搜索出的网页URL里面一定会出现“百度”这个词。

1、操作方法:在关键词外加上“filetype:” +文件格式(如:doc、jpg等)(注意:冒号为英文半角,并且后面不加空格)

2、适用状况:当你想要查找包含某个关键词时,可用这种方法搜索。例如输入“filetype:pdf美景”,那么搜索出来的结果都是包含“美景”一词的pdf文档。

PS:如果安卓手机上文件被误删,可千万不要以为文件删除没有备份就找不回来了,可以尝试使用app【手机数据恢复精灵】找回丢失的文件哦!

海信发布 交管云脑 可实现亿级交通知识图谱任意实体搜索

2019年4月19日,AITech2019国际智能科技峰会——智能交通分论坛在青岛举行,,本次大会旨在探讨人工智能技术在智能交通领域的创新应用,联合行业权威企业及组织共同努力打造“人工智能+城市交通”新业态。

创新力量:海信重磅发布“交管云脑”

海信已深耕智能交通行业二十余年,在本次分论坛上,海信网络科技公司城市交通事业部总经理王雯雯发表了《交管云脑:当交通管理遇上人工智能》主题演讲,向与会者正式介绍了海信城市“云脑”架构中人工智能技术与城市交通管理相融合的重磅应用——海信“交管云脑”,并从逻辑架构、核心功能、应用实践等方面阐释“交管云脑”的核心价值。

海信城市交通事业部总经理王雯雯

王雯雯介绍说:“海信交管云脑是国内智能交通领域最懂交警业务的人工智能系统,在海信20年交管业务深耕的基础上,通过100多个城市的实战锤炼,形成了最专业的全面覆盖7大维度62类交管业务的使用场景,并通过业务实战与人工智能的深度融合,提炼出业内最丰富的百余种AI业务应用模型,赋能交通管理,服务公众出行,让城市出行更美好。”

“交管云脑”构建了行业先进的技术架构,具备强大的交管业务知识库、交互式人工智能平台,可实现亿级交通知识图谱任意实体搜索,搜索时间<200ms,同时搭载了多种AI场景化专业应用,实现战法随用即得。

海信“交管云脑”对城市交通的管理与服务涉及方方面面,主要通过三大“超能力”,实现城市交通数据深度融合、城市交通状态全域精准感知与城市交通问题智能分析、城市交通事件自动处置等功能,最终协助交通管理者更好地解决各种城市交通“病”,让出行者更便捷及时地享用智能交通提供的精准信息,让城市交通成为一个更加有机、健康的机体,让公众获得更好的出行体验。

1、数据提纯超能力:“坏数据”再也无法滥竽充数

对一座城市而言,如果它是一个有机体,那么交通便是它的命脉。在万物互联时代,影响城市交通的因素早已不单单局限于交通领域了,运输、环保、气象、互联网等等多维、多渠、多源数据,同样是关系到交通管理决策正确与否的重要因子。

在这样的背景下,越来越多的城市交通管理决策,开始依赖于对庞大数据的综合分析,从而为正确的决策提供依据。在这过程中,也便有了数据的“好”与“坏”之分——前者好比交通“脉络”中的红细胞,为城市机体源源不断提供“价值与营养”;而后者就像是“脉络”中的“病毒”,轻则产生疾患,重则造成无法挽回的后果。

因此,为了帮助城市管理者有效遴选出“好数据”以辅助决策,海信通过多年交通数据的研究和经验积累,针对性建立了业内最专业数据质量评价体系。

海信为每类交通数据都设置了六大维度的评价指标,所有的数据在被接入“交管云脑”时,即要接受这连续六关的筛选考验,每一关卡都具有极高的“过滤”效能,可快速发现数据的质量问题,进而对数据高度“提纯”,高效治理,从而提高数据准确性,为业务应用提供更全面、更准确的数据支撑。

以成都为例,海信“交管云脑”支撑的业务系统日均可接入亿级过车及流量数据,通过评价体系,每天可“提纯”近20%的“坏数据”,不仅能够通过历史变化规律进行数据的比对分析,精准识别出“问题数据”,还能通过时间、空间补偿进行数据修复,大大提升数据可用性!

2、精准感知超能力:“会思考”的视频巡检机器人

在未来的城市智能交通管理中,海信“会思考”的视频巡检机器人将成为“交管云脑”中的一项核心应用,在警情精准感知方面发挥巨大的实际效用。

当我们在路上行驶时,道路两边的视频巡检机器人不间断地“执勤”,捕捉道路上发生的任何异常,一旦前方突发事故造成交通拥堵,视频巡检机器人便会立即上传视频信息,实时智能推演出未来15分钟、30分钟后道路拥堵发展漫延趋势,并向交通管理者发出事件报警提示。

王雯雯介绍说:“视频巡检机器人是海信‘交管云脑’算法仓里的一项核心应用,具备道路边缘自动感知和巡检轨迹自动纠偏的思考能力,可结合路网交通状态对城市道路交通事故、人员异常聚集等6类警情的实时自动沿路扫查,实现360°交通状态精准感知,全面取代人工,达到城市路网全覆盖的警情自动巡检。在‘交管云脑’平台,海信拥有许多这样的人工智能手段,帮助我们更快、更准地发现警情。”

3、自动决策超能力:“AI审片”、“智慧心脏”向“人海战术”SAY拜拜

信息审不完?行政复议多?作弊难发现?庞大的视频素材,如何能用眼睛看得完!据统计,在人手最紧张的城市,因为种种原因,违法图像只有14%能够得到处理,大量的违法行为没有得到应有的处罚,交通秩序得不到根本改善。

通过深度学习及AI图像识别技术,海信在“交管云脑”的基础上开发了“AI审片”功能,基于深度学习及AI图像识别技术,对违法图片进行预审与筛除,可将节省50%以上的工作量,并极大程度提高审核准确率,有效提升交警的工作效率和决策公信力。

除此之外,海信基于“交管云脑”支撑的“智慧心脏”,更是能够极大效率的辅助交通管理者更好地进行科学决策,实现“少人调优”。它智能分析识别城市的交通特征规律,发现道路上常发生的交通问题,针对性储备了总计3大类40种处置方案,智能化地自动生成处置策略,一键下发,在尽可能少量的人工参与下,逐步实现“无人调优”的目标。对于突发交通事件,以前大多是依靠值班民警的经验来处置。但现在,海信“交管云脑”中的算法引擎能够比有经验的民警思考得更快更好:通过交通拥堵及蔓延规律算法,融合交通OD分布、道路路况及气象等多维信息,“交管云脑”可以实现交通诱导方案自动生成、信号控制方案智能推荐,让民警可以一键“下单”,方便快捷,很多情况下不用民警到现场处理,几分钟即可让道路恢复通畅!

此外,“交管云脑”也是一个开放的平台,行业伙伴均可在这个平台上开发自己需要的业务场景应用,用户也可以在这个平台上自如选择性能最优的算法去解决自己的问题,可以说是最贴近业务、最具实用价值、最潜力无限的“交通管理助手”了。

对于智能交通未来发展,王雯雯如是说:“未来,智能化的管控、无人化的信号优化、人车路高效协同、公众不再为出行选择线路烦恼……海信有‘传统’的基因,更有创新的技术,接下来会继续专注智能交通,以开放的心态,加上先进的交管云脑赋能,相信‘经验’与‘智慧’的碰撞一定会带来行业的颠覆,让交通管理更智能,交通出行更美好!”

在本次分论坛,海信城市交通事业部副总经理马晓龙也发表了《AI赋能的城市交通智慧信号控制开放式系统》主题演讲,深入讲解在海信“交管云脑”架构下,海信“城市智慧心脏”这一开放式系统架构平台。

共创共赢:智能交通推进组的战略升级

在本届分论坛现场,海信正式与鹏城实验室举行了签约仪式,以共建合作为主题,深入探讨实验室运行机制体制,为进一步加强共建合作、建设国家实验室建言献策。

在大会最后,海信作为新一代人工智能产业联盟智能交通推进组的组长单位,举行了智能交通推进组升级授牌仪式。在推进组成立短短一年时间内,已吸引了北京大学、北京工业大学、哈尔滨工业大学等重点院校,及百度、易华录等业内知名企业机构总计16位新成员加入。