百度取消新闻源机制 是时代的结束还是熊厂的重塑

3月20日,百度发布公告,称因百度对时效性内容识别技术升级,原独立新闻源数据库的形式已不再适合使用,故取消新闻源数据库。

新的替代性机制是:原新闻源库中的最优质站点将邀请入驻站长平台VIP俱乐部,站点有机会优先展现在时效性检索结果中,同时享受VIP俱乐部提供的更多服务;无法入驻VIP俱乐部的站点,也仍然有机会在时效性结果中展示。

所谓新闻源,即符合百度、谷歌等搜索引擎种子新闻站的标准,站内信息第一时间被搜索引擎优先收录,且被网络媒体转载成为网络海量新闻的源头媒体。

要想被百度收录为新闻源必须具备两个条件:网站安全可靠;有高质量的具有新闻性的内容。网站的内容要及时、原创或高质量伪原创,并且能够保证24小时不断更。

在PC时代,百度作为搜索引擎巨头,被百度新闻源收录的才算“正规”媒体,新闻源也是各个厂商公关舆情监控的重中之重。

因此,大小网站挤破头皮都想被百度收录为新闻源,提升自身的知名度和流量。在利益的驱使下,违法违规事件也层出不穷。百度因此曾推出“蓝天算法”,用以打击新闻源售卖目录。

触发“蓝天算法”的站点将被清除出新闻源,同时降低该网站的搜索权重。

作为新闻源的站点也曾出现过“被黑”的事件,去年8月份,百度站长平台就曾在官微上发布声明,称某些关键词搜索新闻的结果页会出现非法内容,该情况系违法分子篡改新闻源,非法导流所致。百度新闻源运营团队也因此启动了清理被黑新闻源的专项行动。

乱象的产生也佐证了百度新闻源的高价值以及对于网站的重要性,但自从步入移动互联网时代,渠道分散、自媒体崛起,新闻源的重要性已经被严重稀释。

VIP俱乐部机制的实施可以理解为对百度新闻源价值的重塑,提高新闻源的准入门槛才能在一定程度上提高搜索结果的价值,进而重建百度作为搜索引擎在用户和厂商心中的地位。

但是,话说回来,百度新闻源是PC时代的产物,80后的从业者对此感受应该更为深刻。作为90后的小编,实在不敢班门弄斧。

对此,80后、90后的你有什么看法?请在留言区评论。。。

百度称新闻统计功能 没意义 专家指其公益性弱化

来源标题:百度称新闻统计功能“没意义” 专家指其公益性弱化

在过去一周的时间里,百度连续2次修改了新闻搜索细节,甚至取消了条数统计功能,引发用户吐槽。

一位媒体从业人员告诉记者,“现在我们统计新闻转载数量,只能靠人工数了,40条以上的转载能数到‘眼瞎’”。

“这个调整应该是长期的。”8月30日下午,百度方面回应《证券日报》记者称,原本统计的数字就不是非常准确,现在相当于把统计数字取消了,如果用户想要精准的数字可以自己数。“从我们角度来说,有多少数字,对于普通用户来说,没有什么意义”。

对此,武汉科技大学金融证券研究所所长董登新在接受《证券日报》记者采访时表示,百度搜索引擎的公益性、新闻性、学术性的能力江河日下,已经沦为一个广告平台。

新闻搜索功能一周两变

这件事情要追溯到8月初,有媒体记者发现,百度新闻搜索结果不稳定,数据波动较大,导致用户使用不便。

《证券日报》对此进行核实并报道后,百度官方就作出回应称,针对媒体报道的百度新闻搜索结果数量显示不稳定的情况,我们第一时间进行了排查。经过技术排查定位,百度新闻搜索不存在文中所提及的漏洞或手动篡改的情况。

百度方面表示:“新闻收录的时效性较强,新闻网站的新闻上线、下线以及内容的调整,都会影响最终的收录数字,因此新闻搜索显示的收录条数数据存在变化的可能,该数字仅供参考。百度新闻搜索一直都在通过技术的力量优化用户体验,我们先后推出了蓝天算法、飓风算法等算法打击低质新闻网站;今年3月份,我们还正式取消了新闻源机制,目的就是为了让更多优质的站点和内容可以被百度新闻所收录、呈现。”

有意思的是,在否认漏洞的同时,百度还修改了搜索细节,在原结果前加了一个“约”字。例如,原本显示的“23条相同新闻”,变成了“约23条相同新闻”。而《证券日报》进一步跟踪报道后,百度方面则直接取消了新闻搜索统计功能。

8月30日,记者使用百度搜索新闻核实了这一情况,现在“查看更多”代替了原来的“约xx条相同新闻”,具体新闻数字,需要手动统计。

公司称对普通用户没有意义

这样的改变直接引发用户不满。一位不愿具名的媒介从业人员表示,“我们统计稿件在网络媒体转发数据,主要依据就是百度搜索这个公益性平台。之前百度搜索不稳定,时好时坏,现在干脆没有结果了。想统计数字就得自己数,有时候上百条的结果,数起来实在累心”。

不过,百度方面认为,普通用户并不在意新闻统计数字,一般是媒介公司会使用这一功能。“这个改动跟我们之前取消新闻源的逻辑差不多,既然对用户造成困扰,对普通用户有没有太多意义,索性取消。这个改动其实就是说,大家不要过多的关注新闻收录的数字,而是应该关注这些新闻都是哪些权威媒体发布的。”百度搜索部门的公关于姓工作人员在接受《证券日报》记者采访时如是说。

对于记者提出的“有用户需要百度搜索的这一统计功能,取消该功能欠妥”的问题,该工作人员则认为,“如果觉得这个数字有意义的话,自己(点击)进去数就可以了,(转载)有多有少,他自己(点击)进去就能感觉到了。原来的数字也是估算值,仅能供参考,跟具体的结果还是有误差,如果较真儿的话,还是需要自己去数到底有多少条。”

“百度的搜索引擎正在逐渐取消其公益性、学术性、新闻性的功能,而突出自己的商业价值,其商业化的味道越来越浓”,对此,董登新认为,百度现在的搜索功能,基本已经成为一个广告功能了,客观的搜索功能几乎丧失殆尽了。

作者:谢若琳

百度 2018 年共处理 502-2 亿条有害信息

1 月 4 日,百度发布了《百度 2018 年内容生态综合治理报告》,报告显示,2018 年,百度通过全方面手段处置了包括淫秽色情、毒品、赌博、诈骗、侵权等 11 类有害信息共达 502.2 亿余条。

在技术干预清理的有害信息总量中,淫秽色情类占比最重,数量高达 52.98%,其次是赌博类、制假贩假类,分别占拦截总量的 16.11%、6.22%。

2018 年自主清理有害信息主要集中在淫秽色情类,占全年有害信息清理量的 55.11%;其次为制假贩假类、赌博类,分别占清理总量的 13.17%、9.19%。

2018 年全年共接收第三方反馈信息 1775.94 万条,其中有效信息有 206.35 万条,占总举报数的 11.62%。

此外,百度表示,为了营造更好的网络环境,百度还针对抑郁症、自闭症等特殊人群,专门优化了相关的搜索结果。2018 年,在百度搜索的协助下,公安部门成功解救三名轻生网民,2018 年 7 月,百度上线了 ” 问题疫苗查询通道 “。

2018 年,百度还在简单搜索 App 上线了 ” 儿童搜索模式 “,并设立专人过滤有害信息。

2018 年全年,百度共清理野生动植物非法网络贸易信息 40 余万条。

最后,百度表示,若大家在上网过程中发现涉及到色情、暴力等不良信息,可以搜索 ” 百度网址安全中心 ” 进行 ” 申诉举报 “。

【来源:IT之家】

百度称新闻统计功能 没意义 专家指其公益性弱化

本报见习记者 谢若琳

在过去一周的时间里,百度连续2次修改了新闻搜索细节,甚至取消了条数统计功能,引发用户吐槽。

一位媒体从业人员告诉记者,“现在我们统计新闻转载数量,只能靠人工数了,40条以上的转载能数到”眼瞎”。

“这个调整应该是长期的。”8月30日下午,百度方面回应《证券日报》记者称,原本统计的数字就不是非常准确,现在相当于把统计数字取消了,如果用户想要精准的数字可以自己数。“从我们角度来说,有多少数字,对于普通用户来说,没有什么意义”。

对此,武汉科技大学金融证券研究所所长董登新在接受《证券日报》记者采访时表示,百度搜索引擎的公益性、新闻性、学术性的能力江河日下,已经沦为一个广告平台。

新闻搜索功能一周两变

这件事情要追溯到8月初,有媒体记者发现,百度新闻搜索结果不稳定,数据波动较大,导致用户使用不便。

《证券日报》对此进行核实并报道后,百度官方就作出回应称,针对媒体报道的百度新闻搜索结果数量显示不稳定的情况,我们第一时间进行了排查。经过技术排查定位,百度新闻搜索不存在文中所提及的漏洞或手动篡改的情况。

百度方面表示:“新闻收录的时效性较强,新闻网站的新闻上线、下线以及内容的调整,都会影响最终的收录数字,因此新闻搜索显示的收录条数数据存在变化的可能,该数字仅供参考。百度新闻搜索一直都在通过技术的力量优化用户体验,我们先后推出了蓝天算法、飓风算法等算法打击低质新闻网站;今年3月份,我们还正式取消了新闻源机制,目的就是为了让更多优质的站点和内容可以被百度新闻所收录、呈现。”

有意思的是,在否认漏洞的同时,百度还修改了搜索细节,在原结果前加了一个“约”字。例如,原本显示的“23条相同新闻”,变成了“约23条相同新闻”。而《证券日报》进一步跟踪报道后,百度方面则直接取消了新闻搜索统计功能。

8月30日,记者使用百度搜索新闻核实了这一情况,现在“查看更多”代替了原来的“约xx条相同新闻”,具体新闻数字,需要手动统计。

公司称对普通用户没有意义

这样的改变直接引发用户不满。一位不愿具名的媒介从业人员表示,“我们统计稿件在网络媒体转发数据,主要依据就是百度搜索这个公益性平台。之前百度搜索不稳定,时好时坏,现在干脆没有结果了。想统计数字就得自己数,有时候上百条的结果,数起来实在累心”。

不过,百度方面认为,普通用户并不在意新闻统计数字,一般是媒介公司会使用这一功能。“这个改动跟我们之前取消新闻源的逻辑差不多,既然对用户造成困扰,对普通用户有没有太多意义,索性取消。这个改动其实就是说,大家不要过多的关注新闻收录的数字,而是应该关注这些新闻都是哪些权威媒体发布的。”百度搜索部门的公关于姓工作人员在接受《证券日报》记者采访时如是说。

对于记者提出的“有用户需要百度搜索的这一统计功能,取消该功能欠妥”的问题,该工作人员则认为,“如果觉得这个数字有意义的话,自己(点击)进去数就可以了,(转载)有多有少,他自己(点击)进去就能感觉到了。原来的数字也是估算值,仅能供参考,跟具体的结果还是有误差,如果较真儿的话,还是需要自己去数到底有多少条。”

“百度的搜索引擎正在逐渐取消其公益性、学术性、新闻性的功能,而突出自己的商业价值,其商业化的味道越来越浓”,对此,董登新认为,百度现在的搜索功能,基本已经成为一个广告功能了,客观的搜索功能几乎丧失殆尽了。

这2天站长圈比较火的事 百度新网源取消 多说关闭

站长圈算是比较久没有比较大的事件了,不过这2天突然爆出了个人认为比较重要的事件:一个是百度取消新闻源,另一个是第三方网站评论插件多说宣布关闭。

百度新闻源取消

百度站长平台在3月20日发布公告,称因百度对时效性内容识别技术升级,原独立新闻源数据库的形式已不再适合使用,故取消新闻源数据库。并升级为VIP俱乐部,这意味着百度面向新媒体渠道方面做出了主动变革,同时也意味着部分产业链营收或将受到影响。

存在了10多年的新闻源,终于被取消了,这是一个老的时代的结束,但更是一个新时代的开始。

站长对于百度新闻源可以说是又爱又恨,爱是因为它几乎秒收录,而且排名容易上去,恨是因为,自己的站几乎上不了百度新闻源。当然有大批专门的卖新闻软文发布渠道的要哭了,饭碗直接被打掉。从用户体验的角度来看,卖新闻发布渠道,确实影响很严重,一个三无产品,花点钱,直接在各大新闻渠道发布几篇软文,然后就可以吹自己在很多媒体上被报道,这样就可以忽悠客户了。

新闻源取消,实际上是百度技术的一次升级和开放,时效性卡片的展示页面不变,后端数据将变得更加开放,不在拘泥于源的申请。优质原创内容,不再需要进行新闻源的申请,系统将从内容、质量、用户体验等维度判断,对优质内容进行展示。对于优质原创的时效性站点,特开放VIP申请,百度将提供VIP服务。

不在VIP的站点,内容优质,可以被展示到时效性中;而VIP垂类开放,是针对优质的原创时效性站点,百度将会给到VIP服务,主要看内容是否优质了。原有的优质内容站点,影响并不会太大。

多说宣布关闭

3月22日消息 作为一款经常出现在第三方网站的评论系统插件,多说评论系统由于登录简单(第三方账号直接授权)以及简单可控受到网友和个人站长的欢迎。

不过多说在昨天晚上宣布,旗下评论系统将在今年6月1日关闭,站长可以在6月1日之前可以通过后台的数据导出功能导出自己站点的评论数据。多说官方表示关闭的原因是由于公司业务调整。

从多说发表的评论功能更新日志来看,最后一次功能更新来自于去年5月10日,在此后八个月期间多说没有更新新的功能,从个人站长的反馈来看应该是多说缺少稳定的变现方式,最终只能关闭。

其实笔者也一直用着多说评论插件,不过在上年12月发现,每天百来个垃圾评论,一开始还没怎么注意,删了而已,到了今年1月份,发现越来越猖狂,然后果断关掉了多说插件。估计跟多说没有人维护有关,才直接被人利用漏洞攻击所有使用多说的网站。

对于关闭之后的替代方案,有网友建议让多说在Github开源,这项建议也受到了不少网友的支持。

原文出处:

网营中国 浅谈百度优化排名的 冷暴力 带来的影响

网营中国(http://www.51-wy.com)——全网营销一站式生态运营商,助您彻底解决全网营销难题!提供专业的网络营销解决方案!按效果收费,无效全额退款!

这样反复步骤去操作能短时间内迅速提升宝贝的排名。很多站长希望能在像google这样的搜索引擎中保持较高的排名。如果是新用户直接通过手机验证码注册老用户也可以通过验证码登录。友情链接对于网站的外部优化是不可或缺的一部分很重要。在2017年3月20日百度发布了公告大致内容是这样的关闭了百度新闻源的申请取消新闻源数据库然后升级到了站长平台。这里首先提一下长尾理论。亦或是:“详解SEO优化技术中快速有效的排名技巧”等当然标题的设置还得要看实际的情况一定要从你的文章内容中着手写出既符合文章中的内容的同时又可以满足用户和搜索引擎的胃口的标题出来在这里只是给大家举些例子罢了

大家都知道https比http更加安全不带“S”的http在传输过程中是明文的也不对传输双方进行验证在传输过程中的任何一方都可以对数据进行修改。④:你们公司有做网站数据的专员可以和他沟通下在第一时间里了解网站的整体收录情况、新内容的收录情况、各个页面的收录以及关键词定位和排名情况等了解这些就可以改进页面的SEO质量和内容质量。如果你要这么去认为这个关键词的含金量也怪不得你搞不定排名了。如果这件事情是一个新手不认识机关的任何一个人那么这个事直接告吹。

笔者之前就总结过想要做好引流工作内容是基础关键靠渠道最终还得靠执行很多人都还没开始就各种抱怨我不会写软文我没有好的外链平台我不会做营销怎么办笔者只能告诉你:凉拌!今天分享的主要是思维加一些实操主要增对的是长期有效的流量或粉丝不是色流或者其他快速引流的技巧都是需要长时间慢慢操作才会又效果的因此如果你是想要快速引流或者快速吸粉的可以不用浪费时间看下去了。第需要拥有一支策略团队——学习、了解企业以及其所在行业的所有运营的细节从而帮助企业了解目标人群制定更精准、更适合的营销策略减少市场费用的浪费。

网站的外链可以有很多的做法但是我们在发布外链的时候一定要注意外链发布的规律和外链发布的数量例如:你每天要有规律地增加1-2条高质量外量就可以了

网营中国是西安地区专业的网络营销推广公司,为企业提供网络营销外包网络推广、网站SEO优化、网站建设网络营销方案等服务,丰富的全网营销经验及强大的网络营销团队,是您开展网营销推的不二之选!

百度取消新闻源机制升级VIP俱乐部 软文渠道遭冲击

度今日面向站长平台发布公告,称将取消原有的新闻源机制,并升级为VIP俱乐部,这意味着百度面向新媒体渠道方面做出了主动变革,同时也意味着部分产业链营收或将受到影响。

百度在公告中称,因百度对时效性内容识别技术升级,原独立新闻源数据库的形式已不再适合使用,故取消新闻源数据库。

并且新的替代性机制是:将原新闻源库中的最优质站点将邀请入驻站长平台VIP俱乐部,站点有机会优先展现在时效性检索结果中,同时享受VIP俱乐部提供的更多服务;无法入驻VIP俱乐部的站点,也仍然有机会在时效性结果中展示。

同时VIP俱乐部提供的服务也全面升级,首先开放原创优质时效性站点申请入口,符合要求原创优质时效性要求的站点可通过平台首页右下方入口进行提交申请。

百度方面还表示,本次仅开放原创优质时效性站点的VIP俱乐部申请,其他类站点后续才会逐步开放。截至3月20日17时,已申请新闻源站点,将按照VIP俱乐部标准进行审核,30天之内会回复审核结果。

实际上,不少分析称,即便百度不主动取消新闻源机制,在新媒体渠道更加多元的当下,百度的新闻源机制也会不断受到挑战,进而不断降低影响力。

而对于百度来说,主动求变也可对外释放信号——在内容方面,优质内容将会在未来愈加受到平台青睐。濮阳网站建设:http://www.xianshengdz.com/原创文字,版权所有,转载请注明出处,并保留本链接,谢谢!

但是此前依靠百度新闻源制度建立起来的营收产业链,可能就此遭受到冲击。新浪科技采访了多位公关媒介从业人士,对方表示新闻源在之前是和企业合作中重要营收源之一,现在百度取消该制度,短期营收方面肯定会遭受损失。

专访百度架构师郑然 架构的本质是为了服务业务

2016年9月22日-23日,由CSDN重磅打造的将在杭州举行。大会前夕,百度网页搜索架构部架构师郑然接受了CSDN专访,谈及了对架构的理解、SOFA(Service Oriented Flyweight Architecture)的前世今生,以及技术人提升之道。

百度网页搜索架构部架构师 郑然

嘉宾介绍:

郑然于2009年加入百度网页搜索部,在百度网页搜索部工作的7年时间里,一直从事百度搜索引擎的架构研发工作,先后负责过百度搜索引擎的大规模索引构建工作,大数据离线平台架构工作。近几年来一直从事着大规模服务治理相关工作,包括支撑大规模服务变更的PaaS系统,保障百度搜索引擎99。995%可靠性的高可用架构和中间件,以及百度搜索引擎容量规划和评估等。

专访正文

CSDN:请先和大家介绍下您和目前所从事的工作,以及关注哪些技术领域?

郑然:我自从2009年加入百度以来,一直在网页搜索部从事搜索引擎架构相关的工作。 从最开始的大规模分布式索引建库系统到离线泛建库大数据分析架构相关的工作。近几年一直从事大规模服务治理技术的研发工作,设计并实施了轻量级的接口化和组件化的微服务开发平台SOFA;带领团队对支撑百度搜索引擎海量服务部署和变更的PaaS平台——Eden进行了一系列重构和优化(日前在业内技术大会上分享过Eden,Slides参见:);现阶段,我们把服务治理拆分成效率提升,高可用架构和容量优化三个大方向,系统化的解决服务治理面临的问题,构建搜索引擎的私有云平台。

我个人对于高可用架构、云计算、容器和微服务、服务治理、DevOps等技术领域非常感兴趣,也希望和大家进一步交流。

CSDN::作为一名资深架构师,能否谈下您对架构的理解?

郑然:这个问题有点大,我理解架构的本质是为了业务服务的,解决不了业务问题的架构毫无用处。但是往往业务问题是复杂的,同时已有架构和系统都会或多或少的存在技术债务(我猜大多数情况下技术债务还不少)。所以我觉得对于一个架构师来说,选择正确的时间,使用正确的技术,选择解决哪些问题,最终能给业务带来什么价值,是需要经过深思熟虑的。一方面要能满足业务需求,解决业务问题,另一方面又要偿还技术债务,让系统向着理想目标前进,这其实需要很多折中和权衡,即使在架构设计过程中也往往是一个折中的过程。不过恰巧是这一点,让我觉得这正是吸引我一直从事架构相关工作的原因。

CSDN:有人觉得架构师是个很高大上的职业,您觉得作为一名架构师,需要具备哪些能力?

郑然:我一直工作在一线,从“硬件”和“软件”两方面谈:

  • “硬件”方面我主要指技术能力

架构的设计要求具备很强的抽象能力。对于复杂系统,大到能设计整体架构,对于核心技术做出正确的技术选型和技术判断,小到能清楚的知道API的接口设计和实现逻辑,做到当团队只有一个人的时候,也能开发出来,区别就是时间长短而已。这要求架构师具备丰富的技术储备,需要在工作过程中不断总结和归纳,同时开阔技术视野,取长补短。这些都需要时间的积累,不是一日之功, 没有捷径可走。

  • “软件”方面,涉及的点就比较多了,我觉得比较重要的就是规划能力、表达能力、技术领导能力和技术影响力。

    • 对于规划能力,我们通俗的说叫”吃着碗里的,看着锅里的”。我们在做着当前工作的同时,必须不断思考未来是什么,大到系统的理想形态是什么,小到系统的最合理设计是什么等。这个未来不需要太长,我觉得半年到一年就可以了。我自己的体会是,如果有些地方我思考不清楚了,那就会让我寝食难安,如果想清楚了,心里会充满平静。除了思考清楚理想形态之外,还需要思考逐步达到理想形态的过程。因为理想形态往往不可能一蹴而就,这就要求我们心怀业务目标,在达成业务目标的情况下,逐步达成理想形态。

    • 表达能力有些朋友可能觉得不是那么关键,其实不然。在职场中,需要沟通的地方很多,包括团队内部问题讨论,跨团队的需求沟通,跨部门的项目合作,向上级汇报工作, 给下级分配工作等等。即使同一个问题,面对不同的人,说法完全不同。这里有一个窍门, 就是一定要站在对方的角度,然后再想怎么说,往往可以起到事倍功半的效果。

    • 技术领导能力是一个比较大的话题,我自己也讲不清楚。我的一点点体会是,以人为本。大家愿意和你一起工作,除了公司大环境之外,更多的是考虑这个方向的空间以及个人的成长。所以我给自己设置的一个隐性目标就是为大家发掘和创造更大的成长空间,让团队中的每个人都能获得足够的成长。 团队成长了也就能更好的为公司创造价值了。

    • 技术影响力提升我觉得也是很重要的一个方面,你自身的影响力提升了,也可以吸引更多的人加入团队。提升技术影响力的途径有很多,比如公开演讲,写技术文章,组织部门内部的技术交流会和一些课程,发表论文和专利等。

CSDN:您在百度网页搜索部工作了7年,能够分享下近年来百度搜索引擎的挑战?

郑然:百度搜索引擎其实一直在不断更新,只不过可能每天只提升一点点,影响一小部分query,大家感受不那么明显,是一个从量变到质变的过程。百度一直以“让人们最平等便捷的获取信息,找到所求”为使命,随着移动互联网的发展以及信息量的不断膨胀,用户找到信息的难度更大了。所以从2016年开始百度正在从多个维度全面打造“新搜索”,让搜索结果多样化全方位的满足用户请求,同时不断完善内容生态,促进优质内容在百度全平台的承载。这就意味着百度搜索引擎的算法复杂度和数据计算存储量的大幅提升,给搜索引擎的算法和架构带来了巨大的挑战。

CSDN:这次在SDCC 2016(杭州)架构峰会上,您主要分享SOFA(Service Oriented Flyweight Architecture)这一轻量级的面向服务的开发框架,可否介绍下SOFA的前世今生?

郑然:先澄清一下, sofa-pbrpc和我要分享的SOFA是完全不同的。以我们的反作弊服务为例,反作弊服务需要根据网页的HTML计算和解析出上千个特征,然后在经过几百个策略,最后得出反作弊的结果。这上千个特征存在错综复杂的依赖关系,策略与策略之间也存在着严格的顺序要求。随着算法的越发复杂,有些特征或者策略的计算需要消耗的资源会越来越大, 这时候大家想到的办法一定是对服务进行拆分了。如果没有SOFA,这样的拆分过程相当于做一次重构的工作量,而且对反作弊效果来说是没有正向收益的,做算法的同学最不愿意做这种事情。所以能否灵活的进行拆分,就是提升研发效果的关键了。使用SOFA技术以后,修改几行配置就可以实现拆分了;另外反作弊服务中有些特征和策略的计算逻辑,可能其他服务或者产品线也同样需求,比如切词,提取title、content、anchor等,那么如果能非常方便的实现代码共享,也势必大幅提升研发效率。所以在这种情形下,我们设计和实现了SOFA这一接口化和组件化的开发平台。

在2013年SOFA完成的第一个版本中,我们已经实现了RPC的功能并且性能十分优异,考虑到当时距离SOFA成型还有相对较长的时间,同时部门内一些偏向基础架构的系统(比如百度开源的tera分布式表格系统)仅仅有RPC的需求,所以我们把SOFA中RPC的代码剥离出来,适配了protobuf,于是乎就有了sofa-pbrpc这个项目了。

可以说RPC只是SOFA的冰山一角, 我希望通过本次SDCC的分享,给大家揭秘整个SOFA平台。不过由于SOFA依赖了一些公司的库以及人力问题,还没有开源出来,但是我个人认为整个SOFA的设计思想还是非常先进的,所以决定在本次SDCC上为大家介绍SOFA,希望能给大家带来一点点启发。

CSDN:SOFA目前有哪些最佳实践?

**郑然:**SOFA自身具备接口化和RPC的能力,所以适用于所有应用RPC的场合。同时得益于SOFA接口化和组件化的设计思想,更适合于构建带有复杂业务逻辑的服务模块。不知道大家有没有遇到过这样的场景,比如我想使用切词功能,于是我从公司的代码库中反复搜索,终于找到了代码路径。Checkout下来之后,首先阅读头文件,看过复杂的结构体声明和函数定义以后,准备写一个demo程序做实验。代码写完编译好之后,发现缺少切词词典,于是乎从公司的wiki上反复搜索,终于找到对应的接口RD,我们从一个FTP地址下载了切词词典。然后运行demo,词典加载失败,联系接口RD发现词典版本和代码版本不匹配,于是重新下载对应版本的切词词典,终于demo运行通过了。下一步当然是把切词的逻辑添加到线上的模块了。代码写完并且添加好编译依赖之后,发现编译不通过,原来切词库依赖的一个库和当前模块冲突了,打平之后发现当前开发的模块又编译不通过了……这时候如果运气好的话,经过反复实验,可以找到一个编译通过的版本; 运气不好的话,那只能修改相应的代码了,真是一如好闷深似海啊! 烧香拜佛之后,终于编译通过了,运行之后程序如果core了,这还算好的,如果运行之后得出的结果不对, 那才叫一个叫天天不应叫地地不灵呢。

遗憾的是,我们的搜索服务中存在很多这样的模块。我们的反作弊服务和页面解析服务都是包含复杂的特征提取和算法模块,这些模块随着算法复杂度的提升,需要的CPU和内存会不断提升。如果说编译依赖冲突的问题还可以通过一些艰苦卓绝的工作解决,那么资源需求达到一定程度之后,就必须进行服务拆分了。没有使用SOFA之前,这样的拆分是非常复杂的,不仅仅研发周期长,对服务的效果又起不到提升的作用研发过程需要反复的测试功能和效果的评估,给算法的研发同学带来的极大的痛苦。SOFA的接口化和组件化的设计思想,可以大大简化上述过程。组件的符号隔离机制,确保组件之间不同版本的库并存; 接口化和组件化的能力使得我们仅仅通过修改配置,就可以完成服务拆分工作; 而且不同的组件可以采用不同的编程语言, 进一步加速组件的研发效率。SOFA上线以后, 先后支持了公司包括网页搜索,自然语言处理,深度学习研究院,机器翻译等十几个的产品线,构建了上百个服务,使用SOFA的研发人员接近200人。

CSDN:微服务目前受到广大互联网公司的热捧,您如何评价这一现象?

郑然:可能很多朋友看到微服务带来的可扩展、松耦合、研发和迭代效率提升等优点, 都有蠢蠢欲动的感觉。微服务背后隐藏着一座冰山,我们看到的往往是浮出水面的华丽的部分,而水下作为微服务的底座,需要包含日志的汇总和分析、服务注册和发现、部署和升级、资源管理、CI/CD流水线、服务依赖关系管理、调用链跟踪框架、灰度发布、蓝绿部署、容量评估和规划等技术,如果公司对这些基础设施缺乏积累,那么引入微服务架构我觉得会是一场噩梦。当然这些基础设施的发展也很迅速,开源社区也非常活跃,大大降低了建设这些基础设施的门槛。

CSDN:您作为技术人员,擅长太多,包括:流式索引构建系统&离线计算平台架构&PaaS&服务治理&高可用架构&DevOps等,可否分享下您学习新知识或技能的方法?以及在日常生活中你是通过哪些方式来提升个人技能的?

郑然:对于我来说,我特别享受学习的过程。我一直坚持每天7:30到公司,吃过早饭之后读一个小时的早报。早报的内容大部分是来自各个微信公众号和自媒体,把其中认为好的文章记录下来,这样组织了一个《分布式技术一周技术动态》的小专栏,每周为大家推送。 这个小专栏持续了一年半了,总共推送了上千篇技术文章,我个人的知识面也得到了很大的扩展。我也一直坚持组织团队和部门的技术分享会,我一个人的力量毕竟是有限的,我希望所有人都养成学习的习惯,当然我也可以从大家的分享中更快速的获取知识。

不过如果需要系统的学习,还是需要看书的,公司提供了图书馆制度,每个人每个季度都有一定的额度购买图书。

我的日常工作主要包括系统设计方案评审,项目过程中疑难问题的解决,需求和方案的讨论, code review。我喜欢编码,如果一段时间不写代码,就感觉心里不踏实,我的代码量在部门内排名还是比较靠前的。除此之外,我还需要给自己预留学习和思考的时间,这里的学习不是像读早报那样泛泛的学习,需要一定的系统学习,比如读一本书,学习一个开源或者公司内部的系统,学习设计方案等。思考的时间也特别重要,我需要保证我做出的技术决策大部分是对的,我需要保证整体技术方向不会出现偏差,我需要保证每个同学都有足够的成长空间, 这些都需要深入思考。

关于百度统计和BDP那些不为人知的事儿

来源:数据猿 作者:海致BDP

小莉是一家互联网公司的网站运营童鞋,为了能够获取PV、UV等最新的流量数据,小莉需要经常登录百度统计后台进行查看数据。奈何百度统计展示的图表太固定,为了满足老板需求,小莉只能自己手动导出百度统计等多个平台数据,熬夜加班进行分析,憔悴不已~

自从BDP个人版能够对接百度统计之后,小莉就能实时轻松获取网站的流量数据。而且在BDP中,小莉只需轻松点击鼠标就可以将多个平台的数据进行关联分析,不仅能够自动获取最新数据,还能够深度分析网站数据~

那么问题来了,如何将百度统计接入到BDP后台呢?

1.接入条件

网站已开通百度统计的功能,并且账号有查看百度统计中网站中心菜单的权限。

2.添加数据源

选择“数据源”-“添加数据源”-“数据统计”-“百度统计”,也可以直接在搜索框中输入百度统计进行查找。

3.连接配置

在连接配置里面需要填写查看网址,查看密码和监控网址等选项。这些信息可以在百度统计网站后台“管理”-“统计图标页面”中获取,见图2。

(图1:连接配置)

(图2:百度统计网站中心管理界面)

这里需要注意以下几点:

第三方查看密码和账号登陆密码是不同的,第三方查看密码可以任意设定。

为了安全,请勿勾选不需要密码直接查看选项。

查看网址和监控网址是一对一的关系,请仔细核对。为保证正确性,建议复制粘贴。

4.高级配置

高级设置里面有数据源名称,分类标签,辅助字段等输入项。

这里需要说明以下几点:

开始时间:何时开始统计百度统计数据的时间。

分类标签:便于自己区分业务需求 。

定时同步:每天早上4点进行数据更新同步。

最后我们来欣赏下小莉用百度统计数据在BDP做的一些关于PV、UV等内容的部分数据分析报告:

做好的数据报告还可以一键分享给老板汇报,数据报告还可以实时变动,大大提高了工作效率有木有,你是不是也心动了呢?快来BDP个人版一起制作数据报告吧~

注:

本文由 海致BDP 投稿数据猿发布。

欢迎更多大数据企业、爱好者投稿数据猿,来稿请直接投递至:tougao@datayuan.cn

百度竞价推广经常出现推广和百度统计数据对不上怎么回事

做百度竞价推广管理的可能会发现,有时百度竞价推广点击数和百度统计以及商桥上的点击数据对不上,也就是常见的莫名点击:百度竞价账户上显示点击并扣费,但百度统计和百度商桥上都没有显示,往往这样的情况做竞价管理的人员如果是不特别仔细核对是很难发现的。那这究竟是怎么一回事呢?

美耐思通过长期的观察及跟踪,发现很多时候都会出现这种情况,更可疑的是有时候都是消费高的词出现莫名点击,看着百度竞价账户扣费,百度统计和百度商桥上却连个访问痕迹都没有,岂能令人不生气,于是联系当地百度代理商客服提供截图要说明原因。

当然,客服一开始就以类似点击时间太短,网站没加载就关闭了等客户方自身原因来推脱,但我方就是专业做网站的,对于网站的加载速度还是有信心的,即便是点击网站链接立马关闭也会在百度统计和百度商桥上留有访问痕迹,所以自然这类的解释无法令人信服。后来当地的百度代理商客服让提供多天的问题数据截图来用来给百度总部反馈。美耐思也予以提供。

等待一周多,终于给了反馈,说是百度统计的结果仅供参考,如果网民通过小流量或者“猜你喜欢”或者其他产品策略搜索到客户广告点击进去,百度统计的数据就和竞价后台数据不一致,要以竞价推广后台结果为准。

百度给的推广点击异常反馈

这个小流量或者“猜你喜欢”或者其他产品策略可不是美耐思自己设置上去的呀,怎么自动就给“扩充展现了”?如何关闭呢?百度代理商客服表示有的无法关闭,有的还需要她再询问才能答复。

真是有点莫名其妙。