2018 年 9 月 – 第 76 页

东莞网络推广哪家好

Posted on 2018年9月27日 by fagaome

枭森环保在跟千度合作前找过好几家网络公司，有的排名做不了，有的服务不好，找到千度后，重新定位规划网站，网站得到网络营销专家肯定，排名首页稳定两年半！

热烈祝贺索诚电子“转轴”关键词首页稳定排名三年，每天在线询盘10-15个，行业里网络营销做的最好，网站被同行仿好几次。

华安消防器材专业提供东莞消防器材,东莞消防维修,东莞消防保养的东莞消防工程公司.欢迎新老客户来电咨询

cnc加工中心找纽威数控,经营加工中心,卧式加工中心,龙门加工中心,数控车床及车削中心,小立加等五大系列200多个加工中心品种.此外提供加工中心设备及配件,维修保养.

田机械是博信冲床广东与西南销售服务中心,经营世界顶尖品牌单轴冲床,双轴冲床,单轴开式冲床,单轴龙门冲床,双轴开式冲床,钢架冲床,高精冲床,高速冲床,更有强大的技术服务支持团队

你的课张闯大数据营销案例直击移动大数据助力宽带精准营销全过程

Posted on 2018年9月27日 by fagaome

大数据新的数据获取技术、预处理技术、存储技术、分析技术、可视化技术等使用更高维度、模式的算法挖掘数据，从而洞察未知，使企业构建颠覆式变革成为可能。你的课大数据营销班,为你定制的互联网课程。

然而随着互联网的发展，物品种类越来越多，消费者不知道所需物品应该归咎于哪类产品，比如用户不知道扫地机器人属于家电还是智能家居，其选择时间成本会变大，体验感也越来越复杂。为此，我们研发了个性化推荐算法，为用户提供更加方便、快捷的服务。即通过研究用户的行为轨迹，使用算法技术计算出用户偏好的商品，并在用户来到我们产品页面的第一时间为其展现。

中国移动建设了自有的“宽带综合资源管理系统”，该系统详细记录了移动宽带已经接入的居民小区的名称、数量、地理位置（经纬度）、小区规模、入住率、是否验收等信息。如果客户的常住住宅小区在“综合资源管理系统”中标记是已验收的宽带接入区域，则表明该小区的客户可以安装中国移动的宽带。你的课大数据营销班,为你定制的互联网课程。

　　确定了哪些居民小区已具备安装宽带的能力，接下来的关键问题就是要确定客户具体住在哪个小区里面，这要通过定位的方式来实现。一般来讲，在通信行业内客户住宅小区的定位方法和模型有多种多样，中国移动业务支撑中心经过几年的实践，探索出一种准确、有效的客户住宅小区的定位方法。该方法采用大数据分析思路，采用一次挖掘、多次修正的办法，确保了数据的准确性和有效性。

　　首先，通过同一基站下面的通话用户来进行一个粗略的位置确定，即划分同一小区用户时，先统计覆盖该小区的网络基站，然后统计在该网络基站下面经常通话的用户则判定为该小区用户。然而，因各地市住宅小区大小不一、规模和范围差异都较大，采用上述方法采集的数据通常还会有误差。因此，中国移动业务支撑中心又通过多种模型和算法对这一数据进行修正，比如收集各住宅小区的物业电话、小区社区医院等具有公共性质的小区属性电话，结合只有同一小区用户才会拨打小区内同一属性电话的现实场景，利用交往圈数据找到同一个小区的用户。如此一来，客户的常住小区一般就能够比较准确地判别了。你的课大数据营销班,为你定制的互联网课程。

　　知道客户所在的小区具备了安装移动宽带的能力，接下来的一个关键问题就是判定某个具体的客户是否装了宽带。据了解，这是移动宽带能否做到精准营销的一个最主要的问题，也是精准营销当中面临的一个最主要的难点问题。为此，中国移动有的放矢地设计了几套软件。其中常用的就是采用排除法，即首先依靠业务支撑系统识别哪些人已安装了移动宽带。找到了已安装移动宽带的用户，剩下的自然就是还没有安装的客户。

　　那么，系统又是如何确定客户已安装中国移动宽带的呢？这首先通过中国移动的“CRM系统”的宽带订购关系数据查询系统就能一目了然。该系统详细标明了已安装移动宽带客户的安装地址、住宅小区、带宽容量等信息，通过这些数据，系统再自动对应出该客户一般交往圈的数据，取出这些已安装宽带的用户交往概率在50%以上客户作为该客户的家属。已安装中国移动宽带的客户及家属都找到了，精准营销时自然也就要剔除掉这些客户了。

　　完成了上述步骤，紧接着就是要找到尚未安装宽带的客户中哪些是有需求和有能力装宽带的客户。首先，中国移动精准营销系统基于大数据对用户手机上网信令和日志数据进行深度洞察，从多个维度分析出用户不同时间段、不同位置的上网行为，识别出用户的流量使用偏好，进而识别出不同用户群的手机上网的时段偏好、位置偏好、应用偏好等，比如客户夜间流量较高，夜间存在游戏、视频、IPTV类等重度流量使用的用户。实践证明，上述用户大都有宽带安装需求。瞄准这些用户进行宽带营销，成功率一般都会高于50%。你的课大数据营销班,为你定制的互联网课程。

湖南的公司怎么做网络推广网络推广还可以这样做

Posted on 2018年9月27日 by fagaome

几年前，大部分人觉得网络推广是全国性大企业的事情，小公司就耕好自己的那一亩三分地就可以了。到了如今，无论是大企业还是小公司，甚至是湖南随便一个巷子里的小卖铺，都争先恐后的做起网络推广。请问你是不是买个菜，别人都让你加微信享优惠?

为什么要做网络推广，网络推广有何优势?

1.传播范围广

网络推广的传播它不受时间和空间的限制，它通过国际互联网把企业相关营销信息24小时不间地传播到世界各地。只要具备上网条件，任何人，在任何地点都可以阅读。这是传统媒体无法做到的。比如，湖南的公司发布的推广信息，美国的人民也可以看到。

2.交互性强

交互性是互联网络媒体独特的优势，它不同于传统营销通过纸媒体将信息单向传播，而是信息互动传播，用户可以获取他们认为有用的信息，厂商也可以随时得到宝贵的用户反馈信息。

3.增加客户粘性

企业通过网络推广将信息传递给目标客户，不仅是提高信息曝光率，也可以让客户随时可以了解到企业的新闻资讯和产品更新，这样以一种快捷、方便的方式提供公司及其产品的信息和客户所需的服务，能够很好的拉近公司与客户的距离，增强与客户的关系，增强客户粘性。

实用!网络推广的几个方法

1、搜索引擎网站推广

这个方法虽然用的人很多，但是我还是要写出来，因为这种方法能占据百度首页很多位置。

选择与你网站或产品有针对性的关键词，去制定1000个与我行业相关的关键词，每一个词生成一个独立营销页面，然后利用技术做交叉连接，快速提高权重，这样下来半个月只要一搜我设定的关键词首页一定有我的网站，这些关键词的百度指数都是很高的，效果就不用我再说了。

2、博客网站推广

软文要有发表的地方，一个是发到论坛，文章站，另一个是发到博客里。发到博客里有个好处是这些第三方博客权重高，容易被百度收录，排名靠前。

在做博客推广时，可能有大部分内容都是虚伪原创内容，为了使内容更为丰富质量更高一些，可以根据文章内容里找到一两个话题或者亮点，做为内容的补充，也可以说是拓展阅读，各位网编根据自己推广的课程可以插入图片和视频以做补充来降低与搜索引擎上其它文章的相似度比例。

在此，乐客小编建议各位同学多加入每个博客相应的圈子、话题组，把写的文章推介一下，提高一下文章的访问量。文章发布成功后，有的博客是可能被订阅的，有的可以分享到一些SNS垂直网站来扩大访问量和达到被迅速传播的目的。

3、论坛网站推广

收集所有的高质量，女性论坛，每个论坛注册几十个帐号，把签名设为自己的微信号，发表热门内容，自己顶自己帖子，注意换马甲，发布有争议性的标题内容，好的标题是论坛推广成败的100%，这里说的论坛是指泛论坛，包含留言本、论坛、贴吧等等一切网民可能聚集的地方。

4、视频推广

去百度视频里找些宣传视频或有意思的视频资料下载下来，然后利用软件把自己的微信号，QQ号植入到视频屏幕下方，然后设置不同的关键词标题去各大视频网站上传这些带有你微信号的视频，一个关键字就是一个标题上传一个视频。

这样区分开你有1000个关键字，就要上传1000个视频，当用户搜索你设置的某个关键字的时候你的视频排名就会靠前，别人就会看到你的微信号过来关注你。

另外，你也可以在音视频文件里放入自己的网站，特别是在一些需要证书才能收看的视频文件里，甚至可以弹出网站。使用这种方法，借助最新的电影上映时机，发布一个视频文件，就能搞到几十万的ip，效果绝对一流。

核心!网络推广的灵魂

好酒一定要留到最后。前面讲到的都是方法，虽然关键，但不是核心。现在是内容为王的时代，没有好的策划方案和内容，推广力度再大也只是徒增消费者对企业的反感。那么什么样的内容可以让一个公司或者产品一炮而红呢?效果最好，又最省钱的方案就是“事件炒作”。(具体可以查看乐客公关《没钱!做好事件炒作策划，小公司也能炒作成大品牌》的相关介绍)。

炫动网络百度搜狗360等搜索引擎里面的新闻内容来自哪里?

Posted on 2018年9月27日 by fagaome

　　在咨询过程当中，有部分用户会问道我们想要把我的软文发布到百度新闻上。那么一般我们都会回复，百度新闻是聚合新闻内容。百度新闻、360新闻和搜狗新闻性质大体相同，他们都是起到聚合新闻的作用，本身并不生产新闻。

　　所以百度新闻的内容来源主要来源于：网络新闻媒体和百度百家自媒体。

　　随便点击两条新闻，可以看到一条来自于凤凰网，也就是说百度聚合了凤凰网的新闻，只要我们把软文发布到凤凰网，内容如果质量比较高，百度新闻系统会优选质量比较高的新闻在百度新闻首页展示。另外审核也需要百度新闻人工审核。

　　另一条内容，打开以后就可以看到是来源于百度百家，百度百家类似于自媒体，自媒体发布的高质量内容，就有机会在百度新闻栏目展现。

深圳营销型网站分享博客营销案例

Posted on 2018年9月27日 by fagaome

深圳营销型网站分享博客营销案例

博客营销这是目前使用最多的自媒体营销平台,这也是它流行的原因。事实上,很多用户每天都会花费大约2个小时的时间在互联网上阅读博客和其他社交网站。写博客是一个引流的途径,让你教育你的读者更深入地了解你的网站提供的产品和服务。此外,您可以通过评论、发贴和甚至为您的行业中的其他博客撰写博文来获得更多的流量。这些评论是通过搜索引擎爬行,这将帮助你的排名!

遵循4个原则帮助中小微企业选择网络推广公司更靠谱

Posted on 2018年9月27日 by fagaome

在一家中小微企业刚刚创立的时候，想要在茫茫人海中脱颖而出，快速的提高自己的影响力和知名度，搭建起有口皆碑的良好信誉的话，就需要选择一家专业正规的网络推广公司进行推广营销，接下来的问题就是到底要如何才能找到一家这样的公司呢？今天营销大咖喆哥告诉你选择网络推广公司的时候要注意以下几个原则。

1、看网络搜索结果

这个是比较关键的，大家在选择一家网络推广平台的时候，可以把他们的公司名称或品牌名称输入到百度进行搜索查询，看一下他们是不是有做百度百科、互动百科等资料，在其他的新闻平台是否有过相关的报道，有没有自己的贴吧、论坛、文库等等。为什么要这样呢？是因为我们要首先了解下他们的推广效果如何，也就是说如果他们自己本身都没有推广上去的话，又怎么能够把客户的网站进行推广呢？所以对于客户来说是没有信赖度的。

2、看策划能力

一家好的推广平台不仅仅只有很好的推广手段，同时还应该具有完善的策划能力，能够深度的挖掘出产品、服务的优势和特性，建议大家在开始交流沟通的时候可以把自己公司目前存在的一些难题抛给他们，如果这家公司能够沟通过程中给你提供一个完整的网络推广营销方案，而且做到让大家都明白清楚的程度，那么这家公司的策划能力是值得肯定的。

网络推广公司营销体系

3、看文案水平

在选择网络推广公司的时候，除了看它的推广力度和策划能力，还要看下他们的专业文案水平是否高超，这是因为在网络推广中文案尤为重要，建议大家可以从他们自己的官方网站和自媒体中进行文章的查看和审查。如果他们自己的文案水平比较差的话，最好是不要选择，这样也不能给我们提供好的优质文章，能够具备品牌故事撰写能力的文案公司才是合格的。

4、看外界评价

对于每个行业来说，网络推广的需求都是不一样的，所以在案例和数据这块呈现出来的内容也是完全不同的，这个也可以作为我们的一个参考依据。网络推广平台只有针对每个不同的行业，制定出能够成熟解决问题的推广方案，和拥有丰富的经验的技术人员，才能够给客户的网络推广效果带来保障。可以要求网络推广公司提供过去的案例，这样我们可以做出更好的参考和对比，再从网络上收集整合过往客户对他们的评价是好是坏。需要注意辨别的是真实的差评还是恶意差评，因为由于同行不良竞争的关系，有些恶劣的同行会故意做出恶意差评，这个是需要大家仔细辨别的。

以上就是喆哥给广大创业中的中小微企业选择网络推广公司的几点建议，大家最好要仔细认真的把握，这关系到我们在投入相当的金额是否请来的是专业的人员和负责任的网络推广公司，从而实现以较低的成本和与时间得到更好推广效果的目的。

重大变革百度取消新闻发稿源企业营销将迎来下一个风口

Posted on 2018年9月27日 by fagaome

这几天，又一个关于百度的新闻在业界掀起不小的波澜，这就是百度宣布要取消新闻源数据库。

这个消息背后，究竟是怎么回事，对咱们企业做网络推广，又意味着什么呢？

先来说说新闻源本身。

做网络推广和网络公关的人都非常熟悉新闻源。

它是搜索引擎专门针对新闻搜索做的新闻种子数据库，这个数据库独立于网页搜索，用户搜出来的全部是按时间排序的最新资讯文章。

新闻源推广就是企业的资讯发布在这些新闻源网站上，能够获得百度新闻频道的搜索曝光，以及有机会在百度网页搜索被发现，从而获得优质流量。

不仅如此，由于新闻源通常都是媒体性网站，在用户心目中有着较高的公信力，所以新闻源推广还是企业宣传品牌的重要渠道。

尤其对于那些重视内容营销、品牌宣传、网络公关的企业来说，过去很长一段时间，他们评估内容发布媒体的重要指标，就是必须是百度新闻源。

那为什么百度现在要取消新闻源数据库呢？

我们先来看看目前的百度新闻源都是些什么网站。

你只要在百度新闻频道输入一个关键词，观察搜索结果的文章来源，通常都是新闻媒体、网络门户、行业门户、地方媒体等，很多还带有官方背景。

发现没有，这些都是传统PC互联网时代的资讯网站。

想想今天还有谁会每天主动去这些网站看资讯呢？如果不是仰赖关键词检索，这些资讯会有多少人看到呢？

而与此同时，以微信公众号、移动新闻客户端为代表的新媒体，通过手机APP为核心渠道，开启了狂飙突进的流量圈地运动，分走了PC资讯的大部分人气和流量。

可以说在新闻内容的战场上，百度早就遭遇四面楚歌，原有新闻源数据库已经过时了。

用户获取新闻、信息的平台越来越多

有破就有立，旧的数据库被取消，那么新的新闻收录机制将是什么呢？

总体上，百度新闻收录标准将变为全网系统自动判别优质资讯进行展示。

业界一致认为，数据库中原有的优质媒体，比如新浪、搜狐为首的综合门户网站；人民网、新华网为首的中央媒体；老牌行业门户网站等。

这些网站一直拥有比较优质的原创资讯，它们在新闻频道的收录和排名应该不会有大的变化。

真正被清除的应该是那些长期做付费新闻发布、内容质量低劣的资讯站点，尤其那些售卖SEO链接位置的资讯站。

过去很长时间以来，新闻源推广被SEO利用后，性质逐渐沦落为软文外链推广，新闻源本应具备的公信力宣传价值所剩无几，拉低了新闻源的整体口碑。百度此次调整肯定会将这类网站从新闻中剔除。

除了保留资深的新闻大站，最大的亮点，应该是百度将通过站长平台，推出VIP俱乐部计划，吸引那些优质原创内容网站加入新闻收录的阵营，只要内容质量好，不在乎你是个人网站、自媒体性质。

优质内容越来越受网络平台欢迎

早在2013年底，百度为了与公众号竞争，就推出了自媒体专栏百度百家，这更像一个博客。

去年，为了对付今日头条等移动信息流资讯平台，百度又推出自媒体平台“百度百家号”，所有个人和机构内容生产者都可以入驻百家号开辟专栏。

配合百家号的推出，百度也在强力打造手机百度的信息流资讯。

百家号的优质自媒体内容，不仅能在手机百度的信息流中呈现，应该也能在百度新闻搜索中脱颖而出。

以上就是百度新闻源数据库取消背后的原因和新的百度新闻收录机制。

对企业有哪些启示呢？

首先，企业在官网以外的资讯网站发布具有行业价值的动态资讯，这始终是合理、有效的品牌宣传策略，但出发点不只是品牌曝光，而是公信力建设。

同时一定要搞清楚所发布网站是否具有新闻发布价值，最简单的办法就是直接在百度新闻频道搜索发布站点的网址，以确保百度新闻有收录。

至于那些纯粹为了SEO目的进行的新闻发布，肯定越来越没有存在价值。

此外，企业最应该重视起来的，还是利用各大自媒体平台，注册自媒体账号，通过持续发布价值内容捕获潜在客户的关注，建立起与客户的联系。

这也是企业实施移动互联网营销，获取移动流量的重要步骤。

本文由作者胡宝介授权单仁资讯发布，胡宝介老师微信公众号：蓝莓先锋（微信号：lanmeixianfeng）

解秘百万级互动营销案例公交场景数字化应用即将到来

Posted on 2018年9月27日 by fagaome

依托厦门电视台移动电视的媒体体系，借助厦门声连网的声连码技术，2017年12月1日-2018年1月3日期间，「声动公交刮刮刮」活动在鹭岛厦门掀起了全民互动潮。

活动期间，只要在乘坐公交时打开手机，通过声连码技术就能在合作App上自动接收到刮刮卡，刮开获得衣食住行游娱购方方面面的奖品。

这一风靡全厦的刮奖活动已吸引351,366名乘坐公交出行的市民参与活动，达到4,924,628的互动次数，派发出价值上百万的实物礼品，反响热烈。

「爆款」是如何炼成的？

「声动公交刮刮刮」是怎样获得大量的乘客互动，又是如何激发线下用户参与热情的呢？现在，就由声动派为你揭秘这一「爆款」活动的幕后故事，带你看看活动主办方在产品运营、技术运维等方向做出各种的努力吧。

核心技术造就玩法升级

在此次的「声动公交刮刮刮」活动中，厦门移动电视引入了由厦门声连网自主研发而成可应用于公交场景数字化的新技术——声连码。在核心技术的支持下，建立了媒体与用户之间的连接。

“声连码”技术是一项以声波为介质的创新传输技术，不受光线、距离、角度的限制，能无缝嵌入影音媒体中，实现近景多元化、多屏互动的全新体验，在任何场景，只要有发声设备就能应用。

基于移动电视的视频媒体，乘客从原本「观看」移动电视屏幕的单向体验，通过具有声连码接收功能的合作App，升级为多屏互动的创新体验，构建电视媒体新玩法。

以用户体验与数据驱动产品运营

要支撑如此庞大的用户参与量、连接线上线下场景，产品运营人员在活动中发掘出了哪些妙点子呢？

互动方式独一无二

声动公交刮刮刮所采用的互动形式是「所见即所得」。当移动电视屏幕上在播放商家A广告时，此刻用户手机上就能自动接收到商家A提供的刮刮卡，获得丰厚奖品。

活动形式贴近用户

声动公交活动采用简单易懂的刮刮刮形式，让用户形成统一的用户习惯。

而在活动中期，升级加入的「集字赢大奖」形式在传统线下互动中也较少采用到。殊不知，这正是提高用户活跃和留存的诀窍所在。

运营策略调整及时

及时根据数据反馈调整策略，用数据驱动运营是活动能立于不败之地的诀窍。

通过每日数据分析，在不同时间点，动态调整刮奖券推送策略；

通过奖品核销数据跟进用户喜好，及时调整下线未来一批合作商户提供奖品类型，让活动玩法和奖品都更贴近用户的心。

产品设计力求严谨

在产品设计方面，由于提前考虑到了活动将有数以百万计的商家优惠信息数据产生，故而提前对这种信息随机性做了严谨的逻辑设计。

例如，参与活动的合作商家经过严格审核，确保用户免受到虚假奖品的困扰；

将不同价值的商品尽可能发放到各个用户，保证商家得到尽可能多的品牌曝光；

提供完善的核销机制，避免出现二次核销产生的纠纷。

这一系列精心策划的产品运营预设，既服务了商家——在移动电视播放其广告的时候推送奖品，在增加品牌曝光的同时引导线下消费，提升营销精准度；又便利了用户——让玩法与奖品更贴合其喜好，用最简单最有趣的方法获取实在的福利；同时，合作App的用户活跃度也得到了极大提升。在实践中通过数据分析发现，在2周左右的时间成功培养了用户习惯。

强有力的技术保障活动效果

活动效果上佳、短时间内获得大量访问固然是好事，但在如此大量访问的前提下，声动公交刮刮刮要怎样保证服务的可用性和稳定性呢？

声码解析

声码解析的部分实现做了大量的压测实验，保证服务的健壮性和可扩展性。我们使用了混合云的架构，声码解析SDK在遇到问题的时候会自动切换到备用服务，保证声码能够被正常解析。

前端用户体验

在业务方面进行了前后端的分离，页面的静态素材都放置到内容分发网络（CDN）上，体积较大的图片做了渐进式展现的处理，尽可能地提升用户体验。

针对后端优化

后端有类似全盘容灾、服务器动态扩容、蓝绿部署等优化。此外，为了减少后端API调用的延迟，使用了缓存技术对热点数据进行缓存。

发掘公交场景互联网+价值

媒体碎片化的时代，资讯过度爆炸令消费者很难对品牌形成有效记忆。此次「声动公交刮刮刮」活动，依托具有空间优势的公交传媒和移动互联网进行互动传播，打造出的「公交场景数字化应用」，还有更多值得深挖的服务和价值。

刚刚迎来的2018年，全球移动互联网的目标便是实现万物互联，创造更美好的未来。

「公交场景数字化应用」将移动电视的公交传媒场景、公交查询的出行服务场景、商户日常营销需求，各自拥有独立场景的三者紧密联系在一起。这正是移动互联网一种全新的连接方式，一种全新的数字化营销体验，它也必将在未来成为品牌信息传播的新趋势。

网络营销和网络推广一样吗

Posted on 2018年9月27日 by fagaome

随着越来越多的人加入自媒体领域中，网络营销和网络推广也就越来越被自媒体人谈及，那么他们两者是‘同义词’吗？

网络营销，就是以互联网为主要平台进行的，为达到一定营销目的的全面营销活动。所以它是为了达到利益而进行的，更重视网络营销后是否产生实际的经济效益。重点就是‘营销’二字上，说明网络营销不仅仅是在推广产品，而是要产生实际的经济效益。

衡量营销工作做的好不好，往往就是看卖出了多少产品或服务

网络营销对创意有着很大的依赖，也就是说这不是看你很努力就能得到报酬，而是看你点子多不多。

网络推广，狭义上讲是指通过基于互联网采取的各种手段方式进行的一种宣传推广等活动，以达到提高品牌知名度的一种效果。同传统广告相同，网络推广的目地都是增加自身的曝光度以及对品牌的维护；广义上的网络推广也可理解为网络营销。

网络推广在某种程度上同网络营销是类同的，因为它们都是为了维护自家的产品和知名度。网络推广重在‘推广’，更注重的是通过推广后，给企业带来的知名度以及在行业的影响力。

总之，网络营销里面肯定会有网络推广这一环，但网络推广中就可能没有网络营销。并且网络营销需要的是团队，个人是不能做出好的营销的，毕竟需要更好的创意只有集思广益，网络推广的成功关键是执行力，比如换友情链接，这是一个很基本的推广工作，所以一个人就能做出来。

Python爬虫实战系列4爬取百度新闻发稿信息

Posted on 2018年9月27日 by fagaome

欢迎大家关注公众号【哈希大数据】

前面我们已经介绍了scrapy的安装、入门教程，以及MongoDB的安装与配置，本篇将分享如何利用scrapy爬取百度新闻信息，并将爬取到的数据存储到MongoDB数据库中。

抓取目标

通过给定关键字，爬取百度新闻中搜索到的所有有关新闻信息，新闻标题、新闻链接、新闻来源。

技术路线

利用scrapy框架实现此次爬取，利用parse函数获得需要抓取的信息，通过items和piplinepipelines的设置实现数据存储到MongoDB数据库中，通过middleware设置user_agent降低网站对爬虫的限制，使得爬取速度可在一个较高的水平上。

目标站点分析

Python爬虫实战系列（3）中已经介绍了如何利用chrome浏览器获取对应标签的XPATH或CSS路径，本次获取新闻信息，采用的解析方式是CSS。

程序的结构设计

步骤1：打开命令行窗口，进入想新建项目的目录

步骤2：在命令行中输入：scrapy startproject xxxx(项目名称) 新建一个项目

步骤3：进入项目文件，在命令行中输入：scrapy genspider <爬虫名称> <爬取网址>新建爬虫

步骤3：更改items.py文件，设置item

步骤4：编写爬取代码

步骤5：更改pipelines和middlewares

步骤6：启动爬虫，打开命令行进入到项目目录下，输入：scrapy crawl <爬虫名称>

items.py代码如下：

# -*- coding: utf-8 -*-# Define here the models for your scraped items## See documentation in:# http://doc.scrapy.org/en/latest/topics/items.htmlfrom scrapy import Item, Fieldclass mmwzItem(Item):# define the fields for your item here like: # name = Field() article_title = Field() article_url = Field() article_catchroad = Field() article_source = Field()

本例子的爬虫名称为：xinwen，爬虫文件xinwen.py的代码为：

# -*- coding: utf-8 -*-from urllib.parse import urlencodeimport refrom scrapy import Spider, Requestfrom scrapy_mmwz.items import mmwzItemclass XinwenSpider(Spider):name = “xinwen” keyword = ‘比特币’ page = 0 #查詢信息 data = { ‘word’: keyword, ‘pn’: page, ‘cl’: ‘2’, ‘ct’: ‘1’, ‘tn’: ‘news’, ‘rn’: ’20’, ‘ie’: ‘utf – 8’, } # 生成URL的参数部分 params = urlencode(data) base = ‘http://news.baidu.com/ns?’ url = base + params allowed_domains = [“news.baidu.com”] start_urls = [url] def parse(self, response): item = mmwzItem() if response.status == 200: news_lists = response.css(‘#wrapper_wrapper #content_left div.result’) page_number = response.css(‘p#page strong span.pc::text’).extract_first() # print(news_lists) print(‘page_number:’, page_number) if news_lists: for news in news_lists: # news_lists是一个生成器，在调用函数是可以用for循环依次获取结果 lists = { ‘article_url’: news.css(‘.c-title a::attr(href)’).extract_first(), ‘article_title’: news.css(‘.c-title a::text’).extract_first(), ‘article_catchroad’: ‘baidu’, ‘article_source’: re.search(re.compile(‘(.*?)\\xa0’, re.S), news.css(‘p.c-author::text’).extract_first()).group(1) } for field in item.fields: if field in lists.keys(): item[field] = lists.get(field) # 它相当于return只不过一次返回一个 yield item print(response.css(‘p#page a:last-child::text’).extract_first()) if response.css(‘p#page a:last-child::text’).extract_first() == ‘下一页>’: # 獲取下一頁鏈接 next_page = ‘http://news.baidu.com’ + response.css(‘p#page a:last-child::attr(href)’).extract_first() # 實現循環獲取下一頁內容 yield Request(next_page, callback=self.parse)

通过pipelines设置，将爬取到的数据成功保存到MongoDB数据库中，设置详细代码如下：

# -*- coding: utf-8 -*-# Define your item pipelines here## Don’t forget to add your pipeline to the ITEM_PIPELINES setting# See: http://doc.scrapy.org/en/latest/topics/item-pipeline.htmlimport pymongoclass MongoPipeline(object):collection_name = ‘xinwen’ def __init__(self, mongo_uri, mongo_db): self.mongo_uri = mongo_uri self.mongo_db = mongo_db @classmethod def from_crawler(cls, crawler): return cls( mongo_uri=crawler.settings.get(‘MONGO_URI’), mongo_db=crawler.settings.get(‘MONGO_DATABASE’, ‘items’) ) def open_spider(self, spider): self.client = pymongo.MongoClient(self.mongo_uri) self.db = self.client[self.mongo_db] def close_spider(self, spider): self.client.close() # def process_item(self, item, spider): # self.db[‘user’].update({‘url_token’: item[‘url_token’]}, {‘$set’: item}, True) # # return item def process_item(self, item, spider): self.db[self.collection_name].insert(dict(item)) return item

这里需要注意两点，第一首先安装pymongo包，第二在settings.py文件做如下设置：

MONGO_URI = ‘localhost’MONGO_DATABASE = ‘xinwen’

settings.py文件中还有一个需要特别注意的是：

# Obey robots.txt rulesROBOTSTXT_OBEY = False

非常多的网站都有robots协议，不允许爬取本网站信息，如果这个参数设置为True，非常多的网站都不能爬取了。

完整项目代码请参考我的GitHub：https://github.com/kxylxx/scrapy_testproject

为了方便查看爬取到的信息，这里给大家推荐一个MongoDB可视化软件Robo 3T,详细安装使用教程请参考：https://www.cnblogs.com/dacongge/p/7346037.html ，感谢大葱哥的分享。

结果展示及小结

获取到的数据如下图所示：

小结：

通过本次实战希望大家对scrapy框架有更深刻的认识，希望能够根据该案例设计一个基于scrapy框架的爬虫程序，以熟悉整个爬取流程。希望大家能够自己敲写代码，在敲代码的过程中发现问题解决问题。

月度归档： 2018 年 9 月

东莞网络推广哪家好

你的课张闯大数据营销案例直击移动大数据助力宽带精准营销全过程

湖南的公司怎么做网络推广网络推广还可以这样做

炫动网络百度搜狗360等搜索引擎里面的新闻内容来自哪里?

深圳营销型网站分享博客营销案例

遵循4个原则帮助中小微企业选择网络推广公司更靠谱

重大变革百度取消新闻发稿源企业营销将迎来下一个风口

解秘百万级互动营销案例公交场景数字化应用即将到来

网络营销和网络推广一样吗

Python爬虫实战系列4爬取百度新闻发稿信息

归档

分类