
软文发稿|公关软文|软文营销|媒体传播
SEO批量查询百度收录脚本说明:
1、批量查询百度收录。统计收录率、收录数据共多少条,未收录数据共多少条;2、脚本需先列出待查URL,把URL文件跟脚本文件放到同一个文件夹即可;3、查询过程是遇到验证码会停止N分钟,不用管,会自动继续运行。
代码中test.txt :待查询URL的列表文本,一行一个URL;
另外:Python的缩进要求是强制的,因为缩进不对直接影响了代码逻辑,所以如果要使用代码请自行根据代码逻辑缩进!还有需要安装的python库自行百度安装!
下面为大家把代码贴上,可自行复制到txt或者使用notepad粘贴进去另存为***.py(注意:脚本后缀为.py)
运行时直接写命令:python ***.py 即可!
新手注意:复制代码最好使用PC端,我在发布内容时发现移动端预览无缩进,懂代码的略过即可!
#encoding=utf-8
#批量查询百度收录。统计收录率、收录数据共多少条,未收录数据共多少条
import urllib,time
import StringIO
import pycurl
def get_baidu_html(url):
html = StringIO.StringIO()
c = pycurl.Curl()
myurl=”http://www.baidu.com/s?wd=%s”%url
c.setopt(pycurl.URL, myurl)
#写的回调
c.setopt(pycurl.WRITEFUNCTION, html.write)
c.setopt(pycurl.FOLLOWLOCATION, 1)
#最大重定向次数,可以预防重定向陷阱
c.setopt(pycurl.MAXREDIRS, 5)
#连接超时设置
c.setopt(pycurl.CONNECTTIMEOUT, 60)
c.setopt(pycurl.TIMEOUT, 300)
#模拟浏览器
c.setopt(pycurl.USERAGENT, “Mozilla/4.0 (compatible; MSIE 6.0; Windows NT 5.1; SV1; .NET CLR 1.1.4322)”)
#访问,阻塞到访问结束
ret = c.perform()
#输出网页的内容
ret = html.getvalue()
if “百度为您找到相关结果” in ret:
print url,’成功被收录’
return 1
elif “检查输入是否正确” in ret:
print url,’未收录’
return
elif “http://verify.baidu.com” in ret:
print “查询过程出现验证码”
time.sleep(300)
return
if __name__==”__main__”:
urls=open(‘test.txt’,’r’).readlines()
oknum=0
lostnum=0
for url in urls:
#print url.strip() #ctrl+/
if get_baidu_html(url.strip()):
oknum+=1
else:
lostnum+=1
print ‘收录率:’,float(oknum)/(oknum+lostnum)*100,’%’
print “收录数据共 %s 条”%oknum
print “未收录数据共 %s 条”% lostnum
我是尔东,一个不太合格的SEO从业者!
发稿网(QQ:599515669)是全国领先的在线新闻稿发布平台,团队由资深互联网专家组成,服务内容类涵盖软文发布、软文发布、微信营销、微博营销、视频置顶、百度问答等多种互联网广告行业。发稿网平台有上千媒介编辑、专业写手、段子手、营销专家,为企业、公共机构和个人提供定制化的解决方案,将创意、智慧、技能转化为商业价值和社会价值。发稿网平台凭借多年的网络资源和客户资源积累,发展遥遥领先同行业其他软文平台。
软文发稿|公关软文|软文营销|媒体传播