博客
关于我
强烈建议你试试无所不能的chatGPT,快点击我
scrapy1.3.2 写一个简单爬虫
阅读量:4058 次
发布时间:2019-05-25

本文共 882 字,大约阅读时间需要 2 分钟。

新建scrapy工程

scrapy startproject project_name

进入工程目录,新建spider

scrapy genspider --template=crawl spider_file_name www.baidu.com

修改settings.py文件

#关掉机器人协议ROBOTSTXT_OBEY = False#设置下载延迟DOWNLOAD_DELAY = 2

在工程目录下添加run.py文件

from scrapy import cmdline# window和ubuntu下都可以这么用cmdline.execute('scrapy crawl spider_name'.split())

进入spider目录,修改spider_file_name.py文件

import refrom scrapy.spider import CrawlSpiderfrom scrapy.http import Requestfrom scrapy.selector import Selectorclass tspider(CrawlSpider):	name = 'spider_name'	def start_request(self):		url = 'https://www.baidu.com'		yield Request(url=url,callback=self.parse)	def parse(self,response):		selector = Selector(response)		baidulist = selector.xpath('body/div[@id="wrapper" and @style]/ \			div[@id="head" and @class=""]/div[@class="head_wrapper"]/ \			div[@id="u1"]')		for a in baidulist:			print a.xpath('a/text()')		pass

然后运行run.py即可

转载地址:http://kqgci.baihongyu.com/

你可能感兴趣的文章
安装k8s Master高可用集群
查看>>
忽略图片透明区域的事件(Flex)
查看>>
忽略图片透明区域的事件(Flex)
查看>>
AS3 Flex基础知识100条
查看>>
Flex动态获取flash资源库文件
查看>>
01Java基础语法-16. while循环结构
查看>>
Django框架全面讲解 -- Form
查看>>
今日互联网关注(写在清明节后):每天都有值得关注的大变化
查看>>
”舍得“大法:把自己的优点当缺点倒出去
查看>>
[今日关注]鼓吹“互联网泡沫,到底为了什么”
查看>>
[互联网学习]如何提高网站的GooglePR值
查看>>
[关注大学生]求职不可不知——怎样的大学生不受欢迎
查看>>
[关注大学生]读“贫困大学生的自白”
查看>>
[互联网关注]李开复教大学生回答如何学好编程
查看>>
[关注大学生]李开复给中国计算机系大学生的7点建议
查看>>
[茶余饭后]10大毕业生必听得歌曲
查看>>
VC++ MFC SQL ADO数据库访问技术使用的基本步骤及方法
查看>>
VUE-Vue.js之$refs,父组件访问、修改子组件中 的数据
查看>>
Python自动化之pytest常用插件
查看>>
Python自动化之pytest框架使用详解
查看>>