摘要:
一, 介绍: scrapy是一个专业的,高效的爬虫框架, 它使用专业的Twisted包高效的处理网络通信, 使用lxml(专业的XML处理包),cssselect 高效的提取HTML页面的有效信息, 同时它也提供了有效的线程管理, 爬虫框架 是实现爬虫功能的一个软件结构和功能组件集合, 爬虫框架是一 阅读全文
posted @ 2019-07-23 17:28
wy0925
阅读(316)
评论(0)
推荐(0)
摘要:
功能描述: 1)目标: 获取淘宝搜索页面的信息, 提取其中的商品名称和价格. 2)理解: 淘宝的搜索接口, 翻页的处理 3)技术路线 requests-re import re """ 1, 提交商品搜索请求, 循环获取页面 2, 对于每个页面, 提取商品名称和价格信息 3, 将信息输出到屏幕上 """ def getHtmlText(url): try: r... 阅读全文
posted @ 2019-07-23 15:10
wy0925
阅读(420)
评论(0)
推荐(0)
摘要:
Re库的match对象 阅读全文
posted @ 2019-07-23 14:34
wy0925
阅读(822)
评论(0)
推荐(0)
浙公网安备 33010602011771号