2019 年 7月 23 日随笔档案 - wy0925

2019年7月23日

摘要：一, 介绍: scrapy是一个专业的,高效的爬虫框架, 它使用专业的Twisted包高效的处理网络通信, 使用lxml(专业的XML处理包),cssselect 高效的提取HTML页面的有效信息, 同时它也提供了有效的线程管理, 爬虫框架是实现爬虫功能的一个软件结构和功能组件集合, 爬虫框架是一阅读全文

posted @ 2019-07-23 17:28 wy0925 阅读(317) 评论(0) 推荐(0)

淘宝商品信息定向爬虫实例介绍

摘要：功能描述: 1)目标: 获取淘宝搜索页面的信息, 提取其中的商品名称和价格. 2)理解: 淘宝的搜索接口, 翻页的处理 3)技术路线 requests-re import re """ 1, 提交商品搜索请求, 循环获取页面 2, 对于每个页面, 提取商品名称和价格信息 3, 将信息输出到屏幕上 """ def getHtmlText(url): try: r... 阅读全文

posted @ 2019-07-23 15:10 wy0925 阅读(420) 评论(0) 推荐(0)

Re库的基本使用

摘要： Re库的match对象阅读全文

posted @ 2019-07-23 14:34 wy0925 阅读(822) 评论(0) 推荐(0)