摘要: 最近在使用scrapy框架中出现报错问题:是因为管道中持久化存储mysql使用pymsql出现的问题。 pymysql连结mysql数据库时报错: 借鉴网友的解决方法: 错误原因: pymysql.Connect时charset设置应该是utf8而不是utf-8 !!! 另外一个报错: 错误原因: 阅读全文
posted @ 2019-08-08 20:41 blog_wu 阅读(8193) 评论(0) 推荐(0)
摘要: requests 概念补充 简单get请求实例 案例:爬取豆瓣电影排名 数据解析 -- 是为了实现聚焦爬虫 正则 bs4解析 导入: 总结 bs4实例(水浒传) xpath解析 导入 总结 xpath实例(爬boss直聘) 补充:中文乱码解决 补充:管道的使用 阅读全文
posted @ 2019-08-08 14:52 blog_wu 阅读(156) 评论(0) 推荐(0)
摘要: 爬虫简介 爬虫就是通过编写程序模拟浏览器上网,然后让其去互联网上抓取数据的过程。 浏览器其实就是一款天然的爬虫工具 爬虫的分类 通用爬虫:爬取一整张页面源码数据. 抓取系统(爬虫) 聚焦爬虫:爬取的是一张页面中局部的数据(数据解析) 增量式爬虫:用于监测网站数据更新的情况,从而爬取网站中最新更新出来 阅读全文
posted @ 2019-08-08 14:10 blog_wu 阅读(120) 评论(0) 推荐(0)