21天搞定Python分布爬虫 - 随笔分类 - 薇薇前进

Scrapy Shell

摘要：Scrapy Shell 我们想要在爬虫中使用xpath、beautifulsoup、正则表达式、css选择器等来提取想要的数据。但是因为scrapy是一个比较重的框架。每次运行起来都要等待一段时间。因此要去验证我们写的提取规则是否正确，是一个比较麻烦的事情。因此Scrapy提供了一个shell，用阅读全文

posted @ 2019-03-13 10:00 薇薇前进阅读(204) 评论(0) 推荐(0)

CrawlSpider爬虫

摘要：CrawlSpider 在上一个糗事百科的爬虫案例中。我们是自己在解析完整个页面后获取下一页的url，然后重新发送一个请求。有时候我们想要这样做，只要满足某个条件的url，都给我进行爬取。那么这时候我们就可以通过CrawlSpider来帮我们完成了。CrawlSpider继承自Spider，只不过是阅读全文

posted @ 2019-03-13 09:39 薇薇前进阅读(357) 评论(0) 推荐(0)

JsonItemExporter和JsonLinesItemExporter保存数据

摘要：JsonItemExporter方式保存数据或JsonLinesItemExporter保存数据区别： JsonItemExporter：每次把数据添加到内存中，最后统一写入到磁盘文件中。好处是，存储的是一个满足json规则的数据。坏处是如果数据量比较大，那么比较耗内存。 JsonLinesIt 阅读全文

posted @ 2019-03-12 14:25 薇薇前进阅读(1257) 评论(0) 推荐(0)

Scrapy的一个简单入门

摘要：安装和文档: 如果在windows系统下，提示这个错误ModuleNotFoundError: No module named 'win32api'，那么使用以下命令可以解决：pip install pypiwin32。案例: 创建项目：进入到你想把这个项目存放的目录。然后使用控制台创建项目：阅读全文

posted @ 2019-03-12 14:08 薇薇前进阅读(380) 评论(0) 推荐(0)

Tesseract的简单使用

摘要：tesseract下载地址：https://digi.bib.uni-mannheim.de/tesseract/ 添加中文的识别库： https://github.com/tesseract-ocr/tessdata/find/master 这个网址中下载chi_sim.traineddata，下阅读全文

posted @ 2019-03-01 17:46 薇薇前进阅读(3712) 评论(0) 推荐(0)

UnicodeEncodeError: 'gbk' codec can't encode character '\ufeff' in position 0: illegal multibyte sequence

摘要：代码阅读全文

posted @ 2019-02-28 13:22 薇薇前进阅读(9715) 评论(0) 推荐(0)

selenium切换iframe

摘要：在登录豆瓣中,视频中可以直接获取复选框并勾选,可是我自己测试并行。查百度发现是因为框架的原因。登录框在框架内，要先进入框架才可以操作里面的元素。修改代码如下：关于driver.switch_to.frame(0)，我们可以转到声明中查看用法可以使用id，name或index和WebElemen 阅读全文

posted @ 2019-02-28 09:21 薇薇前进阅读(371) 评论(0) 推荐(0)

正则提取案例(古诗文网)

摘要：正则的一个实例，提取古诗文网https://www.gushiwen.org/default_1.aspx的诗文。参照课程写的。老师课程中代码是将标题、朝代、作者、内容分开获取的，然后用zip函数将多个列表组合成一个元祖列表。备忘点一、zip函数，可以将多个列表组合成一个元祖的列表二、 t 阅读全文

posted @ 2019-02-23 19:37 薇薇前进阅读(457) 评论(0) 推荐(0)

电影天堂爬取详情页

摘要：爬取电影天堂最新电影,地址https://www.dytt8.net/html/gndy/dyzz/list_23_1.html 学习的视频中代码有几处跟我的有不同,可以学习一、其中提取主演的代码不同,如下采用的是index的方式. enumerate() 函数用于将一个可遍历的数据对象(如列阅读全文

posted @ 2019-02-21 10:54 薇薇前进阅读(22997) 评论(0) 推荐(0)

UnicodeDecodeError: 'gbk' codec can't decode byte 0xd0 in position 13345: illegal multibyte sequence

摘要：运行报错, 查看页面是有无法识别的内容百度试过更换编码gb18030,可是还是会报错. 最后找到了解决的方法,在decode方法中有errors参数如下: 程序就不报错正常执行了. 百度中找到个方法打开网页：F12 在console输入document.charset 查看编码方式当然,其实在阅读全文

posted @ 2019-02-19 13:50 薇薇前进阅读(3122) 评论(0) 推荐(0)

薇薇前进

随笔分类 - 21天搞定Python分布爬虫

公告