随笔分类 -  21天搞定Python分布爬虫

网易云课堂中的课程 https://study.163.com/course/introduction.htm?courseId=1004530011
摘要:Scrapy Shell 我们想要在爬虫中使用xpath、beautifulsoup、正则表达式、css选择器等来提取想要的数据。但是因为scrapy是一个比较重的框架。每次运行起来都要等待一段时间。因此要去验证我们写的提取规则是否正确,是一个比较麻烦的事情。因此Scrapy提供了一个shell,用 阅读全文
posted @ 2019-03-13 10:00 薇薇前进 阅读(204) 评论(0) 推荐(0)
摘要:CrawlSpider 在上一个糗事百科的爬虫案例中。我们是自己在解析完整个页面后获取下一页的url,然后重新发送一个请求。有时候我们想要这样做,只要满足某个条件的url,都给我进行爬取。那么这时候我们就可以通过CrawlSpider来帮我们完成了。CrawlSpider继承自Spider,只不过是 阅读全文
posted @ 2019-03-13 09:39 薇薇前进 阅读(357) 评论(0) 推荐(0)
摘要:JsonItemExporter方式保存数据 或JsonLinesItemExporter保存数据 区别: JsonItemExporter:每次把数据添加到内存中,最后统一写入到磁盘文件中。好处是,存储的是一个满足json规则的数据。坏处是如果数据量比较大,那么比较耗内存。 JsonLinesIt 阅读全文
posted @ 2019-03-12 14:25 薇薇前进 阅读(1257) 评论(0) 推荐(0)
摘要:安装和文档: 如果在windows系统下,提示这个错误ModuleNotFoundError: No module named 'win32api',那么使用以下命令可以解决:pip install pypiwin32。 案例: 创建项目: 进入到你想把这个项目存放的目录。然后使用控制台创建项目: 阅读全文
posted @ 2019-03-12 14:08 薇薇前进 阅读(380) 评论(0) 推荐(0)
摘要:tesseract下载地址:https://digi.bib.uni-mannheim.de/tesseract/ 添加中文的识别库: https://github.com/tesseract-ocr/tessdata/find/master 这个网址中下载chi_sim.traineddata,下 阅读全文
posted @ 2019-03-01 17:46 薇薇前进 阅读(3712) 评论(0) 推荐(0)
摘要:在登录豆瓣中,视频中可以直接获取复选框并勾选,可是我自己测试并行。查百度发现是因为框架的原因。登录框在框架内,要先进入框架才可以操作里面的元素。 修改代码如下: 关于driver.switch_to.frame(0),我们可以转到声明中查看用法 可以使用id,name或index和WebElemen 阅读全文
posted @ 2019-02-28 09:21 薇薇前进 阅读(371) 评论(0) 推荐(0)
摘要:正则的一个实例,提取古诗文网https://www.gushiwen.org/default_1.aspx的诗文。 参照课程写的。 老师课程中代码是将标题、朝代、作者、内容分开获取的,然后用zip函数将多个列表组合成一个元祖列表。 备忘点 一、zip函数,可以将多个列表组合成一个元祖的列表 二、 t 阅读全文
posted @ 2019-02-23 19:37 薇薇前进 阅读(457) 评论(0) 推荐(0)
摘要:爬取电影天堂最新电影,地址https://www.dytt8.net/html/gndy/dyzz/list_23_1.html 学习的视频中代码有几处跟我的有不同,可以学习 一、 其中提取主演的代码不同,如下 采用的是index的方式. enumerate() 函数用于将一个可遍历的数据对象(如列 阅读全文
posted @ 2019-02-21 10:54 薇薇前进 阅读(22997) 评论(0) 推荐(0)
摘要:运行报错, 查看页面是有无法识别的内容 百度试过更换编码gb18030,可是还是会报错. 最后找到了解决的方法,在decode方法中有errors参数 如下: 程序就不报错正常执行了. 百度中找到个方法打开网页:F12 在console输入document.charset 查看编码方式 当然,其实在 阅读全文
posted @ 2019-02-19 13:50 薇薇前进 阅读(3122) 评论(0) 推荐(0)