随笔分类 -  python网络爬虫

摘要:faker可以仿造各种各样的信息,可以使用faker去构造一个User-Agent 阅读全文
posted @ 2018-11-28 16:43 时间带着假象流淌 阅读(304) 评论(0) 推荐(0)
摘要:首先,建立一个项目#可在github账户下载完整代码:https://github.com/connordb/scrapy-jiandan2 scrapy startproject jiandan2 打开pycharm,把建立的此项目的文件打开,在中断新建一个爬虫文件 scrapy genspide 阅读全文
posted @ 2018-11-21 09:46 时间带着假象流淌 阅读(1186) 评论(0) 推荐(0)
摘要:1.什么是存储过程?有哪些优缺点? 存储过程是一些预编译的SQL语句(存储过程(Stored Procedure)是一组为了完成某种特定功能的SQL语句集,经编译后存储在数据库中,用户通过指定存储过程的名字并给定参数(如果该存储过程带有参数)来调用执行它)。 1)存储过程是预编译过的,执行效率高。2 阅读全文
posted @ 2018-11-16 10:16 时间带着假象流淌 阅读(348) 评论(0) 推荐(0)
摘要:目前使用Request+正则表达式,爬取猫眼电影top100的例子很多,就不再具体阐述过程! 完整代码github:https://github.com/connordb/Top-100 总结一下,容易出错的问题有: 1.没有加请求头,导致输出没有具体信息! 输出结果为:运行时间: 1.767100 阅读全文
posted @ 2018-11-15 21:47 时间带着假象流淌 阅读(1015) 评论(1) 推荐(0)
摘要:使用pycharm爬取知乎网站的时候,在terminal端输入scarpy crawl zhihu,提示语法错误,如下: 原因是python3.7中将async设为关键字,根据错误提示,找到manhole.py文件,将文件中async参数全部更改为其它名,比如async1。 这时候运行scarpy 阅读全文
posted @ 2018-10-07 12:33 时间带着假象流淌 阅读(397) 评论(0) 推荐(0)
摘要:在爬虫,请求网站的时候,有时候出现域名报错,所出现的代码所对应的意思: 阅读全文
posted @ 2018-10-06 15:20 时间带着假象流淌 阅读(349) 评论(0) 推荐(0)
摘要:Scrapy框架原理: 参考出处:https://cuiqingcai.com/3472.html 整个Scrapy的架构图: Scrapy Engine: 这是引擎,负责Spiders、ItemPipeline、Downloader、Scheduler中间的通讯,信号、数据传递等等!(像不像人的身 阅读全文
posted @ 2018-09-19 10:22 时间带着假象流淌 阅读(175) 评论(0) 推荐(0)