摘要: # 1、总结爬虫流程: 爬取 >解析 >存储 # 2、爬虫所需工具: 请求库:requests,selenium 解析库:正则,beautifulsoup,pyquery 存储库:文件,MySQL,Mongodb,Redis # 3、爬虫常用框架: scrapy 阅读全文
posted @ 2020-03-23 12:13 lhhhha 阅读(139) 评论(0) 推荐(0) 编辑
摘要: 恢复内容开始 恢复内容结束 阅读全文
posted @ 2020-03-23 12:11 lhhhha 阅读(187) 评论(0) 推荐(0) 编辑
摘要: 1.首先,找到了一个符合要求可以学习的案例 用Python flask框架写的简单版图书管理系统 https://blog.csdn.net/weixin_44158247/article/details/88089030 https://blog.csdn.net/JK_LKLK/article/ 阅读全文
posted @ 2019-08-19 01:04 lhhhha 阅读(549) 评论(0) 推荐(0) 编辑
摘要: 本来以为生产实习后不会再更博了,但为了暑假实践我又回来了,首先先把老师发的mangodb再好好整理一下,我这记性,没有上课的聊天记录差点全部忘记。。。。 1.先从官网上下载MongDB 2.修改环境变量 3.收藏上官方精选链接,里面都是满满的干货 https://www.cnblogs.com/ke 阅读全文
posted @ 2019-07-25 15:02 lhhhha 阅读(134) 评论(0) 推荐(0) 编辑
摘要: 1.概念 3.main.py 4.微信机器人 阅读全文
posted @ 2019-06-21 23:27 lhhhha 阅读(234) 评论(0) 推荐(0) 编辑
摘要: 2.导入数据 阅读全文
posted @ 2019-06-20 23:48 lhhhha 阅读(450) 评论(0) 推荐(0) 编辑
摘要: 1.beautifulsoup的简单使用 2.bs4之搜索文档树 3.bs4之遍历文档树 3.mongDB的简单使用 阅读全文
posted @ 2019-06-20 23:44 lhhhha 阅读(934) 评论(0) 推荐(0) 编辑
摘要: 1.注意将电脑的显示比例调至100% 阅读全文
posted @ 2019-06-19 23:32 lhhhha 阅读(1110) 评论(0) 推荐(0) 编辑
摘要: 1.Xpath 2. 3.破解登录 4.破解滑动验证码 5.爬取京东商品信息 阅读全文
posted @ 2019-06-18 23:48 lhhhha 阅读(599) 评论(0) 推荐(0) 编辑
摘要: 1.自动抽屉网 注意class或id属性中可能会含有多个值并由空格隔开,此时要注意找到唯一的值,且只能有一个值。 2.爬西刺代理 3.爬快代理 注意这里出错的原因可能是请求url出错,首页的url与第一页url可能是不一样的 比如快代理的首页是:https://www.kuaidaili.com/f 阅读全文
posted @ 2019-06-18 23:17 lhhhha 阅读(517) 评论(0) 推荐(0) 编辑