随笔分类 -  实例

摘要:为什么要用代理池? 许多网站有专门的反爬虫措施,可能遇到封IP等问题。 互联网上公开了大量免费的代理,利用好资源。 通过定时的检测维护同样可以得到多个可用的代理。 代理池要求 多站抓取,异步检测 定时筛选,持续更新 提供接口,易于读取 代理池架构 阅读全文
posted @ 2018-12-11 11:43 cicarius 阅读(191) 评论(0) 推荐(0)
摘要:1.搜索关键字 利用Selenium驱动浏览器搜索关键字,得到查询后的商品列表 2.分析页码并翻页 得到商品页码数,模拟翻页,得到后续页面的商品列表 3.分析提取商品内容 利用PyQuery分析源码,解析得到商品列表 4.存储至MongoDB 将商品列表信息存储到数据库MongoDB 无法解决登录的 阅读全文
posted @ 2018-12-10 21:38 cicarius 阅读(395) 评论(0) 推荐(0)
摘要:1.抓取索引页内容 利用requests请求目标站点,得到索引网页HTML代码,返回结果。 2.抓取详情页内容 解析返回结果,得到详情页的链接,并进一步抓取详情页的信息。 3.下载图片与保存数据库 将图片下载到本地,并把页面信息及图片URL保存到MongDB。 4.开启循环及多线程 对多页内容遍历, 阅读全文
posted @ 2018-12-10 17:40 cicarius 阅读(365) 评论(0) 推荐(0)
摘要:打开github,在github上创建新项目: Repository name: anydoor Descripotion: Tiny NodeJS Static Web server 选择:public 选择:Initialize this repository with a README 添加g 阅读全文
posted @ 2018-12-10 14:07 cicarius 阅读(957) 评论(0) 推荐(0)
摘要:流程框架 1. 抓取单页内容 利用requests请求目标站点,得到单个网页HTML代码,返回结果。 2. 正则表达式分析 根据HTML代码分析得到电影的名称、主演、上映时间、评分、图片链接等信息。 3. 保存至文件 通过文件的形式将结果保存,每一部电影一个结果一行Json字符串。 4. 开启循环及 阅读全文
posted @ 2018-12-05 15:19 cicarius 阅读(312) 评论(0) 推荐(0)