随笔分类 -  爬虫

摘要:一、什么是ajax AJAX 指异步 JavaScript 及 XML(Asynchronous JavaScript And XML) ajax不是一门编程语言,而是利用Javascript在保证页面不被刷新,页面链接不改变的情况下与服务器交换数据并更新部分网页的技术 二、抓取分析 打开今日头条, 阅读全文
posted @ 2019-08-31 21:52 souwote 阅读(1057) 评论(0) 推荐(0)
摘要:爬取目标:https://maoyan.com/board/4?offset=0 一、爬取首页 二、正则提取 正则提取首先要分析网站源代码 需要提取的信息有:排名,图片地址,片名,主演,上映日期和评分 从代码中可以看出,每个影片信息存放在一个<dd></dd>标签中 正则匹配时必须加上class名( 阅读全文
posted @ 2019-07-07 20:41 souwote 阅读(658) 评论(0) 推荐(0)
摘要:ThreadPoolExecutor(线程池) 线程池一些知识点: 编写方法一:直接返回处理 result 编写方法二:通过回调函数进行处理 result 阅读全文
posted @ 2019-04-24 20:29 souwote 阅读(3280) 评论(0) 推荐(0)
摘要:自动登录GitHub 获取网页信息等 阅读全文
posted @ 2019-04-23 22:50 souwote 阅读(292) 评论(0) 推荐(0)
摘要:阶段大纲: 一. 爬虫1. 基本操作- 登录任意网站(伪造浏览器的任何行为)2. 性能相关- 并发方案: - 异步IO: gevent/Twisted/asyncio/aiohttp- 自定义异步IO模块- IO多路复用:select3. Scrapy框架介绍:异步IO:Twisted- 基于Scr 阅读全文
posted @ 2019-04-23 19:05 souwote 阅读(392) 评论(0) 推荐(0)