随笔分类 - 爬虫
摘要:一、什么是ajax AJAX 指异步 JavaScript 及 XML(Asynchronous JavaScript And XML) ajax不是一门编程语言,而是利用Javascript在保证页面不被刷新,页面链接不改变的情况下与服务器交换数据并更新部分网页的技术 二、抓取分析 打开今日头条,
阅读全文
摘要:爬取目标:https://maoyan.com/board/4?offset=0 一、爬取首页 二、正则提取 正则提取首先要分析网站源代码 需要提取的信息有:排名,图片地址,片名,主演,上映日期和评分 从代码中可以看出,每个影片信息存放在一个<dd></dd>标签中 正则匹配时必须加上class名(
阅读全文
摘要:ThreadPoolExecutor(线程池) 线程池一些知识点: 编写方法一:直接返回处理 result 编写方法二:通过回调函数进行处理 result
阅读全文
摘要:阶段大纲: 一. 爬虫1. 基本操作- 登录任意网站(伪造浏览器的任何行为)2. 性能相关- 并发方案: - 异步IO: gevent/Twisted/asyncio/aiohttp- 自定义异步IO模块- IO多路复用:select3. Scrapy框架介绍:异步IO:Twisted- 基于Scr
阅读全文

浙公网安备 33010602011771号