随笔分类 - 【Python爬虫】
摘要:pyecharts-WordCloud词云图 一、什么是词云图? 词云图是一种用来展现高频关键词的可视化表达,通过文字、色彩、图形的搭配,产生有冲击力地视觉效果,而且能够传达有价值的信息。 制作词云图的网站有很多,简单方便,适合小批量操作。 BI软件如Tableau、PowerBI也可以做,当然相比
阅读全文
摘要:爬取微信好友头像拼接为大图 代码: 性能提升 线程池并发 知识点: 1、itchat 操作微信 2、线程池实现并发 3、uuid 给图片命名 4、根据头像图片数量自动计算大图的宽高尺寸
阅读全文
摘要:selenium自动登录163邮箱 一、以“https://mail.163.com/” 入口登录 效果如下: 代码: 二、以“https://email2.163.com/” 入口登录 以该入口登录不需要将扫码切换为用户名密码登录的操作 代码: 注意点: 1、登录时要切换到 iframe框中,br
阅读全文
摘要:初识Scrapy框架 一、scrapy原理介绍 Scrapy一个开源和协作的框架,其最初是为了页面抓取 (更确切来说, 网络抓取 )所设计的,使用它可以以快速、简单、可扩展的方式从网站中提取所需的数据。 但目前Scrapy的用途十分广泛,可用于如数据挖掘、监测和自动化测试等领域,也可以应用在获取AP
阅读全文
摘要:并发、异步IO 在编写爬虫时,性能的消耗主要在IO请求中。当单进程单线程模式下请求URL时必然会引起等待,从而使得请求整体变慢。 import requests def fetch_async(url): response = requests.get(url) return response ur
阅读全文
摘要:爬虫的基本修养 一、什么是爬虫? 二、爬虫的基本流程 三、请求与响应 四、requests import requests kwords = input("请输入关键字:>>").strip() response = requests.get( "https://www.baidu.com/s?",
阅读全文
摘要:Python正则表达式re模块 参考:https://www.cnblogs.com/cute/p/9186208.html 老男孩苑昊老师: http://www.cnblogs.com/yuanchenqi/articles/5732581.html 廖雪峰老师: https://www.lia
阅读全文
摘要:初识selenium selenium最初是一个自动化测试工具,而爬虫中使用它主要是为了解决requests无法直接执行JavaScript代码的问题 selenium本质是通过驱动浏览器,完全模拟浏览器的操作,比如跳转、输入、点击、下拉等,来拿到网页渲染之后的结果,可支持多种浏览器 声明浏览器对象
阅读全文
摘要:PyQuery解析库 阅读目录 初始化 基本CSS选择器 查找元素 遍历 获取信息 DOM操作 伪类选择器 PyQuery解析库 阅读目录 初始化 基本CSS选择器 查找元素 遍历 获取信息 DOM操作 伪类选择器 PyQuery 是 Python 仿照 jQuery 的严格实现。语法与 jQuer
阅读全文
摘要:BeautifulSoup解析 HTML或XML 阅读目录 初识Beautiful Soup Beautiful Soup库的4种解析器 Beautiful Soup类的基本元素 基本使用 标签选择器 节点操作 标准选择器 find_all( name , attrs , recursive , t
阅读全文
摘要:正则表达式与re模块 阅读目录 在线正则表达式测试 常见匹配模式 re.match re.search re.findall re.compile 实战练习 在线正则表达式测试 http://tool.oschina.net/regex/ 常见匹配模式 re.match re.match 尝试从字符
阅读全文
摘要:requests比起之前用到的urllib,requests模块的api更加便捷(本质就是封装了urllib3) #GET请求 HTTP默认的请求方法就是GET * 没有请求体 * 数据必须在1K之内! * GET请求数据会暴露在浏览器的地址栏中 GET请求常用的操作: 1. 在浏览器的地址栏中直接
阅读全文

浙公网安备 33010602011771号