【Python爬虫】 - 随笔分类 - XJT2019

WordCloud词云图

摘要：pyecharts-WordCloud词云图一、什么是词云图？词云图是一种用来展现高频关键词的可视化表达，通过文字、色彩、图形的搭配，产生有冲击力地视觉效果，而且能够传达有价值的信息。制作词云图的网站有很多，简单方便，适合小批量操作。 BI软件如Tableau、PowerBI也可以做，当然相比阅读全文

posted @ 2020-03-15 20:06 XJT2019 阅读(1072) 评论(0) 推荐(0)

【Python爬虫】制作微信好友头像拼接大图

摘要：爬取微信好友头像拼接为大图代码：性能提升线程池并发知识点： 1、itchat 操作微信 2、线程池实现并发 3、uuid 给图片命名 4、根据头像图片数量自动计算大图的宽高尺寸阅读全文

posted @ 2019-06-17 10:50 XJT2019 阅读(504) 评论(0) 推荐(0)

【Python爬虫】自动登录163邮箱

摘要：selenium自动登录163邮箱一、以“https://mail.163.com/” 入口登录效果如下：代码：二、以“https://email2.163.com/” 入口登录以该入口登录不需要将扫码切换为用户名密码登录的操作代码：注意点： 1、登录时要切换到 iframe框中，br 阅读全文

posted @ 2019-06-16 18:01 XJT2019 阅读(3667) 评论(1) 推荐(0)

【Python爬虫】初识scrapy框架

摘要：初识Scrapy框架一、scrapy原理介绍 Scrapy一个开源和协作的框架，其最初是为了页面抓取 (更确切来说, 网络抓取 )所设计的，使用它可以以快速、简单、可扩展的方式从网站中提取所需的数据。但目前Scrapy的用途十分广泛，可用于如数据挖掘、监测和自动化测试等领域，也可以应用在获取AP 阅读全文

posted @ 2019-06-11 16:33 XJT2019 阅读(424) 评论(0) 推荐(0)

【Python爬虫】性能提升

摘要：并发、异步IO 在编写爬虫时，性能的消耗主要在IO请求中。当单进程单线程模式下请求URL时必然会引起等待，从而使得请求整体变慢。 import requests def fetch_async(url): response = requests.get(url) return response ur 阅读全文

posted @ 2019-06-11 11:20 XJT2019 阅读(255) 评论(0) 推荐(0)

【Python爬虫】爬虫的基本修养

摘要：爬虫的基本修养一、什么是爬虫? 二、爬虫的基本流程三、请求与响应四、requests import requests kwords = input("请输入关键字:>>").strip() response = requests.get( "https://www.baidu.com/s?", 阅读全文

posted @ 2019-05-30 14:52 XJT2019 阅读(261) 评论(0) 推荐(0)

Python正则表达式 re模块

摘要：Python正则表达式re模块参考：https://www.cnblogs.com/cute/p/9186208.html 老男孩苑昊老师： http://www.cnblogs.com/yuanchenqi/articles/5732581.html 廖雪峰老师： https://www.lia 阅读全文

posted @ 2019-05-15 21:18 XJT2019 阅读(358) 评论(0) 推荐(0)

【Python爬虫】selenium爬虫入门大全

摘要：初识selenium selenium最初是一个自动化测试工具,而爬虫中使用它主要是为了解决requests无法直接执行JavaScript代码的问题 selenium本质是通过驱动浏览器，完全模拟浏览器的操作，比如跳转、输入、点击、下拉等，来拿到网页渲染之后的结果，可支持多种浏览器声明浏览器对象阅读全文

posted @ 2019-01-24 22:52 XJT2019 阅读(607) 评论(0) 推荐(0)

【Python爬虫】PyQuery解析库

摘要：PyQuery解析库阅读目录初始化基本CSS选择器查找元素遍历获取信息 DOM操作伪类选择器 PyQuery解析库阅读目录初始化基本CSS选择器查找元素遍历获取信息 DOM操作伪类选择器 PyQuery 是 Python 仿照 jQuery 的严格实现。语法与 jQuer 阅读全文

posted @ 2019-01-24 22:29 XJT2019 阅读(305) 评论(0) 推荐(0)

【Python爬虫】BeautifulSoup 解析库

摘要：BeautifulSoup解析 HTML或XML 阅读目录初识Beautiful Soup Beautiful Soup库的4种解析器 Beautiful Soup类的基本元素基本使用标签选择器节点操作标准选择器 find_all( name , attrs , recursive , t 阅读全文

posted @ 2019-01-24 17:03 XJT2019 阅读(401) 评论(0) 推荐(0)

【Python爬虫】正则表达式与re模块

摘要：正则表达式与re模块阅读目录在线正则表达式测试常见匹配模式 re.match re.search re.findall re.compile 实战练习在线正则表达式测试 http://tool.oschina.net/regex/ 常见匹配模式 re.match re.match 尝试从字符阅读全文

posted @ 2019-01-24 09:57 XJT2019 阅读(538) 评论(0) 推荐(0)

【Python爬虫】requests库的用法

摘要：requests比起之前用到的urllib，requests模块的api更加便捷（本质就是封装了urllib3） #GET请求 HTTP默认的请求方法就是GET * 没有请求体 * 数据必须在1K之内！ * GET请求数据会暴露在浏览器的地址栏中 GET请求常用的操作： 1. 在浏览器的地址栏中直接阅读全文

posted @ 2019-01-24 09:41 XJT2019 阅读(882) 评论(0) 推荐(0)

熊出没

在等待的日子里，刻苦学习，谦卑做人，养的深根，日后才能枝繁叶茂

随笔分类 - 【Python爬虫】

公告