月前 - 博客园

摘要：我的网站：www.yueqian.site 阅读全文

posted @ 2021-04-19 20:36 月前阅读(93) 评论(0) 推荐(0)

2021年4月13日

2021.4.13 布隆滤波器

摘要： from pybloom_live import BloomFilter f=BloomFilter(1000,0.001) for x in range(0,1000): f.add(x) print(4 in f) 运行结果如下：阅读全文

posted @ 2021-04-13 14:38 月前阅读(45) 评论(0) 推荐(0)

2021年3月20日

2021.3.20 selenium与无头浏览器

摘要： PhantomJS好像两年前就不再更新了，所以用chrome的无头模式做爬虫，无头浏览器就是指没有操作界面的浏览器，可以自动执行操作指令例如：使用chrome的无头模式打开百度并且搜索“网络爬虫”，爬取搜索结果页的页面源码，代码如下： from selenium import webdriver 阅读全文

posted @ 2021-03-20 11:27 月前阅读(178) 评论(0) 推荐(0)

2021年3月12日

2021.3.12 python2.7和python3.8有关爬虫的一些区别

摘要：我发现的一些不同点如下： requests.get在python2.7中接受参数headers=headers，而python3.8中就不可以，推测是因为python3.x中变量名不能和关键字相同。 python2.7中将中文字符存储到json文件中会出现字符乱码现象，解决需要sys.getdefa 阅读全文

posted @ 2021-03-12 21:44 月前阅读(357) 评论(0) 推荐(0)

2021年3月9日

2021.3.9 python2.7爬虫中遇到的中文字符乱码问题

摘要：在爬虫中经常遇到中文字符存储乱码的情况，比如对我的博客进行爬虫： import json import requests from bs4 import BeautifulSoup user_agent = 'Mozilla/4.0 (compatible; MSIE 5.5; Windows NT 阅读全文

posted @ 2021-03-09 20:38 月前阅读(149) 评论(0) 推荐(0)

2021年3月5日

2021.3.4 python实战——小游戏（续）

摘要：话接上回： https://www.cnblogs.com/yue-qian/p/14379618.html 实现这个小游戏需要玩家控制的飞船（ship），外星人(alien)，开始按钮（button），玩家控制飞船射出的子弹（bullet）以及计分板。下面就依次实现各个模块。 ship模块如下：阅读全文

posted @ 2021-03-05 15:25 月前阅读(68) 评论(0) 推荐(0)

2021年3月3日

2020.3.3 正则表达式粗略了解

摘要：正则表达式(regular expression)描述了一种字符串匹配的模式（pattern），可以用来检查一个串是否含有某种子串、将匹配的子串替换或者从某个串中取出符合某个条件的子串等。正则表达式作为一个模板，将某个字符模式与所搜索的字符串进行匹配。正则表达式是由普通字符（例如字符a到z）以及特殊阅读全文

posted @ 2021-03-03 16:59 月前阅读(74) 评论(0) 推荐(0)

2021年3月2日

2021.3.2 爬虫基本框架

摘要： python爬虫基本框架：爬虫调度器，URL管理器，HTML解析器，HTML下载器，数据存储器。如下图：各模块的功能分别如下：爬虫调度器负责协调其他四个模块的工作；·URL管理器负责管理URL链接，维护已经爬取的URL集合和未爬取的URL集合，提供获取新URL链接的接口；HTML下载器负责从U 阅读全文

posted @ 2021-03-02 20:55 月前阅读(122) 评论(0) 推荐(0)

2021年2月5日

2021.2.5 python实战——小游戏

摘要：使用Pygame模块来开发一个简单的小游戏，这是一组功能强大而有趣的模块，可用于管理图形、动画乃至声音，可以让人能够更轻松地开发复杂的游戏。通过使用Pygame来处理在屏幕上绘制图像等任务，就不用考虑众多烦琐而艰难的编码工作，而是将重点放在程序的高级逻辑上。首先了解Pygame模块，使用Pygam 阅读全文

posted @ 2021-02-05 20:23 月前阅读(127) 评论(0) 推荐(0)

2021年2月3日

2021.2.3 咕咕咕

摘要：今天咕咕咕阅读全文

posted @ 2021-02-03 21:14 月前阅读(31) 评论(0) 推荐(0)

2021年2月2日

2021.2.2 python编程中一些我应该注意的地方（三）

摘要：还可以更进一步，将函数存储在被称为模块的独立文件中，再将模块导入到主程序中。import语句允许在当前运行的程序文件中使用模块中的代码。导入模块有很多种方法。分别如下： from module_name import function_name as fn import module_name fr 阅读全文

posted @ 2021-02-02 19:40 月前阅读(84) 评论(0) 推荐(0)

2021年2月1日

2021.2.1 python编程中一些我应该注意的地方（二）

摘要：列表解析将for循环和创建新元素的代码合并成一行，并自动附加新元素。如下： squares = [x**2 for x in range(1,10)] print(squares) 首先指定一个描述性的列表名，如squares；然后，指定一个左方括号，并定义一个表达式，用于生成你要存储到列表中的值。阅读全文

posted @ 2021-02-01 15:52 月前阅读(88) 评论(0) 推荐(0)

2021年1月31日

2021.1.31 python编程中一些我应该注意的地方（一）

摘要：想要去除字符串末尾的空白，可以使用方法rstrip（），如下： >>> favorite_language = 'python ' >>> favorite_language = favorite_language.rstrip() >>> favorite_language 'python' 去除阅读全文

posted @ 2021-01-31 21:20 月前阅读(56) 评论(0) 推荐(0)

2021年1月30日

2021.1.30 python脚本实现邮件发送

摘要： from email.header import Header from email.mime.text import MIMEText from email.utils import parseaddr, formataddr import smtplib def _format_addr(s): 阅读全文

posted @ 2021-01-30 20:22 月前阅读(110) 评论(0) 推荐(0)

2021年1月29日

2021.1.29 爬虫中不涉及数据库的数据存储

摘要：一、HTML正文抽取我只是简单的了解了如何将HTML正文存储为JSON文件。以一个盗墓笔记的小说阅读网（http://seputu.com/）为例，抽取出盗墓笔记的标题、章节、章节名称和链接。原网站如图。找到我所需要的Tag，如下图：但是有一点需要说明，这是一个静态网站，标题、章节、章节名称都阅读全文

posted @ 2021-01-29 19:57 月前阅读(96) 评论(0) 推荐(0)

2021年1月27日

2021.1.27 咕咕咕

摘要：咕咕咕咕咕咕阅读全文

posted @ 2021-01-27 19:45 月前阅读(87) 评论(0) 推荐(0)

2021年1月26日

2021.1.26 几种HTML解析方法（二）

摘要：接着上次继续学习BeautifulSoup BeautifulSoup会将HTML转化为文档树进行搜索，既然是树形结构，那么就不得不提节点的概念。子节点：首先说一下直接子节点，Tag中的.contents和.children是非常重要的。Tag的.content属性可以将Tag子节点以列表的方式输阅读全文

posted @ 2021-01-26 20:34 月前阅读(185) 评论(0) 推荐(0)

2021年1月25日

2021.1.25 几种HTML解析方法（一）

摘要：去了医院，今天到晚上才开始学习在几种HTML解析方法中，首先学习beautifulsoup。Beautiful Soup是一个可以从HTML或XML中提取数据的python库，它可以实现文档导航，查找，修改文档，在python爬虫中使用的主要是查找提取功能。 Beautiful Soup支持几种不阅读全文

posted @ 2021-01-25 21:21 月前阅读(662) 评论(0) 推荐(0)

2021年1月24日

2021.1.24 晚 python爬虫初涉

摘要：响应与编码：下述代码中，r.content返回的是字节形式，r.text返回的是文本形式，r.encoding返回的是根据HTTP头猜测的网页编码格式。其中text中的内容就是根据响应头猜测的编码格式对content进行编码得到的。也就是说想要获取一些不是文本的如jpg，mp4之类的内容需要使用阅读全文

posted @ 2021-01-24 21:16 月前阅读(67) 评论(0) 推荐(0)

2021.1.24下午 python爬虫初涉

摘要：网络爬虫按照系统结构和实现技术，大致可以分为以下几种类型：通用网络爬虫、聚焦网络爬虫、增量式网络爬虫、深层网络爬虫。实际的网络爬虫系统通常是几种爬虫技术相结合实现的，搜索引擎如百度，谷歌就属于通用网络爬虫的范畴；聚焦爬虫并不追求大的覆盖，而将目标定为抓取与某一特定主题内容相关的网页，为面向主题的用户阅读全文

posted @ 2021-01-24 16:00 月前阅读(109) 评论(0) 推荐(0)

公告