摘要: 我的网站:www.yueqian.site 阅读全文
posted @ 2021-04-19 20:36 月前 阅读(93) 评论(0) 推荐(0)
摘要: from pybloom_live import BloomFilter f=BloomFilter(1000,0.001) for x in range(0,1000): f.add(x) print(4 in f) 运行结果如下: 阅读全文
posted @ 2021-04-13 14:38 月前 阅读(45) 评论(0) 推荐(0)
摘要: PhantomJS好像两年前就不再更新了,所以用chrome的无头模式做爬虫,无头浏览器就是指没有操作界面的浏览器,可以自动执行操作指令 例如:使用chrome的无头模式打开百度并且搜索“网络爬虫”,爬取搜索结果页的页面源码,代码如下: from selenium import webdriver 阅读全文
posted @ 2021-03-20 11:27 月前 阅读(178) 评论(0) 推荐(0)
摘要: 我发现的一些不同点如下: requests.get在python2.7中接受参数headers=headers,而python3.8中就不可以,推测是因为python3.x中变量名不能和关键字相同。 python2.7中将中文字符存储到json文件中会出现字符乱码现象,解决需要sys.getdefa 阅读全文
posted @ 2021-03-12 21:44 月前 阅读(356) 评论(0) 推荐(0)
摘要: 在爬虫中经常遇到中文字符存储乱码的情况,比如对我的博客进行爬虫: import json import requests from bs4 import BeautifulSoup user_agent = 'Mozilla/4.0 (compatible; MSIE 5.5; Windows NT 阅读全文
posted @ 2021-03-09 20:38 月前 阅读(148) 评论(0) 推荐(0)
摘要: 话接上回: https://www.cnblogs.com/yue-qian/p/14379618.html 实现这个小游戏需要玩家控制的飞船(ship),外星人(alien),开始按钮(button),玩家控制飞船射出的子弹(bullet)以及计分板。下面就依次实现各个模块。 ship模块如下: 阅读全文
posted @ 2021-03-05 15:25 月前 阅读(67) 评论(0) 推荐(0)
摘要: 正则表达式(regular expression)描述了一种字符串匹配的模式(pattern),可以用来检查一个串是否含有某种子串、将匹配的子串替换或者从某个串中取出符合某个条件的子串等。正则表达式作为一个模板,将某个字符模式与所搜索的字符串进行匹配。正则表达式是由普通字符(例如字符a到z)以及特殊 阅读全文
posted @ 2021-03-03 16:59 月前 阅读(73) 评论(0) 推荐(0)
摘要: python爬虫基本框架:爬虫调度器,URL管理器,HTML解析器,HTML下载器,数据存储器。 如下图: 各模块的功能分别如下: 爬虫调度器负责协调其他四个模块的工作;·URL管理器负责管理URL链接,维护已经爬取的URL集合和未爬取的URL集合,提供获取新URL链接的接口;HTML下载器负责从U 阅读全文
posted @ 2021-03-02 20:55 月前 阅读(122) 评论(0) 推荐(0)
摘要: 使用Pygame模块来开发一个简单的小游戏,这是一组功能强大而有趣的模块,可用于管理图形、动画乃至声音,可以让人能够更轻松地开发复杂的游戏。通过使用Pygame来处理在屏幕上绘制图像等任务,就不用考虑众多烦琐而艰难的编码工作,而是将重点放在程序的高级逻辑上。 首先了解Pygame模块,使用Pygam 阅读全文
posted @ 2021-02-05 20:23 月前 阅读(126) 评论(0) 推荐(0)
摘要: 今天咕咕咕 阅读全文
posted @ 2021-02-03 21:14 月前 阅读(31) 评论(0) 推荐(0)
摘要: 还可以更进一步,将函数存储在被称为模块的独立文件中,再将模块导入到主程序中。import语句允许在当前运行的程序文件中使用模块中的代码。导入模块有很多种方法。分别如下: from module_name import function_name as fn import module_name fr 阅读全文
posted @ 2021-02-02 19:40 月前 阅读(84) 评论(0) 推荐(0)
摘要: 列表解析将for循环和创建新元素的代码合并成一行,并自动附加新元素。如下: squares = [x**2 for x in range(1,10)] print(squares) 首先指定一个描述性的列表名,如squares;然后,指定一个左方括号,并定义一个表达式,用于生成你要存储到列表中的值。 阅读全文
posted @ 2021-02-01 15:52 月前 阅读(86) 评论(0) 推荐(0)
摘要: 想要去除字符串末尾的空白,可以使用方法rstrip(),如下: >>> favorite_language = 'python ' >>> favorite_language = favorite_language.rstrip() >>> favorite_language 'python' 去除 阅读全文
posted @ 2021-01-31 21:20 月前 阅读(56) 评论(0) 推荐(0)
摘要: from email.header import Header from email.mime.text import MIMEText from email.utils import parseaddr, formataddr import smtplib def _format_addr(s): 阅读全文
posted @ 2021-01-30 20:22 月前 阅读(109) 评论(0) 推荐(0)
摘要: 一、HTML正文抽取 我只是简单的了解了如何将HTML正文存储为JSON文件。以一个盗墓笔记的小说阅读网(http://seputu.com/)为例,抽取出盗墓笔记的标题、章节、章节名称和链接。原网站如图。 找到我所需要的Tag,如下图: 但是有一点需要说明,这是一个静态网站,标题、章节、章节名称都 阅读全文
posted @ 2021-01-29 19:57 月前 阅读(95) 评论(0) 推荐(0)
摘要: 咕咕咕咕咕咕 阅读全文
posted @ 2021-01-27 19:45 月前 阅读(87) 评论(0) 推荐(0)
摘要: 接着上次继续学习BeautifulSoup BeautifulSoup会将HTML转化为文档树进行搜索,既然是树形结构,那么就不得不提节点的概念。 子节点:首先说一下直接子节点,Tag中的.contents和.children是非常重要的。Tag的.content属性可以将Tag子节点以列表的方式输 阅读全文
posted @ 2021-01-26 20:34 月前 阅读(185) 评论(0) 推荐(0)
摘要: 去了医院,今天到晚上才开始学习 在几种HTML解析方法中,首先学习beautifulsoup。Beautiful Soup是一个可以从HTML或XML中提取数据的python库,它可以实现文档导航,查找,修改文档,在python爬虫中使用的主要是查找提取功能。 Beautiful Soup支持几种不 阅读全文
posted @ 2021-01-25 21:21 月前 阅读(660) 评论(0) 推荐(0)
摘要: 响应与编码: 下述代码中,r.content返回的是字节形式,r.text返回的是文本形式,r.encoding返回的是根据HTTP头猜测的网页编码格式。 其中text中的内容就是根据响应头猜测的编码格式对content进行编码得到的。也就是说想要获取一些不是文本的如jpg,mp4之类的内容需要使用 阅读全文
posted @ 2021-01-24 21:16 月前 阅读(66) 评论(0) 推荐(0)
摘要: 网络爬虫按照系统结构和实现技术,大致可以分为以下几种类型:通用网络爬虫、聚焦网络爬虫、增量式网络爬虫、深层网络爬虫。实际的网络爬虫系统通常是几种爬虫技术相结合实现的,搜索引擎如百度,谷歌就属于通用网络爬虫的范畴;聚焦爬虫并不追求大的覆盖,而将目标定为抓取与某一特定主题内容相关的网页,为面向主题的用户 阅读全文
posted @ 2021-01-24 16:00 月前 阅读(108) 评论(0) 推荐(0)