会员
周边
新闻
博问
闪存
众包
赞助商
Chat2DB
所有博客
当前博客
我的博客
我的园子
账号设置
会员中心
简洁模式
...
退出登录
注册
登录
月前
Beautiful is better than ugly.Simple is better than complex.
博客园
首页
新随笔
联系
订阅
管理
[置顶]
我的网站:www.yueqian.site
摘要: 我的网站:www.yueqian.site
阅读全文
posted @ 2021-04-19 20:36 月前
阅读(93)
评论(0)
推荐(0)
2021年4月13日
2021.4.13 布隆滤波器
摘要: from pybloom_live import BloomFilter f=BloomFilter(1000,0.001) for x in range(0,1000): f.add(x) print(4 in f) 运行结果如下:
阅读全文
posted @ 2021-04-13 14:38 月前
阅读(45)
评论(0)
推荐(0)
2021年3月20日
2021.3.20 selenium与无头浏览器
摘要: PhantomJS好像两年前就不再更新了,所以用chrome的无头模式做爬虫,无头浏览器就是指没有操作界面的浏览器,可以自动执行操作指令 例如:使用chrome的无头模式打开百度并且搜索“网络爬虫”,爬取搜索结果页的页面源码,代码如下: from selenium import webdriver
阅读全文
posted @ 2021-03-20 11:27 月前
阅读(178)
评论(0)
推荐(0)
2021年3月12日
2021.3.12 python2.7和python3.8有关爬虫的一些区别
摘要: 我发现的一些不同点如下: requests.get在python2.7中接受参数headers=headers,而python3.8中就不可以,推测是因为python3.x中变量名不能和关键字相同。 python2.7中将中文字符存储到json文件中会出现字符乱码现象,解决需要sys.getdefa
阅读全文
posted @ 2021-03-12 21:44 月前
阅读(356)
评论(0)
推荐(0)
2021年3月9日
2021.3.9 python2.7爬虫中遇到的中文字符乱码问题
摘要: 在爬虫中经常遇到中文字符存储乱码的情况,比如对我的博客进行爬虫: import json import requests from bs4 import BeautifulSoup user_agent = 'Mozilla/4.0 (compatible; MSIE 5.5; Windows NT
阅读全文
posted @ 2021-03-09 20:38 月前
阅读(148)
评论(0)
推荐(0)
2021年3月5日
2021.3.4 python实战——小游戏(续)
摘要: 话接上回: https://www.cnblogs.com/yue-qian/p/14379618.html 实现这个小游戏需要玩家控制的飞船(ship),外星人(alien),开始按钮(button),玩家控制飞船射出的子弹(bullet)以及计分板。下面就依次实现各个模块。 ship模块如下:
阅读全文
posted @ 2021-03-05 15:25 月前
阅读(67)
评论(0)
推荐(0)
2021年3月3日
2020.3.3 正则表达式粗略了解
摘要: 正则表达式(regular expression)描述了一种字符串匹配的模式(pattern),可以用来检查一个串是否含有某种子串、将匹配的子串替换或者从某个串中取出符合某个条件的子串等。正则表达式作为一个模板,将某个字符模式与所搜索的字符串进行匹配。正则表达式是由普通字符(例如字符a到z)以及特殊
阅读全文
posted @ 2021-03-03 16:59 月前
阅读(73)
评论(0)
推荐(0)
2021年3月2日
2021.3.2 爬虫基本框架
摘要: python爬虫基本框架:爬虫调度器,URL管理器,HTML解析器,HTML下载器,数据存储器。 如下图: 各模块的功能分别如下: 爬虫调度器负责协调其他四个模块的工作;·URL管理器负责管理URL链接,维护已经爬取的URL集合和未爬取的URL集合,提供获取新URL链接的接口;HTML下载器负责从U
阅读全文
posted @ 2021-03-02 20:55 月前
阅读(122)
评论(0)
推荐(0)
2021年2月5日
2021.2.5 python实战——小游戏
摘要: 使用Pygame模块来开发一个简单的小游戏,这是一组功能强大而有趣的模块,可用于管理图形、动画乃至声音,可以让人能够更轻松地开发复杂的游戏。通过使用Pygame来处理在屏幕上绘制图像等任务,就不用考虑众多烦琐而艰难的编码工作,而是将重点放在程序的高级逻辑上。 首先了解Pygame模块,使用Pygam
阅读全文
posted @ 2021-02-05 20:23 月前
阅读(126)
评论(0)
推荐(0)
2021年2月3日
2021.2.3 咕咕咕
摘要: 今天咕咕咕
阅读全文
posted @ 2021-02-03 21:14 月前
阅读(31)
评论(0)
推荐(0)
2021年2月2日
2021.2.2 python编程中一些我应该注意的地方(三)
摘要: 还可以更进一步,将函数存储在被称为模块的独立文件中,再将模块导入到主程序中。import语句允许在当前运行的程序文件中使用模块中的代码。导入模块有很多种方法。分别如下: from module_name import function_name as fn import module_name fr
阅读全文
posted @ 2021-02-02 19:40 月前
阅读(84)
评论(0)
推荐(0)
2021年2月1日
2021.2.1 python编程中一些我应该注意的地方(二)
摘要: 列表解析将for循环和创建新元素的代码合并成一行,并自动附加新元素。如下: squares = [x**2 for x in range(1,10)] print(squares) 首先指定一个描述性的列表名,如squares;然后,指定一个左方括号,并定义一个表达式,用于生成你要存储到列表中的值。
阅读全文
posted @ 2021-02-01 15:52 月前
阅读(86)
评论(0)
推荐(0)
2021年1月31日
2021.1.31 python编程中一些我应该注意的地方(一)
摘要: 想要去除字符串末尾的空白,可以使用方法rstrip(),如下: >>> favorite_language = 'python ' >>> favorite_language = favorite_language.rstrip() >>> favorite_language 'python' 去除
阅读全文
posted @ 2021-01-31 21:20 月前
阅读(56)
评论(0)
推荐(0)
2021年1月30日
2021.1.30 python脚本实现邮件发送
摘要: from email.header import Header from email.mime.text import MIMEText from email.utils import parseaddr, formataddr import smtplib def _format_addr(s):
阅读全文
posted @ 2021-01-30 20:22 月前
阅读(109)
评论(0)
推荐(0)
2021年1月29日
2021.1.29 爬虫中不涉及数据库的数据存储
摘要: 一、HTML正文抽取 我只是简单的了解了如何将HTML正文存储为JSON文件。以一个盗墓笔记的小说阅读网(http://seputu.com/)为例,抽取出盗墓笔记的标题、章节、章节名称和链接。原网站如图。 找到我所需要的Tag,如下图: 但是有一点需要说明,这是一个静态网站,标题、章节、章节名称都
阅读全文
posted @ 2021-01-29 19:57 月前
阅读(95)
评论(0)
推荐(0)
2021年1月27日
2021.1.27 咕咕咕
摘要: 咕咕咕咕咕咕
阅读全文
posted @ 2021-01-27 19:45 月前
阅读(87)
评论(0)
推荐(0)
2021年1月26日
2021.1.26 几种HTML解析方法(二)
摘要: 接着上次继续学习BeautifulSoup BeautifulSoup会将HTML转化为文档树进行搜索,既然是树形结构,那么就不得不提节点的概念。 子节点:首先说一下直接子节点,Tag中的.contents和.children是非常重要的。Tag的.content属性可以将Tag子节点以列表的方式输
阅读全文
posted @ 2021-01-26 20:34 月前
阅读(185)
评论(0)
推荐(0)
2021年1月25日
2021.1.25 几种HTML解析方法(一)
摘要: 去了医院,今天到晚上才开始学习 在几种HTML解析方法中,首先学习beautifulsoup。Beautiful Soup是一个可以从HTML或XML中提取数据的python库,它可以实现文档导航,查找,修改文档,在python爬虫中使用的主要是查找提取功能。 Beautiful Soup支持几种不
阅读全文
posted @ 2021-01-25 21:21 月前
阅读(660)
评论(0)
推荐(0)
2021年1月24日
2021.1.24 晚 python爬虫初涉
摘要: 响应与编码: 下述代码中,r.content返回的是字节形式,r.text返回的是文本形式,r.encoding返回的是根据HTTP头猜测的网页编码格式。 其中text中的内容就是根据响应头猜测的编码格式对content进行编码得到的。也就是说想要获取一些不是文本的如jpg,mp4之类的内容需要使用
阅读全文
posted @ 2021-01-24 21:16 月前
阅读(66)
评论(0)
推荐(0)
2021.1.24下午 python爬虫初涉
摘要: 网络爬虫按照系统结构和实现技术,大致可以分为以下几种类型:通用网络爬虫、聚焦网络爬虫、增量式网络爬虫、深层网络爬虫。实际的网络爬虫系统通常是几种爬虫技术相结合实现的,搜索引擎如百度,谷歌就属于通用网络爬虫的范畴;聚焦爬虫并不追求大的覆盖,而将目标定为抓取与某一特定主题内容相关的网页,为面向主题的用户
阅读全文
posted @ 2021-01-24 16:00 月前
阅读(108)
评论(0)
推荐(0)
公告