python - 随笔分类 - yorkmass

如何将python文件打包成exe文件

摘要：我们可以使用pyinstaller首先我们需要安装pyinstallerpip install pyinstaller -i https://pypi.tuna.tsinghua.edu.cn/simple 安装完成之后，我们使用cmd命令（cd c:... 阅读全文

posted @ 2019-04-20 12:37 yorkmass 阅读(168) 评论(0) 推荐(0)

Scrapy爬虫的优化

摘要：依靠scrapy提供的相关参数进行优化 setting.py文件选项说明 CONCURRENT_REQUESTS Downl... 阅读全文

posted @ 2018-11-29 02:40 yorkmass 阅读(305) 评论(0) 推荐(0)

爬虫：股票数据Scrapy爬虫实例

摘要：功能描述*技术路线：scrapy*目标：获取上交所和深交所所有的股票的名称和交易信息*输出：保存到文件中数据网站的确定，和之前博客相同：https://blog.csdn.net/qq_36949176/article/details/84487150... 阅读全文

posted @ 2018-11-29 02:33 yorkmass 阅读(635) 评论(1) 推荐(0)

python爬虫学习笔记六：Scrapy爬虫的使用步骤

摘要：步骤1：创建一个工程和Spider模板步骤2：编写Spider步骤3：编写Item Pipeline步骤4：优化配置策略Scrapy爬虫的数据类型Request类class scrapy.http.Request()*Request对象表示一个HTTP... 阅读全文

posted @ 2018-11-29 01:12 yorkmass 阅读(221) 评论(0) 推荐(0)

爬虫：Scrapy爬取第一个网页实例解析

摘要：演示HTML地址演示HTML页面地址：https://python123.io/ws/demo.html文件名称：demo.html产生步骤步骤1：建立一个Scrapy爬虫工程生成工程目录代码（CMD）： scrapy startproject pyt... 阅读全文

posted @ 2018-11-29 00:50 yorkmass 阅读(814) 评论(0) 推荐(0)

爬虫：Scrapy常用命令

摘要：Scrapy常用命令命令说明格式 startproject 创建一个新工程 scrapy startpro... 阅读全文

posted @ 2018-11-26 20:37 yorkmass 阅读(212) 评论(0) 推荐(0)

Scrapy爬虫框架结构以及和Requests库的比较

摘要：爬虫框架*爬虫框架是实现爬虫功能的一个软件结构和功能组件集合*爬虫框架是一个半成品，能够帮助用户实现专业网络爬虫Scrapy爬虫框架结构"5+2"结构Spiders（用户提供Url、以及解析内容）、Item pipelines（对提取的信息进行处理）模... 阅读全文

posted @ 2018-11-26 19:14 yorkmass 阅读(1742) 评论(0) 推荐(0)

Scrapy爬虫框架的安装

摘要：我们直接用pip安装Scrapy的话，会发生错误，提示构建twisted时安装失败，或者提示安装 Microsoftvisual c++14.0 的一个库。运行pip install Scrapy时候提示Twisted安装失败所以我们就得按着提示，哪... 阅读全文

posted @ 2018-11-26 12:32 yorkmass 阅读(172) 评论(0) 推荐(0)

爬虫：股票数据定向爬虫

摘要：功能描述*目标：获取上交所和深交所所有股票的名称和交易信息*输出：保存到文件中*技术路线：requests-bs4-re候选数据网站的选择：新浪股票：https://finance.sina.com.cn/stock/百度股票：https://gupi... 阅读全文

posted @ 2018-11-25 15:24 yorkmass 阅读(744) 评论(0) 推荐(0)

爬虫：淘宝商品信息定向爬虫

摘要：功能描述目标：获取淘宝搜索页面的信息，提取其中的商品名称和价格。理解：淘宝的搜索接口翻页的处理技术路线：requests-re准备，安排！我们先搜索：裙子，查看浏览器返回的链接信息起始页：https://s.taobao.com/... 阅读全文

posted @ 2018-11-24 21:12 yorkmass 阅读(1382) 评论(0) 推荐(0)

爬虫：Re库的贪婪匹配和最小匹配

摘要：贪婪匹配Re库默认采用贪婪匹配，即输出匹配最长的子串。>>> import re>>> match=re.search(r'PY.*N','PYANBNCNDN')>>> match.group(0)'PYANBNCNDN'最小匹配如何输出最短的子串呢... 阅读全文

posted @ 2018-11-24 18:10 yorkmass 阅读(242) 评论(0) 推荐(0)

爬虫：Re库的match对象

摘要：Match对象的属性属性说明 .string 待匹配的文本 .re 匹配时使用的pattern对象（正则表达式... 阅读全文

posted @ 2018-11-24 17:58 yorkmass 阅读(528) 评论(0) 推荐(0)

python爬虫学习笔记五：Re库的介绍和使用

摘要：Re库介绍Re库是Python的标准库，主要用于字符串匹配。调用方式：import re正则表达式的表示类型*raw string 类型（原生字符串类型）：re库采用raw string类型表示正则表达式，表示为：r'text'例如：r'[1-9]\d... 阅读全文

posted @ 2018-11-24 17:02 yorkmass 阅读(742) 评论(0) 推荐(0)

爬虫：正则表达式

摘要：正则表达式regular expression regex RE正则表达式是用来简洁表达一组字符串的表达式‘PY’ ‘PYY’ 'PYYY' 'PYYYY' 可表示为PY+'PY'开头，后续存在不多于10个字符后续字符不能是‘P’或‘Y’ ... 阅读全文

posted @ 2018-11-21 15:12 yorkmass 阅读(201) 评论(0) 推荐(0)

爬虫：中国大学排名定向爬虫实例

摘要：实例最好大学排名http://www.zuihaodaxue.cn/zuihaodaxuepaiming2016.html功能描述：输入大学排名URL链接输出：大学排名信息的屏幕输出（排名，大学名称，总分）技术路线：requests-bs4定向爬虫：仅... 阅读全文

posted @ 2018-11-21 08:29 yorkmass 阅读(521) 评论(0) 推荐(0)

爬虫：基于bs4库的html内容查找方法

摘要：.find_all(name,attrs,recursive,string,**kwargs)返回一个列表类型，存储查找的结果。name:对标签名称的检索字符串attrs:对标签属性值得检索字符串，可标注属性检索recursive:是对子孙全部检索，默... 阅读全文

posted @ 2018-11-20 22:49 yorkmass 阅读(355) 评论(0) 推荐(0)

爬虫：信息提取的一般方法

摘要：信息提取的一般方法方法一：完整解析信息的标记形式，再提取关键信息。XML JSON YAML需要标记解析器例如：bs4库的标签树遍历优点：信息解析准确缺点：提取过程繁琐，速度慢方法二：无视标记形式，直接搜索关键信息。搜索对信息的文本查找函数即可优点... 阅读全文

posted @ 2018-11-20 21:21 yorkmass 阅读(542) 评论(0) 推荐(0)

python爬虫学习笔记四：BeautifulSoup库对HTML文本进行操作

摘要：只要你提供的信息是标签，就可以很好的解析怎么使用BeautifulSoup库？from bs4 import BeautifulSoupsoup=BeautifulSoup('data','html.parser'）例如：import requests... 阅读全文

posted @ 2018-11-19 11:19 yorkmass 阅读(969) 评论(0) 推荐(0)

python爬虫学习笔记三：图片爬取

摘要：图片爬取的代码r.content 文件的二进制格式Python引入了with语句来自动帮我们调用close()方法：open(path, ‘-模式-‘,encoding=’UTF-8’) w：以写方式打开，a：以追加模式打开 (从 EOF 开始, 必要... 阅读全文

posted @ 2018-11-18 13:40 yorkmass 阅读(217) 评论(0) 推荐(0)

python爬虫学习笔记二：Requests库详解及HTTP协议

摘要：Requests库的安装：https://mp.csdn.net/postedit/83715574r=requests.get(url,params=None,**kwargs)这个r是Response对象url ：拟获取页面的url链接params... 阅读全文

posted @ 2018-11-17 21:22 yorkmass 阅读(459) 评论(0) 推荐(0)

yorkmass

I wanner be a nice coder

随笔分类 - python

公告