随笔分类 - python
摘要:我们可以使用pyinstaller首先我们需要安装pyinstallerpip install pyinstaller -i https://pypi.tuna.tsinghua.edu.cn/simple 安装完成之后,我们使用cmd命令(cd c:...
阅读全文
摘要:依靠scrapy提供的相关参数进行优化 setting.py文件选项 说明 CONCURRENT_REQUESTS Downl...
阅读全文
摘要:功能描述*技术路线:scrapy*目标:获取上交所和深交所所有的股票的名称和交易信息*输出:保存到文件中数据网站的确定,和之前博客相同:https://blog.csdn.net/qq_36949176/article/details/84487150...
阅读全文
摘要:步骤1:创建一个工程和Spider模板步骤2:编写Spider步骤3:编写Item Pipeline步骤4:优化配置策略Scrapy爬虫的数据类型Request类class scrapy.http.Request()*Request对象表示一个HTTP...
阅读全文
摘要:演示HTML地址演示HTML页面地址:https://python123.io/ws/demo.html文件名称:demo.html产生步骤步骤1:建立一个Scrapy爬虫工程生成工程目录代码(CMD): scrapy startproject pyt...
阅读全文
摘要:Scrapy常用命令命令 说明 格式 startproject 创建一个新工程 scrapy startpro...
阅读全文
摘要:爬虫框架*爬虫框架是实现爬虫功能的一个软件结构和功能组件集合*爬虫框架是一个半成品,能够帮助用户实现专业网络爬虫Scrapy爬虫框架结构"5+2"结构Spiders(用户提供Url、以及解析内容)、Item pipelines(对提取的信息进行处理)模...
阅读全文
摘要:我们直接用pip安装Scrapy的话,会发生错误,提示构建twisted时安装失败,或者提示安装 Microsoftvisual c++14.0 的一个库。 运行pip install Scrapy时候提示Twisted安装失败所以我们就得按着提示,哪...
阅读全文
摘要:功能描述*目标:获取上交所和深交所所有股票的名称和交易信息*输出:保存到文件中*技术路线:requests-bs4-re候选数据网站的选择:新浪股票:https://finance.sina.com.cn/stock/百度股票:https://gupi...
阅读全文
摘要:功能描述目标:获取淘宝搜索页面的信息,提取其中的商品名称和价格。理解:淘宝的搜索接口 翻页的处理技术路线:requests-re准备,安排!我们先搜索:裙子,查看浏览器返回的链接信息起始页:https://s.taobao.com/...
阅读全文
摘要:贪婪匹配Re库默认采用贪婪匹配,即输出匹配最长的子串。>>> import re>>> match=re.search(r'PY.*N','PYANBNCNDN')>>> match.group(0)'PYANBNCNDN'最小匹配如何输出最短的子串呢...
阅读全文
摘要:Match对象的属性属性 说明 .string 待匹配的文本 .re 匹配时使用的pattern对象(正则表达式...
阅读全文
摘要:Re库介绍Re库是Python的标准库,主要用于字符串匹配。调用方式:import re正则表达式的表示类型*raw string 类型(原生字符串类型):re库采用raw string类型表示正则表达式,表示为:r'text'例如:r'[1-9]\d...
阅读全文
摘要:正则表达式regular expression regex RE正则表达式是用来简洁表达一组字符串的表达式‘PY’ ‘PYY’ 'PYYY' 'PYYYY' 可表示为PY+'PY'开头 ,后续存在不多于10个字符后续字符不能是‘P’或‘Y’ ...
阅读全文
摘要:实例最好大学排名http://www.zuihaodaxue.cn/zuihaodaxuepaiming2016.html功能描述:输入大学排名URL链接输出:大学排名信息的屏幕输出(排名,大学名称,总分)技术路线:requests-bs4定向爬虫:仅...
阅读全文
摘要:.find_all(name,attrs,recursive,string,**kwargs)返回一个列表类型,存储查找的结果。name:对标签名称的检索字符串attrs:对标签属性值得检索字符串,可标注属性检索recursive:是对子孙全部检索,默...
阅读全文
摘要:信息提取的一般方法方法一:完整解析信息的标记形式,再提取关键信息。XML JSON YAML需要标记解析器 例如:bs4库的标签树遍历优点:信息解析准确缺点:提取过程繁琐,速度慢 方法二:无视标记形式,直接搜索关键信息。搜索对信息的文本查找函数即可优点...
阅读全文
摘要:只要你提供的信息是标签,就可以很好的解析怎么使用BeautifulSoup库?from bs4 import BeautifulSoupsoup=BeautifulSoup('data','html.parser')例如:import requests...
阅读全文
摘要:图片爬取的代码r.content 文件的二进制格式Python引入了with语句来自动帮我们调用close()方法:open(path, ‘-模式-‘,encoding=’UTF-8’) w:以写方式打开,a:以追加模式打开 (从 EOF 开始, 必要...
阅读全文
摘要:Requests库的安装:https://mp.csdn.net/postedit/83715574r=requests.get(url,params=None,**kwargs)这个r是Response对象url :拟获取页面的url链接params...
阅读全文

浙公网安备 33010602011771号