随笔分类 -  python网络爬虫

大学排名定向爬虫
摘要:import requests import bs4 from bs4 import BeautifulSoup def getHTMLText(url): try: r = requests.get(url,timeout = 30) r.raise_for_status() #print(r.text) r.encodi... 阅读全文

posted @ 2019-02-20 15:09 ZhangのBlog 阅读(205) 评论(0) 推荐(0)

淘宝商品定向爬取
摘要:#获取淘宝搜索页面的信息,提取其中商品名称和价格 #理解:获得淘宝的搜索接口 # 翻页的处理 #步骤1:提交商品搜索请求,循环获取网页,首先获得第一页,然后通过循环获得其他页面 #步骤2:对于每个页面,提取商品名称和价格信息 #步骤3:将信息输出到屏幕上 import requests import re def getHTMLText(url): try: ... 阅读全文

posted @ 2018-02-05 16:38 ZhangのBlog 阅读(1235) 评论(0) 推荐(0)

爬取股票信息
摘要:#目标:获取上交所和深交所所有股票的名称和交易信息 #输出:保存到文件中 #技术路线:requests-bs4-re #候选网站选取原则: # 股票信息静态存在与html界面中,非js代码生成,没有robots协议限制 #选取心态: # 不要纠结于某个网站,多找信息源进行尝试 #程序结构程序设计 #步骤1:从东方财富网获取股票列表 #步骤2... 阅读全文

posted @ 2018-02-05 16:37 ZhangのBlog 阅读(784) 评论(0) 推荐(0)

python中的正则表达式的使用
摘要:符号 含义 举例说明. 表示任何单个字符 【】 字符串,对单个字符给出取值范围 [abc]表示a,b,c,[a-z]表示a到z单个字符(或的关系) [^] 非字符集,对单个字符给出排除范围 [^abc]表示非a或b或c的单个字符 * 星号之前的一个字符0次... 阅读全文

posted @ 2018-02-04 18:13 ZhangのBlog 阅读(308) 评论(0) 推荐(0)