python网络爬虫 - 随笔分类 - ZhangのBlog

大学排名定向爬虫

摘要：import requests import bs4 from bs4 import BeautifulSoup def getHTMLText(url): try: r = requests.get(url,timeout = 30) r.raise_for_status() #print(r.text) r.encodi... 阅读全文

posted @ 2019-02-20 15:09 ZhangのBlog 阅读(205) 评论(0) 推荐(0)

淘宝商品定向爬取

摘要：#获取淘宝搜索页面的信息，提取其中商品名称和价格 #理解：获得淘宝的搜索接口 # 翻页的处理 #步骤1：提交商品搜索请求，循环获取网页，首先获得第一页，然后通过循环获得其他页面 #步骤2：对于每个页面，提取商品名称和价格信息 #步骤3：将信息输出到屏幕上 import requests import re def getHTMLText(url): try: ... 阅读全文

posted @ 2018-02-05 16:38 ZhangのBlog 阅读(1235) 评论(0) 推荐(0)

爬取股票信息

摘要：#目标：获取上交所和深交所所有股票的名称和交易信息 #输出：保存到文件中 #技术路线：requests-bs4-re #候选网站选取原则： # 股票信息静态存在与html界面中，非js代码生成，没有robots协议限制 #选取心态： # 不要纠结于某个网站，多找信息源进行尝试 #程序结构程序设计 #步骤1：从东方财富网获取股票列表 #步骤2... 阅读全文

posted @ 2018-02-05 16:37 ZhangのBlog 阅读(784) 评论(0) 推荐(0)

python中的正则表达式的使用

摘要：符号含义举例说明. 表示任何单个字符【】字符串，对单个字符给出取值范围 [abc]表示a,b,c，[a-z]表示a到z单个字符(或的关系) [^] 非字符集，对单个字符给出排除范围 [^abc]表示非a或b或c的单个字符 * 星号之前的一个字符0次... 阅读全文

posted @ 2018-02-04 18:13 ZhangのBlog 阅读(308) 评论(0) 推荐(0)

Mr Zhang

随笔分类 - python网络爬虫

大学排名定向爬虫

淘宝商品定向爬取

爬取股票信息

python中的正则表达式的使用

导航

公告