随笔分类 -  Python爬虫

摘要:周末了解了scrapy框架,对上次使用requests+bs4+re进行股票爬虫(http://www.cnblogs.com/wyfighting/p/7497985.html)的代码,使用scrapy进行了重写。 目录结构: stocks.py文件代码 pipelines.py文件代码: set 阅读全文
posted @ 2017-09-18 08:52 wy820 阅读(315) 评论(0) 推荐(0)
摘要:目标:获取股票上交所和深交所所有股票的名称和交易信息,保存在文件中 使用到的技术:requests+bs4+re 网站的选择(选取原则:股票信息静态存在HTML页面,非js代码生成没哟robot协议限制) 1. 获取股票列表:http://quote.eastmoney.com/stocklist. 阅读全文
posted @ 2017-09-09 14:20 wy820 阅读(2008) 评论(0) 推荐(0)
摘要:目标:获取淘宝搜索页面的信息,提取其中的商品名称和价格 程序的设计结构: 步骤1:提交商品获取请求,循环获取页面 步骤2:对于每个页面,提取商品名称和价格信息 步骤3:将信息输到屏幕上 在淘宝网站的搜索框中输入关键词 如“书包”,点击搜索,查看结果首页的url为: https://s.taobao. 阅读全文
posted @ 2017-09-09 11:42 wy820 阅读(1406) 评论(0) 推荐(0)
摘要:爬取的是 ‘’最好大学网‘’,提取2017年排名前20名大学的名称和分数 结果: 阅读全文
posted @ 2017-09-03 11:56 wy820 阅读(217) 评论(0) 推荐(0)