随笔分类 - Python爬虫
摘要:周末了解了scrapy框架,对上次使用requests+bs4+re进行股票爬虫(http://www.cnblogs.com/wyfighting/p/7497985.html)的代码,使用scrapy进行了重写。 目录结构: stocks.py文件代码 pipelines.py文件代码: set
阅读全文
摘要:目标:获取股票上交所和深交所所有股票的名称和交易信息,保存在文件中 使用到的技术:requests+bs4+re 网站的选择(选取原则:股票信息静态存在HTML页面,非js代码生成没哟robot协议限制) 1. 获取股票列表:http://quote.eastmoney.com/stocklist.
阅读全文
摘要:目标:获取淘宝搜索页面的信息,提取其中的商品名称和价格 程序的设计结构: 步骤1:提交商品获取请求,循环获取页面 步骤2:对于每个页面,提取商品名称和价格信息 步骤3:将信息输到屏幕上 在淘宝网站的搜索框中输入关键词 如“书包”,点击搜索,查看结果首页的url为: https://s.taobao.
阅读全文
摘要:爬取的是 ‘’最好大学网‘’,提取2017年排名前20名大学的名称和分数 结果:
阅读全文

浙公网安备 33010602011771号