cherro

2018年8月31日

摘要： django操作的基本流程： 1. >django-admin startproject mysite 2. ... 3. >python manage.py runserver 注:django-admin:Django框架全局的管理工具命令方式：django-admin <command> 阅读全文

posted @ 2018-08-31 10:01 cherro 阅读(114) 评论(0) 推荐(0)

2018年7月16日

第四周 scrapy爬虫框架

摘要：学习网址：https://www.icourse163.org/learn/BIT-1001870001?tid=1002781006 Scrapy 不是一个功能库，而是一个爬虫框架。爬虫框架是实现爬虫功能的一个软件结构和功能组件集合。爬虫框架是一个半成品，能够帮助用户实现专业的网络爬虫。 1 阅读全文

posted @ 2018-07-16 21:04 cherro 阅读(86) 评论(0) 推荐(0)

2018年7月13日

第三周淘宝商品/股票数据定向爬虫

摘要：浏览器打开淘宝，搜索“书包” 第一页链接：https://s.taobao.com/search?q=书包&imgfile=&commend=all&ssid=s5-e&search_type=item&sourceId=tb.index&spm=&ie=utf8&initiative_id=tbi 阅读全文

posted @ 2018-07-13 22:00 cherro 阅读(260) 评论(0) 推荐(0)

2018年6月28日

第三周正则表达式

摘要： re库的主要功能函数：】 re.search(pattern,string,flag=0) pattern: 正则表达式的字符串或原生字符串表 string ：待匹配字符串 flags ：正则表达式使用时的控制标记 re.match(),re,findall(),re.finditer()接收的参阅读全文

posted @ 2018-06-28 23:24 cherro 阅读(141) 评论(0) 推荐(0)

2018年6月27日

第二周网络爬虫之提取信息提取及中国大学排名实例

摘要：信息标记的三种形式： 1 XML 2 JSON 3 YAML 实列：提取HTML中所有URL链接 find_all(name,attrs,recursive,string,**kwargs) 1.name: 对标签名称的检索字符串。 2.attrs :对标签属性值的检索字符串，可标注属性检索。 3. 阅读全文

posted @ 2018-06-27 22:36 cherro 阅读(321) 评论(0) 推荐(0)

2018年6月24日

第二周网络爬虫之提取之BeautifulSoup

摘要：学习网站：中国大学MOOC 网址：https://www.icourse163.org/ 首先安装BeautifulSoup，这个不多说了。。。安装小测： demo是老师提供的一个测试网址。 BeautifulSoup对应一个HTML/XML文档的全部内容 BeautifulSoup可以通过标签阅读全文

posted @ 2018-06-24 23:18 cherro 阅读(152) 评论(0) 推荐(0)

2018年6月23日

第一周网络爬虫之规则

摘要：学习网站：中国大学MOOC 网址： https://www.icourse163.org/ 用requests库的get()反法会返回一个response对象。可能会出现的异常： r=requests.get(url) r.raise_for_status()在方法内部判断r.status_co 阅读全文

posted @ 2018-06-23 23:41 cherro 阅读(688) 评论(0) 推荐(0)

公告