• 博客园logo
  • 会员
  • 众包
  • 新闻
  • 博问
  • 闪存
  • 赞助商
  • HarmonyOS
  • Chat2DB
    • 搜索
      所有博客
    • 搜索
      当前博客
  • 写随笔 我的博客 短消息 简洁模式
    用户头像
    我的博客 我的园子 账号设置 会员中心 简洁模式 ... 退出登录
    注册 登录
zzr136
博客园    首页    新随笔    联系   管理    订阅  订阅

第3次作业-MOOC学习笔记:Python网络爬虫与信息提取

1.注册中国大学MOOC

 

 

2.选择北京理工大学嵩天老师的《Python网络爬虫与信息提取》MOOC

 

 

 

 

3.学习完成第0周至第4周的课程内容,并完成各周作业

 

 

4.提供图片或网站显示的学习进度,证明学习的过程。

 

 

5.写一篇不少于1000字的学习笔记,谈一下学习的体会和收获。

  老师让我们找到北京理工大学嵩天老师的《Python网络爬虫与信息提取》MOOC课程,我学习了其中四周的内容,并完成了课堂测试,收获了许多,Python是一个非常广泛使用的脚本语言,我们现在的学习生活和将来的工作生活都会很多地接触python。其自带了urllib、urllib2等基本的库,而我们看的爬虫是python最基本的库;对于“爬虫”这个名词,我感觉它是非常抽象的,这个词很形象地将它的功能必须成现实的东西,又诠释了它的功能方式。网络爬虫就是根据网页的地址来寻找网页的,也就是URL。通过四周课时的学习,我对它的理解增进了很多。

下面是我的一些读书笔记:

requests库:
requests.requests()构造一个请求,支撑一下各方法的基础方法
requests.get()获取HTML网页的主要方法,对应于HTTP的GET
requests.head()获取HRML网页头信息的方法,对应于HTTP的head
requests.post()向HTML网页提交POST请求的方法,对应于HTTP的POST
requests.put()向HTML网页提交PUT请求的方法,对应于HTTP的PUT
requests.patch()向HTML网页提交局部修改请求,对应于HTTP的PATCH
requests.delete()向HTML页面提交删除请求,对应于HTTP的DELETE

requests.requests(method,url,**kwargs)
method:请求方式,对应get/put/post等7种
例:r = requests.requests('GET',url,**kwargs)
url:拟获取页面的url链接
**kwargs:控制访问的参数,共12个,分别为params,data,json,header,cookies,auth,files,timeout,proxies,allow_redirects,stream,verify,cert。

BeautifulSoup库:

BeautifulSoup类的基本元素:

Tag:标签,最基本的信息组织单元,分别用<>和</>标明开头和结尾标签

Name:标签的名字, <>...</p>的名字是'p' ,格式: <tag> . name :

Attributes:标签的属性, 字典形式组织,格式: <tag>. attrs

NavigableString: 标签内非属性字符串,<..</>中字符串,格式: <tag>.string

Comment: 标签内字符串的注释部分, 一种特殊的Comment类型

     有时候觉得python和网站的互动还是挺有意思的,但是,有可能是自身的学习程度不够,所以在看实例的时候有些吃力,理解需要花费一点时间。这次的学习让我学到了很多,受益匪浅,,也会对我以后的工作生活会有相对的帮助。

posted @ 2019-10-29 18:07  zzr136  阅读(137)  评论(0)    收藏  举报
刷新页面返回顶部
博客园  ©  2004-2025
浙公网安备 33010602011771号 浙ICP备2021040463号-3