python的爬虫入门学习1

1.概念

URL和URI的区别:

          URL是统一资源定位符,表示资源的地址(我们说网站的网址就是URL),而URI是统一资源标识符 ,即用字符串来标识某一互联网资源,因此,URI属于父类,URL属于子类

爬虫:

    爬虫事实上就是一个程序,用于沿着互联网结点爬行,不断访问不同的网站,以便获取它所需要的资源。

 

2.实例:

        import urllib.request

        response=urllib.request.urlopen("http://www.hao123.com")

          html=response.read()

  注:urllib.request.urlopen返回的是一个HTTPResponse的实例对象,它属于http.client模块

            只能用read()才能读出URL内容

3.关于编码问题:

编码的解决方案

解决编码检测问题

posted @ 2018-11-04 13:58  ch_musk  阅读(93)  评论(0编辑  收藏  举报