python网络数据采集 - 随笔分类 - 告辞

读取文档

摘要：1、纯文本 2、将字符串转换为utf-8格式 3、CSV文件最好是从网上直接把文件读成一个字符串，然后转为一个StringIO文件，使它具有文件的属性，这样就不必占有本地内存了对于以上代码，有时候会对输出的结果的第一行进行删除，可以使用以下代码阅读全文

posted @ 2018-02-02 22:08 告辞阅读(142) 评论(0) 推荐(0)

存储数据

摘要：1、python3+版本中，使用urllib.request.urlretrieve下载文件 2 阅读全文

posted @ 2018-02-02 21:34 告辞阅读(98) 评论(0) 推荐(0)

开始采集

摘要：1、获取维基百科的页面阅读全文

posted @ 2018-02-02 14:23 告辞阅读(93) 评论(0) 推荐(0)

复杂HTML页面解析

摘要：1、层叠样式表CSS可以让html元素呈现出差异化，网络爬虫可以通过class属性的值，轻松分出不同标签 findAll函数通过标签的名称和属性来查找标签下面两行代码是一致的 2、通过导航树可以通过标签在文档中的位置来查找标签在BeautifulSoup库中，子标签是父标签的下一级，而后代标签是阅读全文

posted @ 2018-01-21 21:30 告辞阅读(308) 评论(0) 推荐(0)

python网络爬虫

摘要：1、 2、安装beautifulsoup：pip install beautifulsoup4 3、阅读全文

posted @ 2018-01-19 16:56 告辞阅读(92) 评论(0) 推荐(0)

告辞

随笔分类 - python网络数据采集

读取文档

存储数据

开始采集

复杂HTML页面解析

python网络爬虫

导航

公告