随笔分类 -  python网络数据采集

读取文档
摘要:1、纯文本 2、将字符串转换为utf-8格式 3、CSV文件最好是从网上直接把文件读成一个字符串,然后转为一个StringIO文件,使它具有文件的属性,这样就不必占有本地内存了 对于以上代码,有时候会对输出的结果的第一行进行删除,可以使用以下代码 阅读全文

posted @ 2018-02-02 22:08 告辞 阅读(142) 评论(0) 推荐(0)

存储数据
摘要:1、python3+版本中,使用urllib.request.urlretrieve下载文件 2 阅读全文

posted @ 2018-02-02 21:34 告辞 阅读(98) 评论(0) 推荐(0)

开始采集
摘要:1、获取维基百科的页面 阅读全文

posted @ 2018-02-02 14:23 告辞 阅读(93) 评论(0) 推荐(0)

复杂HTML页面解析
摘要:1、层叠样式表CSS可以让html元素呈现出差异化,网络爬虫可以通过class属性的值,轻松分出不同标签 findAll函数通过标签的名称和属性来查找标签 下面两行代码是一致的 2、通过导航树可以通过标签在文档中的位置来查找标签 在BeautifulSoup库中,子标签是父标签的下一级,而后代标签是 阅读全文

posted @ 2018-01-21 21:30 告辞 阅读(308) 评论(0) 推荐(0)

python网络爬虫
摘要:1、 2、安装beautifulsoup:pip install beautifulsoup4 3、 阅读全文

posted @ 2018-01-19 16:56 告辞 阅读(92) 评论(0) 推荐(0)

导航