随笔档案「2018年9月」 - 长安洛溪·王

用工具metaseeker写简单爬虫（1）

摘要：1、下载metaseeker（一款比较实用的网站数据采集程序） 2、将所要爬取的网页复制到网址里，按回车。我选择的是当当网新书排行榜页面，标2的地方表示已经导入到软件里了。 3、命名主题，查重，查看是否名称冲突。Dangdangnewbooks是我命名的，没有冲突。 4、创建规则，单击新建，名为“当阅读全文

posted @ 2018-09-16 21:01 长安洛溪·王阅读(1023) 评论(0) 推荐(0)

《用Python写爬虫》学习笔记（二）编写第一个网络爬虫

摘要：1、首先，下载网页使用Python的urllib2模块，或者Python HTTP模块request来实现 urllib2会出现问题，解决方法1.重试下载（设置下载次数） 2.设置用户代理 2、其次，三种常见方法 1>网站地图爬虫（解析网站地图，将使用正则表达式，从<loc>标签中提取出URL) 阅读全文

posted @ 2018-09-15 20:20 长安洛溪·王阅读(194) 评论(0) 推荐(0)

《用Python写爬虫》学习笔记（一）

摘要：注：纯文本内容，代码独立另写，属于本人学习总结，无任何商业用途，在此分享，如有错误，还望指教。 1.为什么需要爬虫？答：目前网络API未完全放开，所以需要网络爬虫知识。 2.爬虫的合法性？答：爬虫目前处于早期阶段，可爬取一些真实数据，关于私人数据需要获取版权才不至于被人控告。 3.爬虫之前有哪些阅读全文

posted @ 2018-09-15 19:43 长安洛溪·王阅读(177) 评论(0) 推荐(0)

公告