[置顶] pyspider 爬取今日头条的关键字里文章

摘要: 1.先上一下爬取之后保存的成果,然后顺便将要求给说明一下,需要爬取的是文章等的标题,文章等的链接,以及文章的内容,含有div,和p标签,以及,img,但不包含alt标签, 2.设置请求headers,在craw_config中设置,当然,设置on_start方法中也是没有问题的 3.由于进入今日头长 阅读全文

posted @ 2018-06-04 09:41 zuoxinxue 阅读(562) 评论(0) 推荐(0)

[置顶] 自动发布文章

摘要: 恢复内容开始 1.先下载selenium,可以在终端通过pip install selenium来装,也可以在pycharm中来装,装的过程比较简单,不在细细陈述 2.下载chromdriver,要和自己的chromdriver浏览器匹配,否则会出现无法找到的问题 3.环境配置,chromdrive 阅读全文

posted @ 2018-06-04 09:38 zuoxinxue 阅读(333) 评论(0) 推荐(0)

导航