随笔档案「2018年4月21日」：macOS下python3通过scrapy框架重新生成不得姐网站视频采集过程日志 ... - 中国人醒来了 - 博客园

2018年4月21日

macOS下python3通过scrapy框架重新生成不得姐网站视频采集过程日志

摘要： 1.搭建虚拟python3环境（Virtualenvwrapper）参考http://www.cnblogs.com/it-tsz/p/pyhton.html 2.安装scrapy 前提先安装好pip,setuptools，然后安装以下模块 pip install lxml pip instal 阅读全文

posted @ 2018-04-21 18:37 中国人醒来了阅读(227) 评论(0) 推荐(0)

macOS下python3通过scrapy框架重新生成不得姐网站视频采集过程日志

摘要： 1.搭建虚拟python3环境（Virtualenvwrapper） 2.安装scrapy 前提先安装好pip,setuptools，然后安装以下模块 pip install lxml pip install twisted pip install pyopenssl windows下需要安装py 阅读全文

posted @ 2018-04-21 18:37 中国人醒来了阅读(254) 评论(0) 推荐(0)

在python3下使用requests,xpath，urllib爬取不得姐网站相关视频爬虫源代码

摘要： #coding=utf-8from lxml import etreeimport requestsimport urllibimport os# 获取url的html等内容def getHtml(url): try: kv = { 'User-Agent': 'Mozilla/5.0 (Macin 阅读全文

posted @ 2018-04-21 15:03 中国人醒来了阅读(2374) 评论(0) 推荐(0)

python中使用XPath笔记

摘要： XPath在Python的爬虫学习中，起着举足轻重的地位，对比正则表达式 re两者可以完成同样的工作，实现的功能也差不多，但XPath明显比re具有优势，在网页分析上使re退居二线。 XPath介绍：是什么？全称为XML Path Language 一种小型的查询语言说道XPath是门语言，不阅读全文

posted @ 2018-04-21 10:31 中国人醒来了阅读(8148) 评论(0) 推荐(0)