摘要: https://copywang.github.io/ 参考链接: 01 用 GitHub + Hexo 建立你的第一个博客 https://mp.weixin.qq.com/s?__biz=MjM5MDEyMDk4Mw==&mid=2650166025&idx=1&sn=50a22c1953f57 阅读全文
posted @ 2017-11-07 13:34 copywang 阅读(185) 评论(0) 推荐(0) 编辑
摘要: 1. 安装ubuntu 17.10虚拟机 2. 安装JDK jdk最新版:http://www.oracle.com/technetwork/java/javase/downloads/jdk8-downloads-2133151.html 这里我安装的是jdk1.8.0_151 su 输入root 阅读全文
posted @ 2017-12-18 10:09 copywang 阅读(224) 评论(0) 推荐(0) 编辑
摘要: 爬虫学习阶段性总结 爬虫的基础知识我打算就先学到这里了,以后需要用起来的时候再去看看相关文档和谷歌,做一个小量级的爬虫程序问题不大,对于分布式的和增量更新去重等需求就直接上框架,用别人的轮子还是蛮爽的。 简单小量级:requests+pyquery JS渲染太多的:selenium+Phantomj 阅读全文
posted @ 2017-12-11 11:16 copywang 阅读(816) 评论(0) 推荐(0) 编辑
摘要: <!--[endif]-->目的 网址: http://www.xiachufang.com/ 输入关键词“早餐”,发现是跳转链接(暂时没想到这种怎么处理比较好,就单独拿出来处理吧) <!--[endif]--> 午餐和晚餐的网址就比较一致 <!--[endif]--> <!--[endif]--> 阅读全文
posted @ 2017-12-10 18:40 copywang 阅读(418) 评论(0) 推荐(0) 编辑
摘要: 第1步,pycharm 2017.2下载地址:PyCharm: Python IDE for Professional Developers by JetBrains 选择linux版本的Professional版本 下载完成后默认目录是/home/用户名/Downloads/ 第2步,安装JDK8 阅读全文
posted @ 2017-12-06 15:48 copywang 阅读(3614) 评论(0) 推荐(0) 编辑
摘要: 第一个问题: 环境信息为windows10 64位,原生python3.6环境,没有使用anaconda,使用pip install pyspider报egg错误 解决方法: 1. 安装wheel pip install wheel 2. 下载pycurl 地址在这里:https://www.lfd 阅读全文
posted @ 2017-12-06 10:02 copywang 阅读(224) 评论(0) 推荐(0) 编辑
摘要: conda config --add channels https://mirrors.tuna.tsinghua.edu.cn/anaconda/pkgs/free/ conda config --set show_channel_urls yes http://blog.csdn.net/qq_ 阅读全文
posted @ 2017-12-03 15:54 copywang 阅读(116) 评论(0) 推荐(0) 编辑
摘要: 灵感来源: https://zhuanlan.zhihu.com/p/31421316 抓取页面: https://www.nvshens.com/tag/new/ 页面分析: 3. 得到图片集链接后,需要获取图片真实地址,需要对所有图片页进行遍历 函数设计: 1. 调用以下2个得到所有详情页的ur 阅读全文
posted @ 2017-11-28 10:12 copywang 阅读(1987) 评论(0) 推荐(0) 编辑
摘要: 环境:windows10 64bit 需要安装: 1. wheel pip3 install wheel 2. lxml http://www.lfd.uci.edu/~gohlke/pythonlibs/#lxml 3. PyOpenssl https://pypi.python.org/pypi 阅读全文
posted @ 2017-11-25 10:13 copywang 阅读(175) 评论(0) 推荐(0) 编辑
摘要: 项目地址:copywang/spiders_collection 实现功能 步骤 遇到的问题 改进 爬取后的数据: 阅读全文
posted @ 2017-11-25 09:58 copywang 阅读(404) 评论(0) 推荐(0) 编辑
摘要: 参考:静觅丨崔庆才的个人博客 项目地址:copywang/spiders_collection 实现功能 根据登陆后的cookie制作header,请求搜索微信文章 url需要使用urlencode拼接 使用代理避免IP被封 使用pyquery解析得到需要的字段信息 爬取文章详情页并存储到Mongo 阅读全文
posted @ 2017-11-25 09:58 copywang 阅读(505) 评论(0) 推荐(0) 编辑
摘要: 参考链接:https://github.com/wzyonggege/Mzitu-Crawler/blob/master/mzitu.py 项目地址: copywang/spiders_collection 实验功能 爬取 http://www.mzitu.com/hot/ 的文章图片 遇到的问题 阅读全文
posted @ 2017-11-25 09:57 copywang 阅读(5141) 评论(0) 推荐(0) 编辑
摘要: 参考: 静觅丨崔庆才的个人博客 项目地址: copywang/spiders_collection 实现功能: 使用requests库爬取得到首页信息,返回的HTML代码中不包含需要的信息,都是些JS 在XHR中找到JSON请求和数据 使用request.get方法请求JSON数据,使用urlenc 阅读全文
posted @ 2017-11-25 09:56 copywang 阅读(437) 评论(0) 推荐(0) 编辑
摘要: 参考: 静觅丨崔庆才的个人博客 项目地址: copywang/spiders_collection 实现功能: 使用geckodriver驱动firefox访问淘宝首页,输入关键词,点击搜索按钮,翻页,点击确定按钮,采集信息,存储到mongodb,导出成CSV文件,统计程序运行时间 使用seleni 阅读全文
posted @ 2017-11-25 09:56 copywang 阅读(300) 评论(0) 推荐(0) 编辑
摘要: 参考来源: 静觅丨崔庆才的个人博客 项目地址: copywang/spiders_collection 实现功能: 遇到的问题: 未解决问题: 原因:源代码中展示的并不是纯粹的数字。而是在页面使用了font-face定义了字符集,并通过unicode去映射展示。简单介绍下这种新型的web-fongt 阅读全文
posted @ 2017-11-25 09:55 copywang 阅读(264) 评论(0) 推荐(0) 编辑
摘要: Jupyter Notebook 的快捷键 王加鑫 10 天前 Jupyter Notebook 的快捷键 王加鑫 10 天前 10 天前 原文 Jupyter Notebook 的快捷键 Jupyter Notebook 有两种键盘输入模式。编辑模式,允许你往单元中键入代码或文本;这时的单元框线是 阅读全文
posted @ 2017-11-25 09:54 copywang 阅读(4386) 评论(0) 推荐(0) 编辑
摘要: 环境:windows10 64bit pip3 install pyspider 报错信息: 2. 从这里下载安装包 Python Extension Packages for Windows 放到D盘根目录,安装 3. 继续完成pyspider的安装 坑踩多了才有收获 阅读全文
posted @ 2017-11-25 09:53 copywang 阅读(182) 评论(0) 推荐(0) 编辑
摘要: 1 阅读全文
posted @ 2017-11-15 08:09 copywang 阅读(249) 评论(0) 推荐(0) 编辑
摘要: python爬虫涉及的库: 请求库,解析库,存储库,工具库 1. 请求库:urllib/re/requests (1) urllib/re是python默认自带的库,可以通过以下命令进行验证: 没有报错信息输出,说明环境正常 (2) requests安装 2.1 打开CMD,输入 2.2 等待安装后 阅读全文
posted @ 2017-11-14 15:53 copywang 阅读(14626) 评论(0) 推荐(0) 编辑
摘要: 地址:https://mirrors.tuna.tsinghua.edu.cn/help/anaconda/ 阅读全文
posted @ 2017-11-14 14:03 copywang 阅读(163) 评论(0) 推荐(0) 编辑
摘要: 环境:windows 10 64bit 1. 下载: 网址:http://rj.baidu.com/soft/detail/12585.html 2. 直接运行安装exe,勾选依赖库安装 3. 配置全选,保持默认,密码使用123456 4. 点解完成,退出安装程序 5. 验证 右键计算机管理,查看服 阅读全文
posted @ 2017-11-14 14:02 copywang 阅读(297) 评论(0) 推荐(0) 编辑
摘要: 环境:windows 10 64bit 参考网址:http://www.runoob.com/redis/redis-tutorial.html 1. 下载 网址:https://github.com/MicrosoftArchive/redis/releases 文件名:Redis-x64-3.2 阅读全文
posted @ 2017-11-14 13:55 copywang 阅读(566) 评论(0) 推荐(0) 编辑
摘要: 环境:windows 10 64bit 1. 以管理员身份运行cmd 2. 在data文件夹中建立logs目录 3. 在logs目录下建立mongo.log文件 4. 在第1步中窗口继续操作 5. 确认服务是否启动 首先关闭CMD窗口 右键计算机,计算机管理,服务,查看MongoDB服务,右键启动, 阅读全文
posted @ 2017-11-14 12:35 copywang 阅读(3012) 评论(0) 推荐(0) 编辑
摘要: 1. 下载 https://www.mongdb.com/ 选择版本:ws 2008 R2 64bit 2. 安装运行下载完成的MSI文件 安装时候选择自定义配置,选择安装路径,安装到E盘 等待2分钟安装完成 3. 打开安装路径bin目录 在bin的上层目录新建1个data目录,再在data下创建d 阅读全文
posted @ 2017-11-14 12:19 copywang 阅读(170) 评论(0) 推荐(0) 编辑