会员
众包
新闻
博问
闪存
赞助商
HarmonyOS
Chat2DB
所有博客
当前博客
我的博客
我的园子
账号设置
会员中心
简洁模式
...
退出登录
注册
登录
copywang
研究点新东西 JAVA新手
博客园
首页
新随笔
联系
订阅
管理
[置顶]
使用Github+Hexo搭建个人博客
摘要: https://copywang.github.io/ 参考链接: 01 用 GitHub + Hexo 建立你的第一个博客 https://mp.weixin.qq.com/s?__biz=MjM5MDEyMDk4Mw==&mid=2650166025&idx=1&sn=50a22c1953f57
阅读全文
posted @ 2017-11-07 13:34 copywang
阅读(191)
评论(0)
推荐(0)
2017年12月18日
【day01】【环境】JAVA开发环境搭建
摘要: 1. 安装ubuntu 17.10虚拟机 2. 安装JDK jdk最新版:http://www.oracle.com/technetwork/java/javase/downloads/jdk8-downloads-2133151.html 这里我安装的是jdk1.8.0_151 su 输入root
阅读全文
posted @ 2017-12-18 10:09 copywang
阅读(230)
评论(0)
推荐(0)
2017年12月11日
爬虫学习阶段性总结
摘要: 爬虫学习阶段性总结 爬虫的基础知识我打算就先学到这里了,以后需要用起来的时候再去看看相关文档和谷歌,做一个小量级的爬虫程序问题不大,对于分布式的和增量更新去重等需求就直接上框架,用别人的轮子还是蛮爽的。 简单小量级:requests+pyquery JS渲染太多的:selenium+Phantomj
阅读全文
posted @ 2017-12-11 11:16 copywang
阅读(825)
评论(0)
推荐(0)
2017年12月10日
【爬虫】【原创】08 使用简单正则表达式爬取下厨房(早餐,午餐,晚餐)
摘要: <!--[endif]-->目的 网址: http://www.xiachufang.com/ 输入关键词“早餐”,发现是跳转链接(暂时没想到这种怎么处理比较好,就单独拿出来处理吧) <!--[endif]--> 午餐和晚餐的网址就比较一致 <!--[endif]--> <!--[endif]-->
阅读全文
posted @ 2017-12-10 18:40 copywang
阅读(554)
评论(0)
推荐(0)
2017年12月6日
Ubuntu16.04安装Pycharm2017.2
摘要: 第1步,pycharm 2017.2下载地址:PyCharm: Python IDE for Professional Developers by JetBrains 选择linux版本的Professional版本 下载完成后默认目录是/home/用户名/Downloads/ 第2步,安装JDK8
阅读全文
posted @ 2017-12-06 15:48 copywang
阅读(3629)
评论(0)
推荐(0)
【问题】pyspider安装过程的一些问题
摘要: 第一个问题: 环境信息为windows10 64位,原生python3.6环境,没有使用anaconda,使用pip install pyspider报egg错误 解决方法: 1. 安装wheel pip install wheel 2. 下载pycurl 地址在这里:https://www.lfd
阅读全文
posted @ 2017-12-06 10:02 copywang
阅读(232)
评论(0)
推荐(0)
2017年12月3日
随便记录
摘要: conda config --add channels https://mirrors.tuna.tsinghua.edu.cn/anaconda/pkgs/free/ conda config --set show_channel_urls yes http://blog.csdn.net/qq_
阅读全文
posted @ 2017-12-03 15:54 copywang
阅读(119)
评论(0)
推荐(0)
2017年11月28日
【爬虫】【原创】pyspider抓取宅男女神美女图片
摘要: 灵感来源: https://zhuanlan.zhihu.com/p/31421316 抓取页面: https://www.nvshens.com/tag/new/ 页面分析: 3. 得到图片集链接后,需要获取图片真实地址,需要对所有图片页进行遍历 函数设计: 1. 调用以下2个得到所有详情页的ur
阅读全文
posted @ 2017-11-28 10:12 copywang
阅读(2152)
评论(0)
推荐(0)
2017年11月25日
【工具库安装】Scrapy安装
摘要: 环境:windows10 64bit 需要安装: 1. wheel pip3 install wheel 2. lxml http://www.lfd.uci.edu/~gohlke/pythonlibs/#lxml 3. PyOpenssl https://pypi.python.org/pypi
阅读全文
posted @ 2017-11-25 10:13 copywang
阅读(178)
评论(0)
推荐(0)
【学习】06 爬虫使用代理地址爬取搜狗微信文章
摘要: 参考:静觅丨崔庆才的个人博客 项目地址:copywang/spiders_collection 实现功能 根据登陆后的cookie制作header,请求搜索微信文章 url需要使用urlencode拼接 使用代理避免IP被封 使用pyquery解析得到需要的字段信息 爬取文章详情页并存储到Mongo
阅读全文
posted @ 2017-11-25 09:58 copywang
阅读(515)
评论(0)
推荐(0)
【爬虫】【原创】05 华为官网VMALL手机爬虫
摘要: 项目地址:copywang/spiders_collection 实现功能 步骤 遇到的问题 改进 爬取后的数据:
阅读全文
posted @ 2017-11-25 09:58 copywang
阅读(438)
评论(0)
推荐(0)
【学习】04 妹子图网爬虫最热图片
摘要: 参考链接:https://github.com/wzyonggege/Mzitu-Crawler/blob/master/mzitu.py 项目地址: copywang/spiders_collection 实验功能 爬取 http://www.mzitu.com/hot/ 的文章图片 遇到的问题
阅读全文
posted @ 2017-11-25 09:57 copywang
阅读(5274)
评论(0)
推荐(0)
【学习】03 淘宝爬虫-使用selenium采集关键词为电动车的数据
摘要: 参考: 静觅丨崔庆才的个人博客 项目地址: copywang/spiders_collection 实现功能: 使用geckodriver驱动firefox访问淘宝首页,输入关键词,点击搜索按钮,翻页,点击确定按钮,采集信息,存储到mongodb,导出成CSV文件,统计程序运行时间 使用seleni
阅读全文
posted @ 2017-11-25 09:56 copywang
阅读(320)
评论(0)
推荐(0)
【学习】02 今日头条爬虫-采集和下载关键词“新垣结衣”的图集图片
摘要: 参考: 静觅丨崔庆才的个人博客 项目地址: copywang/spiders_collection 实现功能: 使用requests库爬取得到首页信息,返回的HTML代码中不包含需要的信息,都是些JS 在XHR中找到JSON请求和数据 使用request.get方法请求JSON数据,使用urlenc
阅读全文
posted @ 2017-11-25 09:56 copywang
阅读(455)
评论(0)
推荐(0)
【学习】01 猫眼电影爬虫-最受期待榜榜单
摘要: 参考来源: 静觅丨崔庆才的个人博客 项目地址: copywang/spiders_collection 实现功能: 遇到的问题: 未解决问题: 原因:源代码中展示的并不是纯粹的数字。而是在页面使用了font-face定义了字符集,并通过unicode去映射展示。简单介绍下这种新型的web-fongt
阅读全文
posted @ 2017-11-25 09:55 copywang
阅读(271)
评论(0)
推荐(0)
Jupyter Notebook 的快捷键
摘要: Jupyter Notebook 的快捷键 王加鑫 10 天前 Jupyter Notebook 的快捷键 王加鑫 10 天前 10 天前 原文 Jupyter Notebook 的快捷键 Jupyter Notebook 有两种键盘输入模式。编辑模式,允许你往单元中键入代码或文本;这时的单元框线是
阅读全文
posted @ 2017-11-25 09:54 copywang
阅读(5171)
评论(0)
推荐(0)
pyspider 安装
摘要: 环境:windows10 64bit pip3 install pyspider 报错信息: 2. 从这里下载安装包 Python Extension Packages for Windows 放到D盘根目录,安装 3. 继续完成pyspider的安装 坑踩多了才有收获
阅读全文
posted @ 2017-11-25 09:53 copywang
阅读(188)
评论(0)
推荐(0)
2017年11月15日
爬虫基本原理
摘要: 1
阅读全文
posted @ 2017-11-15 08:09 copywang
阅读(252)
评论(0)
推荐(0)
2017年11月14日
python爬虫相关库安装
摘要: python爬虫涉及的库: 请求库,解析库,存储库,工具库 1. 请求库:urllib/re/requests (1) urllib/re是python默认自带的库,可以通过以下命令进行验证: 没有报错信息输出,说明环境正常 (2) requests安装 2.1 打开CMD,输入 2.2 等待安装后
阅读全文
posted @ 2017-11-14 15:53 copywang
阅读(14761)
评论(0)
推荐(0)
anaconda安装
摘要: 地址:https://mirrors.tuna.tsinghua.edu.cn/help/anaconda/
阅读全文
posted @ 2017-11-14 14:03 copywang
阅读(167)
评论(0)
推荐(0)
MySQL数据库安装(windows 10 64bit)
摘要: 环境:windows 10 64bit 1. 下载: 网址:http://rj.baidu.com/soft/detail/12585.html 2. 直接运行安装exe,勾选依赖库安装 3. 配置全选,保持默认,密码使用123456 4. 点解完成,退出安装程序 5. 验证 右键计算机管理,查看服
阅读全文
posted @ 2017-11-14 14:02 copywang
阅读(306)
评论(0)
推荐(0)
Redis数据库安装(windows 10 64bit)
摘要: 环境:windows 10 64bit 参考网址:http://www.runoob.com/redis/redis-tutorial.html 1. 下载 网址:https://github.com/MicrosoftArchive/redis/releases 文件名:Redis-x64-3.2
阅读全文
posted @ 2017-11-14 13:55 copywang
阅读(575)
评论(0)
推荐(0)
MongoDB可视化界面配置
摘要: 环境:windows 10 64bit 1. 以管理员身份运行cmd 2. 在data文件夹中建立logs目录 3. 在logs目录下建立mongo.log文件 4. 在第1步中窗口继续操作 5. 确认服务是否启动 首先关闭CMD窗口 右键计算机,计算机管理,服务,查看MongoDB服务,右键启动,
阅读全文
posted @ 2017-11-14 12:35 copywang
阅读(3023)
评论(0)
推荐(0)
MongoDB安装(windows 10环境)
摘要: 1. 下载 https://www.mongdb.com/ 选择版本:ws 2008 R2 64bit 2. 安装运行下载完成的MSI文件 安装时候选择自定义配置,选择安装路径,安装到E盘 等待2分钟安装完成 3. 打开安装路径bin目录 在bin的上层目录新建1个data目录,再在data下创建d
阅读全文
posted @ 2017-11-14 12:19 copywang
阅读(175)
评论(0)
推荐(0)
公告