会员
周边
新闻
博问
闪存
众包
赞助商
Chat2DB
所有博客
当前博客
我的博客
我的园子
账号设置
会员中心
简洁模式
...
退出登录
注册
登录
cphmvp
简单 简约 It's me
博客园
首页
新随笔
联系
管理
上一页
1
···
4
5
6
7
8
9
10
11
12
···
26
下一页
2015年10月20日
数据分析入门
摘要: 前言: 从事网络爬虫三年有余,近期工作稍微有所调整 ,开始倾向于数据分析。之前零零散散的做过些简要的分析【电商数据分析,社交媒体状态分析】。而至于数据分析也算新手,没有系统的学过 。 计划这个方式掌控学习: 为生产环境快速实现case【code by python】--> 补充理论知识【书,下列有书...
阅读全文
posted @ 2015-10-20 17:31 cphmvp
阅读(225)
评论(0)
推荐(0)
2015年9月17日
linux_vim_最佳快捷键
摘要: 如何使用vi文本编辑器vi由比尔·乔伊(Bill Joy)撰写,所有UNIX like均默认安装此文本编辑器。详细简介请点击维基中文。1.首先复制一个文件到/tmp目录(本例中为复制根目录下install.log文件)做为示例文本。2.输入“cd /tmp”切换到/tmp目录,并输入“vi inst...
阅读全文
posted @ 2015-09-17 11:15 cphmvp
阅读(2115)
评论(0)
推荐(0)
2015年9月10日
crawler_URL编码原理详解
摘要: 经常写爬虫的童鞋,难免要处理含有中文的url,大部分时间,都知道url_encode,各个语言也都有支持,今天简单整理下原理,供大家科普1、特征: 如果URL中含有非ASCII字符的话, 浏览器会对URL进行URL_ENCODE, 然后发送给服务器. URL_ENCODE的过程就是把URL作为字符...
阅读全文
posted @ 2015-09-10 14:11 cphmvp
阅读(589)
评论(0)
推荐(1)
linux_常用压缩,解压缩命令
摘要: 01-.tar格式解包:[*******]$ tar xvf FileName.tar打包:[*******]$ tar cvf FileName.tar DirName(注:tar是打包,不是压缩!)02-.gz格式解压1:[*******]$ gunzip FileName.gz解压2:[***...
阅读全文
posted @ 2015-09-10 14:01 cphmvp
阅读(272)
评论(0)
推荐(0)
2015年9月9日
myql_链接丢失异常_mybaits _等框架_报错_The last packet successfully
摘要: mysql 8小时问题的解决方法转发: 别看是英文 ,写的很好 ,才转Use Hibernate + MYSQL database development, link timeout problem:com.mysql.jdbc.CommunicationsException: The last p...
阅读全文
posted @ 2015-09-09 15:03 cphmvp
阅读(395)
评论(0)
推荐(0)
2015年8月15日
linux_shell_类似sql的orderby 取最大值
摘要: {"time":"2015.08.14 21:45:13","total":999224516}{"time":"2015.08.14 21:45:24","total":999225424}{"time":"2015.08.14 21:45:34","total":999226141}{"time...
阅读全文
posted @ 2015-08-15 16:05 cphmvp
阅读(364)
评论(0)
推荐(0)
2015年8月13日
php_cawler_html嵌套标签清洗
摘要: 主要处理 嵌套 div,正则无法很好的处理清洗 比如文本: 想要移除 class =quizPutTag 的div ,内部可能嵌套的还有未知层级的div【前提是html文本段是闭合标签的】这是testtestH2C2O4•2H2O△.CO↑+CO2↑+3H2O↑保留的实现codeload(''.$...
阅读全文
posted @ 2015-08-13 18:29 cphmvp
阅读(443)
评论(0)
推荐(0)
2015年8月12日
vim_编码配置文件_utf8乱码解决
摘要: 1:简化步奏 调整 :vimrc的脚本配置 编辑~/.vimrc文件,(没有的话新建个)加上如下几行:set fileencodings=utf-8,ucs-bom,gb18030,gbk,gb2312,cp936 set termencoding=utf-8 set encoding=utf-82...
阅读全文
posted @ 2015-08-12 12:30 cphmvp
阅读(762)
评论(0)
推荐(0)
2015年8月8日
python_random随机
摘要: 在数据清洗,评估 ,抽验等等过程中,经常有这样的应用场景 : 需要在一个大的数据集合中随机出来样本,进行人工评估。为了保证足够随机,借助脚本来实现。下面一个脚本 ,用于应对这种应用场景。使用方法: python random_select_line.py -h建议:自定义 alias random...
阅读全文
posted @ 2015-08-08 13:31 cphmvp
阅读(360)
评论(0)
推荐(0)
2015年7月25日
linux_shell_轮询触发启动脚本
摘要: while [ 1 ]do length=`redis-cli -h *.*.*.* -p 8000 llen eq` while [ $length -gt 1 ] do echo "length[${length}], sleep 3600 s" sleep 3600 length=`re...
阅读全文
posted @ 2015-07-25 18:41 cphmvp
阅读(1704)
评论(0)
推荐(0)
上一页
1
···
4
5
6
7
8
9
10
11
12
···
26
下一页
公告
爬虫在线测试小工具:
http://tool.haoshuju.cn/