Mr_Cxy - 博客园

tests

摘要： test 阅读全文

posted @ 2018-02-25 23:03 Mr_Cxy 阅读(280) 评论(0) 推荐(0)

Python 2.7_多进程获取简书专题数据（一）

摘要：学python几个月了正好练练手，发现问题不断提高，先从专题入手，爬取些数据，一开始对简书网站结构不熟悉，抓取推荐，热门，城市3个导航栏，交流发现推荐和热门是排序不同，url会重复，以及每个专题详情页三个类目最新评论，最新收录，热门也会重复做了下调整，代码执行完毕会返回所有专题的urls元组对象阅读全文

posted @ 2017-02-12 15:40 Mr_Cxy 阅读(725) 评论(0) 推荐(0)

python2.7 爬取简书30日热门专题文章之简单分析_20170207

摘要：昨天在简书上写了用Scrapy抓取简书30日热门文章，对scrapy是刚接触，跨页面抓取以及在pipelines里调用settings,连接mysql等还不是很熟悉,今天依旧以单独的py文件区去抓取数据。同时简书上排版不是很熟悉，markdown今天刚下载还没来得及调试，以后会同步更新简书文章：h 阅读全文

posted @ 2017-02-07 23:35 Mr_Cxy 阅读(333) 评论(0) 推荐(0)

Python 2.7_利用xpath语法爬取豆瓣图书top250信息_20170129

摘要：大年初二,忙完家里一些事,顺带有人交流爬取豆瓣图书top250 1、构造urls列表 urls=['https://book.douban.com/top250?start={}'.format(str(i) for i in range(0, 226, 25))] 2、模块 requests获取网阅读全文

posted @ 2017-01-29 17:28 Mr_Cxy 阅读(1650) 评论(0) 推荐(0)

mysql_union all 纵向合并建表_20170123

摘要：年前事情比较多,博客不能每天更新了。 1、union all 纵向建表和left join 横向建表的数据结构区别先贴代码后面再补充阅读全文

posted @ 2017-01-23 10:59 Mr_Cxy 阅读(497) 评论(0) 推荐(0)

Python 2.7_爬取CSDN单页面博客文章及url(二)_xpath提取_20170118

摘要：上次用的是正则匹配文章title 和文章url,因为最近在看Scrapy框架爬虫需要了解xpath语法学习了下拿这个例子练手 1、爬取的单页面还是这个rooturl：http://blog.csdn.net/column/details/why-bug.html 2、用requests的 get 阅读全文

posted @ 2017-01-18 21:15 Mr_Cxy 阅读(282) 评论(0) 推荐(0)

MySQL_截止昨日南京市所有在职业务员业绩排名-20170116

摘要： #计算南京销售员总业绩排名数据结果已打乱处理 #职工信息表包含在职和离职两种状态因此不能以这表当做主表不然离职人的数据也会出现以毛利表为主表销售员限制在昨天在职的销售范围内且和后面left join的表销售人员保持一致取出相应其他字段 #@i:=@i+1增长变量阅读全文

posted @ 2017-01-16 23:10 Mr_Cxy 阅读(329) 评论(0) 推荐(0)

Python 2.7_爬取妹子图网站单页测试图片_20170114

摘要： 1、url= http://www.mzitu.com/74100/x，2为1到23的值 2、用到模块 os 创建文件目录; re模块正则匹配目录名图片下载地址; time模块限制下载时间;requests模块获取网页源代码;urllib模块 urllib.urlretrieve(图片url,保阅读全文

posted @ 2017-01-14 13:03 Mr_Cxy 阅读(298) 评论(0) 推荐(0)

Python 2.7_爬取CSDN单页面利用正则提取博客文章及url_20170114

摘要：年前有点忙,没来的及更博,最近看爬虫正则的部分巩固下 1.爬取的单页面：http://blog.csdn.net/column/details/why-bug.html 2.过程解析url获得网站源代码 3.找到文章标题列表和文章url(a标签下’href'属性）组成列表 4.for循环取出 # 阅读全文

posted @ 2017-01-14 10:02 Mr_Cxy 阅读(315) 评论(0) 推荐(0)

Python 2.7_pandas连接MySQL数据处理_20161229

摘要：在我本地Mysql_local_db数据库建立了一个pandas数据表用来对pandas模块的学习学习过程借鉴学习蓝鲸的网站分析笔记 1、创建表 2、Kettle导入测试数据对数据进行了处理 3、执行SQL查询数据 4、Pycharm中编写代码用pandas模块进行连接MySQL数据库 num 阅读全文

posted @ 2016-12-29 22:58 Mr_Cxy 阅读(462) 评论(0) 推荐(0)

导航

公告