会员
周边
新闻
博问
闪存
众包
赞助商
Chat2DB
所有博客
当前博客
我的博客
我的园子
账号设置
会员中心
简洁模式
...
退出登录
注册
登录
cwkcwk
博客园
首页
新随笔
联系
管理
订阅
2018年11月6日
国家统计局全国城乡街道信息。保存入Mongodb
摘要: import requests,re,time,pymongofrom bs4 import BeautifulSoup as bs#计数用num = 0str_time = time.time()#连接mongodbclient = pymongo.MongoClient(host='localh
阅读全文
posted @ 2018-11-06 18:13 cwkcwk
阅读(686)
评论(0)
推荐(0)
2018年10月13日
爬取股票信息,分别在两个网站上爬取股票名称和股票数据。并组合在一起。制表打印
摘要: import requestsimport refrom bs4 import BeautifulSoup as bsimport tracebackdef getHTMLtext(url,code = "utf-8 "): try: r = requests.get(url) r.raise_fo
阅读全文
posted @ 2018-10-13 21:25 cwkcwk
阅读(647)
评论(0)
推荐(0)
淘宝商品信息 并且按表格排列。
摘要: import requestsimport re headers = {'cookie': 'l=Aj8/z1CVFeqHt7/Nk9kSI9v3TxnJEZPG; miid=5178119511105888855; cna=cDBEEgUJsxMCARsRgoXUNkvN; x=e%3D1%26p
阅读全文
posted @ 2018-10-13 21:18 cwkcwk
阅读(1233)
评论(0)
推荐(0)
2018年9月26日
scrapy框架项目:抓取链家 全武汉的二手房信息
摘要: import scrapyimport refrom collections import Counterfrom lianjia.items import LianjiaItemclass LianjiaSpiderSpider(scrapy.Spider): name = 'lianjia_sp
阅读全文
posted @ 2018-09-26 23:48 cwkcwk
阅读(473)
评论(0)
推荐(0)
scrapy框架项目:抓取全部知乎用户信息,并且保存至mongodb
摘要: import scrapyimport json,time,refrom zhihuinfo.items import ZhihuinfoItemclass ZhihuSpider(scrapy.Spider): name = 'zhihu' allowed_domains = ['www.zhih
阅读全文
posted @ 2018-09-26 23:39 cwkcwk
阅读(312)
评论(0)
推荐(0)
今日头条图片ajax异步加载爬取,并保存至mongodb,以及代码写法的改进
摘要: import requests,time,re,json,pymongofrom urllib.parse import urlencodefrom requests.exceptions import RequestExceptionfrom bs4 import BeautifulSoup as
阅读全文
posted @ 2018-09-26 23:27 cwkcwk
阅读(346)
评论(0)
推荐(0)
2018年9月3日
python 爬虫 booking爬取酒店信息
摘要: import requestsfrom bs4 import BeautifulSoup as bsimport reimport timeimport pandas as pdheaders ={"User-Agent": "Mozilla/5.0 (Windows NT 6.1; WOW64)
阅读全文
posted @ 2018-09-03 00:21 cwkcwk
阅读(2496)
评论(0)
推荐(0)
python 爬虫 百度贴吧签到小工具
摘要: import requests,re,timeheader ={ "Cookie":"登陆过账号后的cookie 必须填写", "User-Agent":"Mozilla/5.0 (Windows NT 6.1; WOW64) AppleWebKit/537.36 (KHTML, like Geck
阅读全文
posted @ 2018-09-03 00:11 cwkcwk
阅读(328)
评论(0)
推荐(0)
2018年8月23日
CPU密集型和I/O密集型区别
摘要: 一些进程绝大多数时间在计算上,称为计算密集型(CPU密集型)computer-bound。 有一些进程则在input 和output上花费了大多时间,称为I/O密集型,I/O-bound。比如搜索引擎蜘蛛大多时间是在等待相应这种就属于I/O密集型。 所以说 CPU密集型的项目适合调用多进程 I/O密
阅读全文
posted @ 2018-08-23 14:45 cwkcwk
阅读(1275)
评论(0)
推荐(0)
随笔
摘要: 无意发现
阅读全文
posted @ 2018-08-23 01:50 cwkcwk
阅读(86)
评论(0)
推荐(0)
下一页
公告