会员
周边
新闻
博问
闪存
众包
赞助商
Chat2DB
所有博客
当前博客
我的博客
我的园子
账号设置
会员中心
简洁模式
...
退出登录
注册
登录
俺配不起
博客园
首页
新随笔
联系
订阅
管理
2020年7月31日
centos8 不能显示中文的问题
摘要: yum install glibc-common yum install -y langpacks-zh_CN vim /etc/locale.conf # 修改这个文件 LANG=zh_CN.utf8
阅读全文
posted @ 2020-07-31 00:00 ken桑带你飞
阅读(2157)
评论(0)
推荐(0)
2020年7月27日
朝阳大妈也能听懂的git教程 (好人不谢)
摘要: 1 核心概念(非常简单) 大家想象一棵树 分支就是 同一个树关节 长两个分叉 每一个树关节 就是一个commit commit 是纵向纬度的版本 分支(branch) 是横向纬度的版本 (发挥想象力 自己想想) github.com 存储代码 以及版本 分支 等等信息的网站 2 操作心法 时刻留意着
阅读全文
posted @ 2020-07-27 21:38 ken桑带你飞
阅读(121)
评论(0)
推荐(0)
2018年2月13日
laravel 上线部署最佳实践
摘要: nginx 配置 listen 80 default_server; server_name xxxx; index index.php index.html; 优先 index.php root /home/wwwroot/xxx/public/; add_header X-Frame-Optio
阅读全文
posted @ 2018-02-13 16:23 ken桑带你飞
阅读(1188)
评论(0)
推荐(0)
2018年1月12日
ken桑带你读源码 之scrapy scrapy\core\scheduler.py
摘要: 从英文来看是调度程序 我们看看是怎么调度 首先爬虫队列有两个 一个是保存在内存中 没有历史记录 重新开始 42行 self.mqs = self.pqclass(self._newmq) 另外一个是存在硬盘的队列 用于断点续传 大家看 43 行 self._dq() if self.dqdir el
阅读全文
posted @ 2018-01-12 06:59 ken桑带你飞
阅读(154)
评论(0)
推荐(0)
2017年12月27日
scrapyd 部署
摘要: 步骤 1 pip install scrapyd pip install scrapy-client 步骤 2 修改 scrapy.cfg [deploy:targetName]url = http://localhost:6800/project = projectName 步骤 3 scrapy
阅读全文
posted @ 2017-12-27 13:05 ken桑带你飞
阅读(180)
评论(0)
推荐(0)
2017年12月23日
ken桑带你读源码 之 scrapy_redis
摘要: 首先更大家说下 正式部署上线的爬虫会有分布式爬虫的需求 而且原本scrapy 的seen (判断重复url的池 不知道用啥词 已抓url吧 ) 保存在磁盘 url 队列 也是保存在磁盘 (保存在磁盘 对爬虫效率会极大影响) 如果是断点重爬 声明 jobdir 百分百是保存在磁盘 不申明jobdir
阅读全文
posted @ 2017-12-23 07:06 ken桑带你飞
阅读(348)
评论(0)
推荐(0)
2017年12月15日
ken桑带你读源码 之scrapy scrapy\extensions
摘要: logstats.py 爬虫启动时 打印抓取网页数 item数 memdebug.py 爬虫结束 统计还被引用的内存 也就是说gc 回收不了的内存 memusage.py 监控爬虫 内存占用 一旦超过 MEMUSAGE_LIMIT_MB 就stop spider 如果启动email 还会发送邮件 抓
阅读全文
posted @ 2017-12-15 01:45 ken桑带你飞
阅读(187)
评论(0)
推荐(0)
2017年12月14日
ken桑带你读源码之scrapy downloadermiddlewares
摘要: downloadermiddlewares 文件夹是下载中间件 其中 process_request 还没请求时的处理函数 process_response 请求之后的处理函数 chunked.py 简单说就是传输网页数据非常大的 或者 数据长度不确定用到 参考 http://blog.csdn.n
阅读全文
posted @ 2017-12-14 04:14 ken桑带你飞
阅读(220)
评论(0)
推荐(0)
ken桑带你读源码 之scrapy scrapy\spidermiddlewares
只有注册用户登录后才能阅读该文。
阅读全文
posted @ 2017-12-14 02:00 ken桑带你飞
阅读(6)
评论(0)
推荐(0)
ken桑带你读源码 之scrapy pipelines\images.py
摘要: 大家先看看 http://www.cnblogs.com/attitudeY/p/7078559.html 下面我做一些补充 最新版本1.1 已经支持 下载路径保存到 item 48行 DEFAULT_IMAGES_RESULT_FIELD = 'images' 作为保存下载地址key 同时我们会有
阅读全文
posted @ 2017-12-14 00:46 ken桑带你飞
阅读(274)
评论(0)
推荐(0)
下一页
公告