五杀摇滚小拉夫

  博客园  :: 首页  :: 新随笔  :: 联系 :: 订阅 订阅  :: 管理
上一页 1 ··· 6 7 8 9 10 11 12 13 14 ··· 19 下一页

2018年12月2日

摘要: MySQL默认端口 3306 Redis默认端口 6379 MongoDB默认端口 27017 django端口 8000 flask端口 5000 pyspider服务端口 5000(由flask开发) gerapy服务端口 8000(由django开发) scrapyd服务端口 6800 ipython notebook 默认端口 8888 HTTP默认端口 80 HTTPS服务默认端口44... 阅读全文
posted @ 2018-12-02 09:45 五杀摇滚小拉夫 阅读(412) 评论(0) 推荐(0)

摘要: 1.通用爬虫:搜索引擎用的爬虫系统。搜索引擎和供应商提供的爬虫。 通用爬虫要遵循规则:Robots协议 通用爬虫工作流程: 爬取网页》存储数据》内容处理》提供检索 通用爬虫缺点: 只能提供和文本相关的内容如html、world、pdf等,不能提供多媒体文件如音乐、图片、视频和二进制文件(脚本、程序) 提供的结果千篇一律,针对不同领域提供不同内容 不能提供人类语义上的检索 通用爬虫局... 阅读全文
posted @ 2018-12-02 09:40 五杀摇滚小拉夫 阅读(2312) 评论(0) 推荐(0)

摘要: 这是面试中的问题:当时也是没有直接回答出来,还是因为基础知识不扎实。一般Mysql常用的搜索引擎有:ISAM、MylSAM、HEAP、InnoDB、Berkley(BDB)ISAM:执行读取操作的速度很快,而且不占用大量的内存和存储资源。 不足之处是:不支持事务,不支持外键,也不能过容错。MylSAM:在ISAM基础上,提供了ISAM所没有的索引和字段管理的大量功能,还使用了一种表格锁定机制... 阅读全文
posted @ 2018-12-02 09:19 五杀摇滚小拉夫 阅读(1339) 评论(0) 推荐(0)

2018年11月21日

摘要: 正常如下: 阅读全文
posted @ 2018-11-21 12:38 五杀摇滚小拉夫 阅读(154) 评论(0) 推荐(0)

2018年11月20日

摘要: request.url : https://touch.dujia.qunar.com/list?modules=list%2CbookingInfo%2CactivityDetail&dep=%E5%B9%BF%E5%B7%9E&query=%E5%8E%A6%E9%97%A8%E8%87%AA% 阅读全文
posted @ 2018-11-20 18:14 五杀摇滚小拉夫 阅读(422) 评论(0) 推荐(0)

摘要: 认证key是访问api的钥匙 可以看到免费的用户只能访问一个服务器节点: 执行效果如下: 代码报错: 是由于网站把这个借口给关闭了,已经无法使用,但调用api接口的方式大概就是这样。 模拟获取请求参数拼接请求url去获取数据,其实就和使用代理ip差不多。 阅读全文
posted @ 2018-11-20 14:55 五杀摇滚小拉夫 阅读(326) 评论(0) 推荐(0)

2018年11月16日

摘要: 这里是完整的工商信息采集代码,不过此程序需要配合代理ip软件使用。问题:1.网站对ip之前没做限制,但是采集了一段时间就被检测到设置了反爬,每个ip只能访问十多次左右就被限制访问。2.网站对请求头的检测识别解决:1.配合代理ip软件(风讯代理)设置自动切换ip时间,执行爬虫程序。2.中间件设置随机user-agent采集结果:正常采集速度一天大概采集1万条数据左右。问题:切换ip会造成程序断网一... 阅读全文
posted @ 2018-11-16 17:50 五杀摇滚小拉夫 阅读(4141) 评论(1) 推荐(0)

摘要: 简单测试: 阅读全文
posted @ 2018-11-16 16:12 五杀摇滚小拉夫 阅读(468) 评论(0) 推荐(0)

2018年11月12日

摘要: {'downloader/exception_count': 199, 'downloader/exception_type_count/twisted.internet.error.NoRouteError': 192, 'downloader/exception_type_count/twist 阅读全文
posted @ 2018-11-12 18:21 五杀摇滚小拉夫 阅读(468) 评论(0) 推荐(0)

摘要: 首先分析:目的:采集链家网站二手房数据1.先分析一下二手房主界面信息,显示情况如下:url = https://gz.lianjia.com/ershoufang/pg1/显示总数据量为27589套,但是页面只给返回100页的数据,每页30条数据,也就是只给返回3000条数据。 2.再看一下筛选条件的情况:100万以下(775):https://gz.lianjia.com/ershouf... 阅读全文
posted @ 2018-11-12 11:45 五杀摇滚小拉夫 阅读(416) 评论(0) 推荐(0)

上一页 1 ··· 6 7 8 9 10 11 12 13 14 ··· 19 下一页