随笔分类 -  scrapy

摘要:真的是各种坑啊,哎 安装显示 Building wheel for twisted (setup.py) ... error 解决方法: https://askubuntu.com/questions/966939/failed-building-wheel-for-twisted 退出虚拟环境,然 阅读全文
posted @ 2019-05-25 23:01 忘记时间zms 阅读(229) 评论(0) 推荐(0)
摘要:只有数组的selector才有用 阅读全文
posted @ 2019-05-25 11:42 忘记时间zms 阅读(406) 评论(0) 推荐(0)
摘要:https://blog.csdn.net/yiifaa/article/details/54290047 https://blog.csdn.net/xinghuo0007/article/details/72637762 F12出来, 然后进入network 然后 disable cache选中 阅读全文
posted @ 2019-05-23 23:03 忘记时间zms 阅读(284) 评论(0) 推荐(0)
摘要:操他妈的, 阅读全文
posted @ 2019-05-23 18:27 忘记时间zms 阅读(384) 评论(0) 推荐(0)
摘要:pip安装 elasticsearch-dsl的包, 是elasticsearch提供给python 的接口 这个用来调试,还是很强大的,可以直接为某个py文件进行单元测试??应该是这么个意思 自己生成一个 models的文件夹用来存放类定义,和Django差不多,这样结构比较好 然后为每一个爬虫都 阅读全文
posted @ 2019-05-21 12:34 忘记时间zms 阅读(726) 评论(0) 推荐(0)
摘要:直接安装chrome插件,用npm老出错,shit 再说吧 使用插件连接的时候反而没有出错,后续如果出错 , 可以配置 elasticsearch下config下的y 在新的电脑上使用发现格式不对,比较乱,没对齐,结果发现是自己调了chrome的显示大小导致的,重新把字体跳回来就好了 阅读全文
posted @ 2019-05-20 15:56 忘记时间zms 阅读(105) 评论(0) 推荐(0)
摘要:class JsonItemExporter(BaseItemExporter):这个类的实现和几年前的实现有了点小变化,主要就是是否添加换行 阅读全文
posted @ 2019-05-17 22:26 忘记时间zms 阅读(134) 评论(0) 推荐(0)
摘要:parse.urljoin(former,later): 用former的域名拼接later的路径,如果later有域名,则进行忽略 阅读全文
posted @ 2019-05-17 20:40 忘记时间zms 阅读(173) 评论(0) 推荐(0)
摘要:twisted.python.failure.failure twisted.internet.error.connectionlost: connection to the other side was lost in a non-clean fashion.> 在命令行是可以成功的,但是在pyc 阅读全文
posted @ 2019-05-17 16:33 忘记时间zms 阅读(993) 评论(0) 推荐(0)