摘要: 0. splash: 美人鱼 溅,泼 1.参考 Splash使用初体验 docker在windows下的安装 https://blog.scrapinghub.com/2015/03/02/handling-javascript-in-scrapy-with-splash/ Splash is ou 阅读全文
posted @ 2017-10-19 17:45 my8100 阅读(1936) 评论(0) 推荐(0) 编辑
摘要: 0 1.Scrapy 使用 MongoDB https://doc.scrapy.org/en/latest/topics/item-pipeline.html#write-items-to-mongodb Write items to MongoDB In this example we’ll w 阅读全文
posted @ 2017-10-18 12:11 my8100 阅读(1125) 评论(0) 推荐(0) 编辑
摘要: 0.问题现象 爬取 item: 写入jsonline jl 文件 item 被转 str,默认 ensure_ascii = True,则非 ASCII 字符被转化为 `\uXXXX`,每一个 ‘{xxx}’ 单位被写入文件 目标:注意最后用 chrome 或 notepad++ 打开确认,fire 阅读全文
posted @ 2017-10-16 18:30 my8100 阅读(5515) 评论(1) 推荐(1) 编辑
摘要: 0. 参考 yu961549745/WeiboBlackList 微博批量拉黑 1. 代码 block.py 更新内容:多线程,urllib.request 改为 requests + session 改成从 firefox 或 chrome 读取 cookie 更方便,懒得改了 阅读全文
posted @ 2017-10-11 12:21 my8100 阅读(560) 评论(0) 推荐(0) 编辑
摘要: 0. 1.总结 (1) (a)iterable 可迭代(对象) 能力属性 指一个对象能够一次返回它的一个成员,for i in a_list 而不需要通过下标完成迭代。 例子包括所有序列类型(list, str, tuple), 以及 dict, file, 还包括定义了 __iter__() 或 阅读全文
posted @ 2017-09-18 12:00 my8100 阅读(383) 评论(0) 推荐(0) 编辑
摘要: 0. http://mysql-python.sourceforge.net/ Python and MySQL: This is a presentation I did a couple years ago for the 2005 MySQL User Conference. It was a 阅读全文
posted @ 2017-09-17 21:43 my8100 阅读(249) 评论(0) 推荐(0) 编辑
摘要: 0.目录 2.构建URL3.新建数据库4.新建汇总表5.定义连接数据库函数:connect_db(db=None, cursorclass=DictCursor)6.汇总表填充必要数据7.新建各省份子表8.完整代码 1.参考 2.构建URL python之多线程 queue 实践 筛选有效url 3 阅读全文
posted @ 2017-09-11 12:55 my8100 阅读(417) 评论(0) 推荐(0) 编辑
摘要: 0.目录 1.背景 某号码卡申请页面通过省份+城市切换归属地,每次返回10个号码。 通过 Fiddler 抓包确认 url 关键参数规律: provinceCode 两位数字 cityCode 三位数字 groupKey 与 provinceCode 为一一对应 所以任务是手动遍历省份,取得 pro 阅读全文
posted @ 2017-09-11 12:53 my8100 阅读(845) 评论(0) 推荐(0) 编辑
该文被密码保护。 阅读全文
posted @ 2017-09-11 12:09 my8100 阅读(14) 评论(0) 推荐(0) 编辑
摘要: 0.目录 2.setup(1) 安装步骤,可以顺带安装mysql administrator和mysql query browser(2) 安装完毕,修改 my.ini(3) 重启 mysql 服务:(4) cmd 确认可用:(5) 安装 MySQLdb(6) 脚本内部会先对 execute 的un 阅读全文
posted @ 2017-09-03 23:15 my8100 阅读(6483) 评论(0) 推荐(0) 编辑