随笔分类 - Python
摘要:一、windows设置 0.启用windows子系统 控制面板--程序--启用或关闭windows功能--勾选适用于linux的Windows子系统 确定后会重启电脑 1.下载Ubuntu 在Microsoft store下载Ubuntu(ubuntu18默认python3是python3.6) 2
阅读全文
摘要:单纯的变大再覆盖上去,头部检测信息不够全,效果实在是太差,就不多说了,只是按照自己的思路玩一玩,没有达到抖音上那么好的效果 效果
阅读全文
摘要:基于dlib68点人脸检测的小功能实现 图像旋转找的现成的方法,稍稍麻烦点的地方就是mask处理,虽然目的达到了,但是效果一般 眼镜图片 效果 泊松融合三种参数效果在这里一样 除了眼镜图片较浅其他的还算可以吧 还可以扩展面部其他装饰 参考: 泊松融合:https://www.smwenku.com/
阅读全文
摘要:一个被放弃的入门级的例子终于被我实现了,虽然还不太完美,但还是想记录下 1.预处理 相比较从库里下载数据集(关键是经常失败,格式也看不懂),更喜欢直接拿图片,从网上找了半天,最后从CSDN上下载了一个,真的是良心啊,都分好类了,有需要的可以找我 (1)图片大小,灰度,格式处理:虽然这里用不到,以后可
阅读全文
摘要:也不知道对不对,就凭着自己的思路写了一个 数据集:https://www.kaggle.com/c/titanic/data 效果一般吧,不过至少出来了,hiahiahia
阅读全文
摘要:半年前用numpy写了个鸢尾花分类200行。。每一步计算都是手写的 python构建bp神经网络_鸢尾花分类 现在用pytorch简单写一遍,pytorch语法解释请看上一篇pytorch搭建简单网络 运行结果趋近于0.5 正确,单纯练一下pytorch,就没有分训练集,测试集 不用手写反向传播和梯
阅读全文
摘要:pytorch搭建一个简单神经网络 训练集较少,可能结果不是很好,主要是结构,毕竟刚开始接触这个pytorch
阅读全文
摘要:参考链接:python并行任务技巧 python多线程到底有没有用 我的笔记本是四核 因为多进程没用过,所以我自己写了个小例子,体现出在CPU密集型操作中多进程的优势 运行多进程,注释掉19行代码 运行多线程,注释掉18行代码 运行结果 1.多线程 CPU最高37% 2.多进程 CPU最高100%
阅读全文
摘要:模块,图片自行安装选择 1.制作云词 2.发消息 3.好友头像拼接
阅读全文
摘要:超级鹰打码平台 稍稍改写了一下他的demo,用的话直接调用get_code()函数就可以了 新用户还给1000题分测试用,用户名密码填写自己的,验证码类型查看
阅读全文
摘要:框架写起来代码是真的简洁多了,还有就是在requests爬取房多多的时候,无法爬取所有地区,而这个就不受影响 代码请查看码云 运行结果:
阅读全文
摘要:本来想正面刚一下这个验证码的,但是一直post不上去,只好设置随机延迟,防止反爬 fangdd.py get_pinyin.py save_to_mongo.py 因为设置了延迟,再加上数据量比较大,所以爬取时间有点长,我打完了一把王者荣耀,c开头的还没爬完,此时数据库中已经有22000条信息了 运
阅读全文
摘要:总体来说代码还不是太完美 实现了js渲染网页的解析的一种思路 主要是这个下拉操作,不能一下拉到底,数据是在中间加载进来的, 具体过程都有写注释 运行结果 数据库
阅读全文
摘要:登录人人网为例 1.想要发送post请求,那么使用'scrapy.FormRequest'方法,可以方便的指定表单数据 2.如果想在爬虫一开始的时候就发送post请求,那么应该重写'start_requests'方法,在这个方法中发送post请求 spider.py 返回结果 dapeng.html
阅读全文
摘要:照着敲了一遍,,, 需要使用"LinkExtrator"和"Rule",这两个东西决定爬虫的走向。 1.allow设置规则的方法:要能够限制在我们想要的url上,不要跟其他的url产生相同的正则表达式即可 2.什么情况下使用follow:如果要爬取页面的时候,需要将满足当前条件的url再进行跟进,那
阅读全文
摘要:糗事百科scrapy爬虫笔记 1.response是一个'scrapy.http.response.html.HtmlResponse'对象,可以执行xpath,css语法来提取数据 2.提取出来的数据,是一个'Selector'或者是一个'SelectorList'对象,如果想要获取其中的字符串,
阅读全文
摘要:#settings.py文件设置 #如果网站中没有robots文件,就不会抓取任何数据 ROBOTSTXT_OBEY = False #设置请求头 DEFAULT_REQUEST_HEADERS = { 'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; …)
阅读全文
摘要:使用selenium进行翻页获取职位链接,再对链接进行解析 会爬取到部分空列表,感觉是网速太慢了,加了time.sleep()还是会有空列表 运行结果
阅读全文
摘要:拉勾网反爬虫做的比较严,请求头多添加几个参数才能不被网站识别 找到真正的请求网址,返回的是一个json串,解析这个json串即可,而且注意是post传值 通过改变data中pn的值来控制翻页 job_name读取的结果是一个列表 ['JAVA高级工程师、爬虫工程师'] ,而我只想得到里面的字符串,在
阅读全文

浙公网安备 33010602011771号