摘要: 研一选修课选了机器学习,期末作业是参加泰迪杯,晕了~本着不能亏报名费的心态,和组内的同学组了队,认真肝了几天论文,幸运的拿到了网速创新奖,把参赛费赚回来了,好耶!任务分配上,我负责代码实现和技术部分论文,队友负责论文其他部分及ppt,下面就直接进入正题辣~(其实都是复制黏贴论文里的) 首先是第一问, 阅读全文
posted @ 2021-06-24 20:57 东东欧尼酱 阅读(689) 评论(0) 推荐(0) 编辑
摘要: 之所以做这个东西是因为在NGA上看到了张桂梅校长相关的讨论,有些网友以“张校长用国家的钱建女校,是否有违性别公平“”身边读过书的女孩子数量远多于男孩子“等理由抨击张校长,本着没有调查就没有发言权的原则,我爬取了2010年(为什么不选2020年的原因是想调查更早之前云南省的情况),并做了些数据可视化。 阅读全文
posted @ 2021-04-01 15:41 东东欧尼酱 阅读(576) 评论(0) 推荐(0) 编辑
摘要: 决策树 参考资料:Andrew W. Moore Professor School of Computer Science Carnegie Mellon University Decision Trees 决策树 一、 机器学习数据集 二、 分类/回归 三、 信息熵 四、 列联表 五、 信息增溢 阅读全文
posted @ 2020-09-21 20:05 东东欧尼酱 阅读(136) 评论(0) 推荐(0) 编辑
摘要: 本文的代理由http://www.xicidaili.com提供。 Request代理设置的方法:传入proxies参数即可。 selenium代理设置方法:修改并传入chrome_options参数即可。 阅读全文
posted @ 2018-11-19 14:26 东东欧尼酱 阅读(166) 评论(0) 推荐(0) 编辑
摘要: 我们要爬取的网站为http://image.so.com/z?ch=photography,打开开发者工具,页面往下拉,观察到出现了如图所示Ajax请求, 其中list就是图片的详细信息,接着观察到每个Ajax请求的sn值会递增30,当sn为30时,返回前30张图片,当sn为60时,返回第31到60 阅读全文
posted @ 2018-11-16 21:46 东东欧尼酱 阅读(337) 评论(0) 推荐(0) 编辑
摘要: 这就是极验验证码,通过拖动滑块移动拼图来验证。我们观察到点击滑块时拼图才会出现,所以我们可以在点击滑块之前截取图像,点击滑块再截取一次图像,将前后两次图像做比较就可以找到图片改动的位置。获得位置后,我们需要模拟人类的操作将滑块移动到指定的位置。代码如下: 阅读全文
posted @ 2018-11-16 21:09 东东欧尼酱 阅读(706) 评论(0) 推荐(0) 编辑
摘要: Spider有以下属性: 起始URL列表。如果没有实现start_requests()方法,默认会从这个列表开始爬取。 Downloader Middleware即下载中间件,它是处于Scrapy的Request和Response之间的处理模块。Downloader的作用有两个:1.在Schedul 阅读全文
posted @ 2018-11-16 14:27 东东欧尼酱 阅读(753) 评论(0) 推荐(0) 编辑
摘要: 接下来以爬取quote.toscrape.com为例完成一遍Scrapy的抓取流程。 首先创建一个Scrapy项目。打开命令行,输入以下命令: scrapy startproject projectname 即可在当前位置创建一个Scrapy项目。我们创建一个名为tutorial的项目: scrap 阅读全文
posted @ 2018-11-15 20:32 东东欧尼酱 阅读(155) 评论(0) 推荐(0) 编辑
摘要: Scrapy框架的架构图如上。 Scrapy中的数据流由引擎控制,数据流的过程如下: 1.Engine打开一个网站,找到处理该网站的Spider,并向该Spider请求第一个要爬取得URL。 2.Engine从Spider中获取到第一个要爬的URL,并通过Scheduler以Request的形式调度 阅读全文
posted @ 2018-11-15 19:51 东东欧尼酱 阅读(175) 评论(0) 推荐(0) 编辑
摘要: 首先进入github登录页:https://github.com/login 输入账号密码,打开开发者工具,在Network页勾选上Preserve Log(显示持续日志),点击登录,查看Session请求,找到其请求的URL与Form Data、Headers。此时除Cookies与authent 阅读全文
posted @ 2018-11-12 19:06 东东欧尼酱 阅读(281) 评论(0) 推荐(0) 编辑