随笔档案「2018年10月」 - gaknl

摘要：写一个flask项目： 1. JavaScript和Ajax编写单页程序阅读全文

posted @ 2018-10-25 11:51 gaknl 阅读(253) 评论(0) 推荐(0)

摘要：1 import urllib.request 2 import json 3 4 #定义要爬取的微博大V的微博ID 5 id='3995218983' 6 7 #设置代理IP 8 proxy_addr="122.241.72.191:808" 9 10 #定义页面打开函数 11 def use_proxy(url,proxy_addr): 12 req=urll... 阅读全文

posted @ 2018-10-19 10:42 gaknl 阅读(1272) 评论(0) 推荐(0)

Scrapy 爬取新浪微博

摘要：1 本节目标本次爬取的日标是新浪微博用户的公开基本信息，如用户昵称、头像、用户的关注、粉丝列表以及发布的微博等，这些信息抓取之后保存至 MongoDB。 2.如何实现：以微博的几个大 V为起始点，爬取他们各内的粉丝和关注列表，然后获取粉丝和关注列表的粉丝和关注列表，以此类推，这样下去就可阅读全文

posted @ 2018-10-19 10:26 gaknl 阅读(1277) 评论(0) 推荐(0)

《python3网络爬虫开发实战》--Scrapy

摘要：1. 架构引擎(Scrapy)：用来处理整个系统的数据流处理, 触发事务(框架核心) 调度器(Scheduler)：用来接受引擎发过来的请求, 压入队列中, 并在引擎再次请求的时候返回. 可以想像成一个URL（抓取网页的网址或者说是链接）的优先队列, 由它来决定下一个要抓取的网址是什么, 同时去除阅读全文

posted @ 2018-10-18 23:01 gaknl 阅读(3221) 评论(0) 推荐(0)

《python3网络爬虫开发实战》--pyspider

摘要：1. 与scrapy的比较： pyspider提供了 WebUI，爬虫的编写、调试都是在 WebUI 中进行的。而 Scrapy原生是不具备这个功能的，它采用的是代码和命令行操作，但可以通过对接 Portia实现可视化配置。 pyspider调试非常方便， WebUI操作便捷直观。 Scra 阅读全文

posted @ 2018-10-18 00:02 gaknl 阅读(4859) 评论(0) 推荐(0)

《python3网络爬虫开发实战》--APP爬取

摘要：1。 Charles 阅读全文

posted @ 2018-10-17 21:43 gaknl 阅读(309) 评论(0) 推荐(0)

《python3网络爬虫开发实战》--模拟登陆

摘要：1.cookies池的搭建 Cookies池需要有自动生成 Cookies、定时检测 Cookies、提供随机 Cookies等几大核心功能。 Cookies 池架构的基本模块分为 4 块:存储模块、生成模块、检测模块和接口模块。每个模块的功能如下。存储模块负责存储每个账号的用户名密码阅读全文

posted @ 2018-10-17 21:42 gaknl 阅读(428) 评论(0) 推荐(0)

《python3网络爬虫开发实战》--代理的使用

摘要：g 阅读全文

posted @ 2018-10-17 11:01 gaknl 阅读(218) 评论(0) 推荐(0)

用selenium爬取淘宝商品

摘要：1. 目标利用 Selenium抓取淘宝商品并用 pyquery解析得到商品的图片、名称、价格、购买人数、店铺名称和店铺所在地信息，并将其保存到 MongoDB。 2.准备工作 Chrome 浏览器并配置好了 ChromeDriver;另外，还需要正确安装 Python 的 Selenium 阅读全文

posted @ 2018-10-16 16:47 gaknl 阅读(973) 评论(0) 推荐(0)

《python3网络爬虫开发实战》--动态渲染页面爬取

摘要：Ajax可以对JS进行渲染，但有些直接通过JS来渲染，例如淘宝，许多图形是通过JavaScript计算之后形成的，里面的Ajax接口含有许多加密参数，无法找到规律，像Echarts 1. selenium Selenium是一个自动化测试工具，利用它可以驱动浏览器执行特定的动作，如点击、下拉等操作阅读全文

posted @ 2018-10-16 15:20 gaknl 阅读(2064) 评论(0) 推荐(0)

Ajax爬取今日头条街拍美图

摘要：1.打开今日头条：https://www.toutiao.com 2.搜索街拍 3.检查元素，查看请求发现在URL中每次只有offset发生改变，是一个get请求阅读全文

posted @ 2018-10-15 17:49 gaknl 阅读(377) 评论(0) 推荐(0)

爬取微博

摘要：1. 阅读全文

posted @ 2018-10-14 22:55 gaknl 阅读(324) 评论(0) 推荐(0)

《python3网络爬虫开发实战》--Ajax数据爬取

摘要：1. ajax 异步的 JavaScript和 XML。对于传统的网页，如果想更新其内容，那么必须要刷新整个页面，但有了 Ajax，便可以在页面不被全部刷新的情况下更新其内容。在这个过程中，页面实际上是在后台与服务器进行了数据交互，获取到数据之后，再利用 JavaScript改变网页，这样网页阅读全文

posted @ 2018-10-14 21:59 gaknl 阅读(367) 评论(0) 推荐(0)

《python3网络爬虫开发实战》--数据存储

摘要：1. TXT文本 open打开文件： 2. JSON文件存储 3. CSV 4. mysql 5.mongdb: 6.redis 阅读全文

posted @ 2018-10-14 18:38 gaknl 阅读(270) 评论(0) 推荐(0)

《python3网络爬虫开发实战》--解析库的使用

摘要：在用正则表达式匹配的时候，错误一点点，可能会导致匹配失败所以还是不方便。对于网页来说，它可以定义id,class或者其他属性，并且节点之间有层次关系，在网页可以通过XPath或CSS选择器来定位一个或者多个节点 1.XPATH 第一次选择时，调用了 ancestor轴，可以获取所有祖先节点。其后阅读全文

posted @ 2018-10-14 12:16 gaknl 阅读(536) 评论(0) 推荐(0)

对猫眼电影排行的爬取

摘要：1. 目标：对猫眼电影前100名的爬取，并将结果以文件的形式保存下来 2. 准备工作： requests库 3. 抓取分析 offset代表偏移量值，分开请求10次，就可以获取前100的电影 4.抓取首页 5.正则提取 6.文件提取 7.代码整合 8.每页爬取总代码：阅读全文

posted @ 2018-10-14 10:48 gaknl 阅读(278) 评论(0) 推荐(0)

《python3网络爬虫开发实战》--基本库的使用

摘要：1. urllib: 2. Handle类：当需要实现高级的功能时，使用Handle 3. urljoin 我们可以提供一个 base_url (基础链接 )作为第一个参数，将新的链接作为第二个参数，该方法会分析 base_url 的 scheme、 netloc 和 path这 3个内容并对新链阅读全文

posted @ 2018-10-13 21:20 gaknl 阅读(412) 评论(0) 推荐(0)

python3爬虫基础

摘要：1. HTTP基本原理： 2. 网页基础网页的组成：网页的结构：节点树及节点间的关系：在 HTML 中，所有标签定义的内容都是节点，它们构成了一个 HTMLDOM树选择器 3. 爬虫的基本原理获取网页：urllib,requests 提取信息:beautifulsoup,pyquery,l 阅读全文

posted @ 2018-10-11 16:35 gaknl 阅读(238) 评论(0) 推荐(0)

安装tesserocr错误（未解决）

摘要：在 Mac下，我们首先使用 Homebrew安装 ImageMagick和 tesseract库 : brew install imagemagickbrew install tesseract --all-languages 接下来再安装 tesserocr即可: pip3 install tes 阅读全文

posted @ 2018-10-10 20:09 gaknl 阅读(1759) 评论(0) 推荐(0)

flask学习

摘要：注册路由，路由负责管理URL和函数之间的映射.route（）装饰器的第一个参数是URL规则，用字符串表示，必须以斜杠（/）开始阅读全文

posted @ 2018-10-05 09:38 gaknl 阅读(86) 评论(0) 推荐(0)

k-近邻算法

摘要：1. k-近邻算法采用测量不同特征值之间的距离方法进行分类优点：精度高、对异常值不敏感、无数据输入假定缺点：计算复杂度高、空间复杂度高适用数据类型：数值型和标称行存在一个样本数据集合，称作为训练样本集。并且样本集中每个数据都存在标签（每一数据与所属分类的对应关系）。输入没有标签的新数据后，将阅读全文

posted @ 2018-10-01 22:45 gaknl 阅读(128) 评论(0) 推荐(0)

机器学习

摘要：1. 用于执行分类，回归，聚类和密度估计的机器学习方法： a. 监督学习的用途： b. 无监督学习的用途： 2. 选择合适的算法：如果是想要预测目标变量的值，则可以选择监督学习算法，否则选择无监督学习算法。确定监督学习算法之后，进一步确定目标变量类型，如果目标变量是离散型，如1/2/3，A/B/ 阅读全文

posted @ 2018-10-01 22:04 gaknl 阅读(145) 评论(0) 推荐(0)

gaknl

10 2018 档案

公告