10 2018 档案

摘要:写一个flask项目: 1. JavaScript和Ajax编写单页程序 阅读全文
posted @ 2018-10-25 11:51 gaknl 阅读(253) 评论(0) 推荐(0)
摘要:1 import urllib.request 2 import json 3 4 #定义要爬取的微博大V的微博ID 5 id='3995218983' 6 7 #设置代理IP 8 proxy_addr="122.241.72.191:808" 9 10 #定义页面打开函数 11 def use_proxy(url,proxy_addr): 12 req=urll... 阅读全文
posted @ 2018-10-19 10:42 gaknl 阅读(1272) 评论(0) 推荐(0)
摘要:1 本节目标 本次爬取的日标是新浪微博用户的公开基本信息,如用户昵称、头像、用户的关注、粉丝列表以 及发布的微博等,这些信息抓取之后保存至 MongoDB。 2.如何实现: 以微博的几个大 V为起始点,爬取 他们各内的粉丝和关注列表,然后获取粉丝和关注列表的粉丝和关注列表,以 此类推,这样下去就可 阅读全文
posted @ 2018-10-19 10:26 gaknl 阅读(1277) 评论(0) 推荐(0)
摘要:1. 架构 引擎(Scrapy):用来处理整个系统的数据流处理, 触发事务(框架核心) 调度器(Scheduler):用来接受引擎发过来的请求, 压入队列中, 并在引擎再次请求的时候返回. 可以想像成一个URL(抓取网页的网址或者说是链接)的优先队列, 由它来决定下一个要抓取的网址是什么, 同时去除 阅读全文
posted @ 2018-10-18 23:01 gaknl 阅读(3221) 评论(0) 推荐(0)
摘要:1. 与scrapy的比较: pyspider提供 了 WebUI,爬虫的编写、调试都是在 WebUI 中进行的 。 而 Scrapy原生是不具备这个功能的,它采用的是代码和命令行操作,但可以通过对接 Portia实现可视化配置。 pyspider调试非常方便 , WebUI操作便捷直观。 Scra 阅读全文
posted @ 2018-10-18 00:02 gaknl 阅读(4859) 评论(0) 推荐(0)
摘要:1。 Charles 阅读全文
posted @ 2018-10-17 21:43 gaknl 阅读(309) 评论(0) 推荐(0)
摘要:1.cookies池的搭建 Cookies池需要有自动生成 Cookies、定时检测 Cookies、提供随机 Cookies等几大核心功能。 Cookies 池架构的基本模块分为 4 块:存储模块 、 生成模块、检测模块和接口模块 。 每个模块的 功能如下 。 存储模块负责存储每个账号的用户名密码 阅读全文
posted @ 2018-10-17 21:42 gaknl 阅读(428) 评论(0) 推荐(0)
摘要:g 阅读全文
posted @ 2018-10-17 11:01 gaknl 阅读(218) 评论(0) 推荐(0)
摘要:1. 目标 利用 Selenium抓取淘宝商品并用 pyquery解析得到商品的图片 、名称 、 价格、购买人数、店铺名称和店铺所在地信息,并将其保存到 MongoDB。 2.准备工作 Chrome 浏览器并配置好了 ChromeDriver;另外,还需要正确安装 Python 的 Selenium 阅读全文
posted @ 2018-10-16 16:47 gaknl 阅读(973) 评论(0) 推荐(0)
摘要:Ajax可以对JS进行渲染,但有些直接通过JS来渲染,例如淘宝,许多图形是通过JavaScript计算之后形成的,里面的Ajax接口含有许多加密参数,无法找到规律,像Echarts 1. selenium Selenium是一个 自动化测试工具,利用它可以驱动浏览器执行特定的动作,如点击、下拉等操作 阅读全文
posted @ 2018-10-16 15:20 gaknl 阅读(2064) 评论(0) 推荐(0)
摘要:1.打开今日头条:https://www.toutiao.com 2.搜索街拍 3.检查元素,查看请求发现在URL中每次只有offset发生改变,是一个get请求 阅读全文
posted @ 2018-10-15 17:49 gaknl 阅读(377) 评论(0) 推荐(0)
摘要:1. 阅读全文
posted @ 2018-10-14 22:55 gaknl 阅读(324) 评论(0) 推荐(0)
摘要:1. ajax 异步的 JavaScript和 XML。 对于传统的网页,如果想更新其内容,那么必须要刷新整个页面,但有了 Ajax,便可以在页面不被全部刷新的情况下更新其内容。 在这个过程中,页面实际上是在后台与服务器进行了数据交互,获 取到数据之后,再利用 JavaScript改变网页,这样网页 阅读全文
posted @ 2018-10-14 21:59 gaknl 阅读(367) 评论(0) 推荐(0)
摘要:1. TXT文本 open打开文件: 2. JSON文件存储 3. CSV 4. mysql 5.mongdb: 6.redis 阅读全文
posted @ 2018-10-14 18:38 gaknl 阅读(270) 评论(0) 推荐(0)
摘要:在用正则表达式匹配的时候,错误一点点,可能会导致匹配失败所以还是不方便。 对于网页来说,它可以定义id,class或者其他属性,并且节点之间有层次关系,在网页可以通过XPath或CSS选择器来定位一个或者多个节点 1.XPATH 第一次选择时,调用了 ancestor轴,可以获取所有祖先节点。 其后 阅读全文
posted @ 2018-10-14 12:16 gaknl 阅读(536) 评论(0) 推荐(0)
摘要:1. 目标: 对猫眼电影前100名的爬取,并将结果以文件的形式保存下来 2. 准备工作: requests库 3. 抓取分析 offset代表偏移量值,分开请求10次,就可以获取前100的电影 4.抓取首页 5.正则提取 6.文件提取 7.代码整合 8.每页爬取 总代码: 阅读全文
posted @ 2018-10-14 10:48 gaknl 阅读(278) 评论(0) 推荐(0)
摘要:1. urllib: 2. Handle类: 当需要实现高级的功能时,使用Handle 3. urljoin 我们可以提供一个 base_url (基础链接 )作为第一个参数,将新的链接作为第二个参数,该方法会分析 base_url 的 scheme、 netloc 和 path这 3个内容并对新链 阅读全文
posted @ 2018-10-13 21:20 gaknl 阅读(412) 评论(0) 推荐(0)
摘要:1. HTTP基本原理: 2. 网页基础 网页的组成: 网页的结构: 节点树及节点间的关系:在 HTML 中,所有标签定义的内容都是节点,它们构成了一个 HTMLDOM树 选择器 3. 爬虫的基本原理 获取网页:urllib,requests 提取信息:beautifulsoup,pyquery,l 阅读全文
posted @ 2018-10-11 16:35 gaknl 阅读(238) 评论(0) 推荐(0)
摘要:在 Mac下,我们首先使用 Homebrew安装 ImageMagick和 tesseract库 : brew install imagemagickbrew install tesseract --all-languages 接下来再安装 tesserocr即可: pip3 install tes 阅读全文
posted @ 2018-10-10 20:09 gaknl 阅读(1759) 评论(0) 推荐(0)
摘要:注册路由,路由负责管理URL和函数之间的映射.route()装饰器的第一个参数是URL规则,用字符串表示,必须以斜杠(/)开始 阅读全文
posted @ 2018-10-05 09:38 gaknl 阅读(86) 评论(0) 推荐(0)
摘要:1. k-近邻算法采用测量不同特征值之间的距离方法进行分类 优点:精度高、对异常值不敏感、无数据输入假定 缺点:计算复杂度高、空间复杂度高 适用数据类型:数值型和标称行 存在一个样本数据集合,称作为训练样本集。并且样本集中每个数据都存在标签(每一数据与所属分类的对应关系)。输入没有标签的新数据后,将 阅读全文
posted @ 2018-10-01 22:45 gaknl 阅读(128) 评论(0) 推荐(0)
摘要:1. 用于执行分类,回归,聚类和密度估计的机器学习方法: a. 监督学习的用途: b. 无监督学习的用途: 2. 选择合适的算法: 如果是想要预测目标变量的值,则可以选择监督学习算法,否则选择无监督学习算法。 确定监督学习算法之后,进一步确定目标变量类型,如果目标变量是离散型,如1/2/3,A/B/ 阅读全文
posted @ 2018-10-01 22:04 gaknl 阅读(145) 评论(0) 推荐(0)