10 2018 档案
摘要:写一个flask项目: 1. JavaScript和Ajax编写单页程序
阅读全文
摘要:1 import urllib.request 2 import json 3 4 #定义要爬取的微博大V的微博ID 5 id='3995218983' 6 7 #设置代理IP 8 proxy_addr="122.241.72.191:808" 9 10 #定义页面打开函数 11 def use_proxy(url,proxy_addr): 12 req=urll...
阅读全文
摘要:1 本节目标 本次爬取的日标是新浪微博用户的公开基本信息,如用户昵称、头像、用户的关注、粉丝列表以 及发布的微博等,这些信息抓取之后保存至 MongoDB。 2.如何实现: 以微博的几个大 V为起始点,爬取 他们各内的粉丝和关注列表,然后获取粉丝和关注列表的粉丝和关注列表,以 此类推,这样下去就可
阅读全文
摘要:1. 架构 引擎(Scrapy):用来处理整个系统的数据流处理, 触发事务(框架核心) 调度器(Scheduler):用来接受引擎发过来的请求, 压入队列中, 并在引擎再次请求的时候返回. 可以想像成一个URL(抓取网页的网址或者说是链接)的优先队列, 由它来决定下一个要抓取的网址是什么, 同时去除
阅读全文
摘要:1. 与scrapy的比较: pyspider提供 了 WebUI,爬虫的编写、调试都是在 WebUI 中进行的 。 而 Scrapy原生是不具备这个功能的,它采用的是代码和命令行操作,但可以通过对接 Portia实现可视化配置。 pyspider调试非常方便 , WebUI操作便捷直观。 Scra
阅读全文
摘要:1.cookies池的搭建 Cookies池需要有自动生成 Cookies、定时检测 Cookies、提供随机 Cookies等几大核心功能。 Cookies 池架构的基本模块分为 4 块:存储模块 、 生成模块、检测模块和接口模块 。 每个模块的 功能如下 。 存储模块负责存储每个账号的用户名密码
阅读全文
摘要:1. 目标 利用 Selenium抓取淘宝商品并用 pyquery解析得到商品的图片 、名称 、 价格、购买人数、店铺名称和店铺所在地信息,并将其保存到 MongoDB。 2.准备工作 Chrome 浏览器并配置好了 ChromeDriver;另外,还需要正确安装 Python 的 Selenium
阅读全文
摘要:Ajax可以对JS进行渲染,但有些直接通过JS来渲染,例如淘宝,许多图形是通过JavaScript计算之后形成的,里面的Ajax接口含有许多加密参数,无法找到规律,像Echarts 1. selenium Selenium是一个 自动化测试工具,利用它可以驱动浏览器执行特定的动作,如点击、下拉等操作
阅读全文
摘要:1.打开今日头条:https://www.toutiao.com 2.搜索街拍 3.检查元素,查看请求发现在URL中每次只有offset发生改变,是一个get请求
阅读全文
摘要:1. ajax 异步的 JavaScript和 XML。 对于传统的网页,如果想更新其内容,那么必须要刷新整个页面,但有了 Ajax,便可以在页面不被全部刷新的情况下更新其内容。 在这个过程中,页面实际上是在后台与服务器进行了数据交互,获 取到数据之后,再利用 JavaScript改变网页,这样网页
阅读全文
摘要:1. TXT文本 open打开文件: 2. JSON文件存储 3. CSV 4. mysql 5.mongdb: 6.redis
阅读全文
摘要:在用正则表达式匹配的时候,错误一点点,可能会导致匹配失败所以还是不方便。 对于网页来说,它可以定义id,class或者其他属性,并且节点之间有层次关系,在网页可以通过XPath或CSS选择器来定位一个或者多个节点 1.XPATH 第一次选择时,调用了 ancestor轴,可以获取所有祖先节点。 其后
阅读全文
摘要:1. 目标: 对猫眼电影前100名的爬取,并将结果以文件的形式保存下来 2. 准备工作: requests库 3. 抓取分析 offset代表偏移量值,分开请求10次,就可以获取前100的电影 4.抓取首页 5.正则提取 6.文件提取 7.代码整合 8.每页爬取 总代码:
阅读全文
摘要:1. urllib: 2. Handle类: 当需要实现高级的功能时,使用Handle 3. urljoin 我们可以提供一个 base_url (基础链接 )作为第一个参数,将新的链接作为第二个参数,该方法会分析 base_url 的 scheme、 netloc 和 path这 3个内容并对新链
阅读全文
摘要:1. HTTP基本原理: 2. 网页基础 网页的组成: 网页的结构: 节点树及节点间的关系:在 HTML 中,所有标签定义的内容都是节点,它们构成了一个 HTMLDOM树 选择器 3. 爬虫的基本原理 获取网页:urllib,requests 提取信息:beautifulsoup,pyquery,l
阅读全文
摘要:在 Mac下,我们首先使用 Homebrew安装 ImageMagick和 tesseract库 : brew install imagemagickbrew install tesseract --all-languages 接下来再安装 tesserocr即可: pip3 install tes
阅读全文
摘要:注册路由,路由负责管理URL和函数之间的映射.route()装饰器的第一个参数是URL规则,用字符串表示,必须以斜杠(/)开始
阅读全文
摘要:1. k-近邻算法采用测量不同特征值之间的距离方法进行分类 优点:精度高、对异常值不敏感、无数据输入假定 缺点:计算复杂度高、空间复杂度高 适用数据类型:数值型和标称行 存在一个样本数据集合,称作为训练样本集。并且样本集中每个数据都存在标签(每一数据与所属分类的对应关系)。输入没有标签的新数据后,将
阅读全文
摘要:1. 用于执行分类,回归,聚类和密度估计的机器学习方法: a. 监督学习的用途: b. 无监督学习的用途: 2. 选择合适的算法: 如果是想要预测目标变量的值,则可以选择监督学习算法,否则选择无监督学习算法。 确定监督学习算法之后,进一步确定目标变量类型,如果目标变量是离散型,如1/2/3,A/B/
阅读全文

浙公网安备 33010602011771号