• 博客园logo
  • 会员
  • 众包
  • 新闻
  • 博问
  • 闪存
  • 赞助商
  • HarmonyOS
  • Chat2DB
    • 搜索
      所有博客
    • 搜索
      当前博客
  • 写随笔 我的博客 短消息 简洁模式
    用户头像
    我的博客 我的园子 账号设置 会员中心 简洁模式 ... 退出登录
    注册 登录
 






守护式等待

 
 

Powered by 博客园
博客园 | 首页 | 新随笔 | 联系 | 订阅 订阅 | 管理
上一页 1 ··· 59 60 61 62 63 64 65 66 67 ··· 72 下一页

2018年12月17日

vim使用方法:
摘要: vim使用方法: 模式: 编辑模式、未编辑模式、命令行模式 i 插入形式进入编辑模式 a 增加 o 下行编辑 O 上行插入 : 进入命令行模式 esc 退出编辑模式 wq 保存文件 yy 复制 p 粘贴 dd 删除当行 / 搜索具体内容 dG 删除当行以及文件末尾所有内容 ^ 跳转行首位置 $ 挑战 阅读全文
posted @ 2018-12-17 14:38 守护式等待 阅读(128) 评论(0) 推荐(0)
 
linux基础命令:
摘要: 1.linux基础命令: echo 输出我写的内容 ls 查看当前目录的文件 pwd 查看当前目录 ifconfig 查看网卡信息 grep 过滤 -v 取反 -n man 查看命令的帮助信息 md5sum 加密 ll 显示文件的属性信息 ls -l cp 拷贝文件 whereis 查看命令在哪里 阅读全文
posted @ 2018-12-17 14:36 守护式等待 阅读(326) 评论(0) 推荐(0)
 
middleware
摘要: from collections import defaultdict import logging import pprint from scrapy.exceptions import NotConfigured from scrapy.utils.misc import load_object from scrapy.utils.defer import process_parallel... 阅读全文
posted @ 2018-12-17 14:33 守护式等待 阅读(413) 评论(0) 推荐(0)
 
scrapy-redis
摘要: Scrapy 和 scrapy-redis的区别 Scrapy 是一个通用的爬虫框架,但是不支持分布式,Scrapy-redis是为了更方便地实现Scrapy分布式爬取,而提供了一些以redis为基础的组件(仅有组件)。 pip install scrapy-redis Scrapy-redis提供 阅读全文
posted @ 2018-12-17 14:31 守护式等待 阅读(552) 评论(0) 推荐(0)
 
CrawlSpiders
摘要: CrawlSpiders 通过下面的命令可以快速创建 CrawlSpider模板 的代码: scrapy genspider -t crawl tencent tencent.com 上一个案例中,我们通过正则表达式,制作了新的url作为Request请求参数,现在我们可以换个花样... class 阅读全文
posted @ 2018-12-17 14:30 守护式等待 阅读(322) 评论(1) 推荐(0)
 
Spider
摘要: Spider Spider类定义了如何爬取某个(或某些)网站。包括了爬取的动作(例如:是否跟进链接)以及如何从网页的内容中提取结构化数据(爬取item)。 换句话说,Spider就是您定义爬取的动作及分析某个网页(或者是有些网页)的地方。 class scrapy.Spider是最基本的类,所有编写 阅读全文
posted @ 2018-12-17 14:28 守护式等待 阅读(595) 评论(0) 推荐(0)
 
Scrapy 框架
摘要: Scrapy 框架 Scrapy是用纯Python实现一个为了爬取网站数据、提取结构性数据而编写的应用框架,用途非常广泛。 框架的力量,用户只需要定制开发几个模块就可以轻松的实现一个爬虫,用来抓取网页内容以及各种图片,非常之方便。 Scrapy 使用了 Twisted['twɪstɪd](其主要对手 阅读全文
posted @ 2018-12-17 14:25 守护式等待 阅读(200) 评论(0) 推荐(0)
 
Selenium
摘要: Selenium Selenium是一个Web的自动化测试工具,最初是为网站自动化测试而开发的,类型像我们玩游戏用的按键精灵,可以按指定的命令自动操作,不同是Selenium 可以直接运行在浏览器上,它支持所有主流的浏览器(包括PhantomJS这些无界面的浏览器)。 Selenium 可以根据我们 阅读全文
posted @ 2018-12-17 14:23 守护式等待 阅读(500) 评论(0) 推荐(0)
 
JSON
摘要: 数据提取之JSON与JsonPATH JSON(JavaScript Object Notation) 是一种轻量级的数据交换格式,它使得人们很容易的进行阅读和编写。同时也方便了机器进行解析和生成。适用于进行数据交互的场景,比如网站前台与后台之间的数据交互。 JSON和XML的比较可谓不相上下。 P 阅读全文
posted @ 2018-12-17 14:21 守护式等待 阅读(276) 评论(0) 推荐(0)
 
BeautifulSoup4
摘要: CSS 选择器:BeautifulSoup4 和 lxml 一样,Beautiful Soup 也是一个HTML/XML的解析器,主要的功能也是如何解析和提取 HTML/XML 数据。 lxml 只会局部遍历,而Beautiful Soup 是基于HTML DOM的,会载入整个文档,解析整个DOM树 阅读全文
posted @ 2018-12-17 14:20 守护式等待 阅读(326) 评论(0) 推荐(0)
 
上一页 1 ··· 59 60 61 62 63 64 65 66 67 ··· 72 下一页