01 2019 档案

摘要:使用cmd创建一个scrapy项目: scrapy startproject project_name (project_name 必须以字母开头,只能包含字母、数字以及下划线<underscorce>) 项目目录层级如下: 声明Item 声明我们可能用到的所有字段,包括管理字段等。管理字段可以让我 阅读全文
posted @ 2019-01-21 12:01 程序猿Time 阅读(1027) 评论(0) 推荐(0)
摘要:scrapy的最通用的爬虫流程:UR2IM U:URL R2:Request 以及 Response I:Item M:More URL 在scrapy shell中打开服务器一个网页 cmd中执行:scrapy shell http://www.baidu.com (可以使用exit()退出) 此 阅读全文
posted @ 2019-01-20 18:49 程序猿Time 阅读(210) 评论(0) 推荐(0)
摘要:windows下安装scrapy 依次执行下列操作: pip install wheel pip install lxml pip install PyOpenssl 安装Microsoft visual c++ build tools pip install twisted 当此处提示错误时,安装 阅读全文
posted @ 2019-01-20 18:06 程序猿Time 阅读(141) 评论(0) 推荐(0)
摘要:HTML的三大概念:标签、元素以及属性 标签:尖括号中的文本 例:<head>……</head> 标签通常成对出现 元素:标签中的所有内容 元素中可包含元素 属性:标签的特殊标注等 例:<a href="http:\\www.baidu.com">……</a> 其中,href部分称为属性 使用XPa 阅读全文
posted @ 2019-01-19 10:37 程序猿Time 阅读(1000) 评论(0) 推荐(0)
摘要:计算时间差时,注意天数差引发的问题,获取天数差为 此处,需谨记date2>date1,以保证结果的正确性 具体应用如下: 注意:strftime()与strptime()的不同 阅读全文
posted @ 2019-01-19 09:46 程序猿Time 阅读(204) 评论(0) 推荐(0)