会员
众包
新闻
博问
闪存
赞助商
HarmonyOS
Chat2DB
所有博客
当前博客
我的博客
我的园子
账号设置
会员中心
简洁模式
...
退出登录
注册
登录
kuluma
博客园
首页
新随笔
联系
订阅
管理
上一页
1
2
3
4
5
下一页
2020年4月22日
MongoDB
摘要: 菜鸟教程链接:https://www.runoob.com/mongodb/mongodb-tutorial.html 1、NoSQL--非关系型数据库 今天我们可以通过第三方平台(如:Google,Facebook等)可以很容易的访问和抓取数据。用户的个人信息,社交网络,地理位置,用户生成的数据和
阅读全文
posted @ 2020-04-22 17:07 kuluma
阅读(163)
评论(0)
推荐(0)
2020年4月20日
python常用内置函数
摘要: 1、abs() 返回绝对值 2、max() 返回最大值 min() 返回最小值 3、数据类型转换 int() 、float() 、str() 、bool() 4、数据类型检查 isinstance(x, (int, float) ) 传入参数是否为 int 或 float 类型,返回 True //
阅读全文
posted @ 2020-04-20 15:25 kuluma
阅读(172)
评论(0)
推荐(0)
2020年4月11日
【BOOK】动态渲染页面爬取--Selenium库
摘要: 动态渲染页面爬取 JavaScript动态渲染 其中一种方式是Ajax请求,通过直接分析Ajax再用requests来实现数据爬取 另外一种方式是模拟浏览器运行 一、 Selenium库 Selenium是自动化测试工具,可以驱动浏览器执行特定动作(点击、下拉),还可以获取浏览器当前呈现页面的源代码
阅读全文
posted @ 2020-04-11 16:50 kuluma
阅读(331)
评论(0)
推荐(0)
2020年4月3日
【BOOK】Ajax数据爬取
摘要: Requests获取原始HTML文档,Ajax加载和JavaScript处理的数据无法获得 一、Ajax Ajax—异步的JavaScript和XML Ajax请求页面更新: 1、 发送请求 2、 解析内容 3、 渲染网页 JavaScript向服务器发送了一个Ajax请求 二、Ajax分析方法 查
阅读全文
posted @ 2020-04-03 18:07 kuluma
阅读(538)
评论(0)
推荐(0)
2020年3月27日
【BOOK】数据存储—文件存储(TXT、JSON、CSV)
摘要: 数据存储 文本文件—TXT、JSON、CSV 关系型数据库—MySQL、SQLite、Oracle、SQL Server、DB2 非关系型数据库—MongoDB、Redis 文件打开 open(),第二个参数设置文件打开方式 ※ r:只读,文件指针在文件开头 ※ rb:二进制只读,文件指针在文件开头
阅读全文
posted @ 2020-03-27 16:34 kuluma
阅读(1366)
评论(0)
推荐(0)
2020年3月24日
【BOOK】解析库--pyquery
摘要: CSS选择器 1、初始化 html=''' <div> <ul> <li class="item-0">first item</li> <li class="item-1"><a href="link2.html">second item</a></li> <li class="item-0 act
阅读全文
posted @ 2020-03-24 11:43 kuluma
阅读(161)
评论(0)
推荐(0)
2020年3月19日
【BOOK】解析库--Beautiful Soup
摘要: 1、安装bs4库 2、解析器 3、节点选择器 from bs4 import BeautifulSoup html = ''' <html> <head><title>这是标题</title></head> <body> <p class="title" name="dromouse"><b>这是标
阅读全文
posted @ 2020-03-19 12:00 kuluma
阅读(189)
评论(0)
推荐(0)
2020年3月15日
【BOOK】解析库—XPath
摘要: XPath—XML Path Language 1、安装 lxml库 2、XPath常用规则 3、XPath解析页面 from lxml import etree text = ''' <div> <ul> <li calss='item-1'><a href='link1.html'> first
阅读全文
posted @ 2020-03-15 16:21 kuluma
阅读(153)
评论(0)
推荐(0)
2020年3月9日
【BOOK】【实例】【requests库+正则表达式】猫眼TOP100电影排名爬取
摘要: 猫眼电影TOP100页面爬取 https://maoyan.com/board/4 ##猫眼电影TOP100爬取 import requests import re import json import time ## 页面抓取 def get_one_page(url): try: headers
阅读全文
posted @ 2020-03-09 11:25 kuluma
阅读(254)
评论(0)
推荐(0)
2020年3月8日
【BOOK】正则表达式
摘要: 正则表达式 1、 开源中国—正则表达式测试工具:https://tool.oschina.net/regex/ 2、 匹配规则 3、 match() 从字符串起始位置匹配正则表达式 若从起始位置匹配不到则返回None ※目标匹配:在正则表达式中加(),就可以根据括号位置获得匹配到的部分内容 ※通用匹
阅读全文
posted @ 2020-03-08 21:48 kuluma
阅读(234)
评论(0)
推荐(0)
上一页
1
2
3
4
5
下一页
公告