摘要:requests库数据挖掘 requests安装和使用 下载安装:pip install requests #requests模块 import requests #发送请求 content:以二进制的形式获取网页的内容 response=requests.get("http://www.baidu 阅读全文
posted @ 2020-05-25 14:56 Hecarim丶 阅读(8) 评论(0) 推荐(0) 编辑
摘要:初识Java Java介绍 Java是Sun Microsystems于1995年推出的高级编程语言。目前已经被甲骨文(oracle)收购。 支持跨平台:只要有JVM虚拟机,就能在不同的平台上运行。 Java前景 就很不错 JDK安装 jre是java runtime environment,是ja 阅读全文
posted @ 2020-05-22 16:20 Hecarim丶 阅读(11) 评论(0) 推荐(0) 编辑
摘要:百度贴吧爬虫实现 GET请求 from urllib import request import urllib import time # https://tieba.baidu.com/f?kw=python&fr=ala0&tpl=5 #第一页 # https://tieba.baidu.com 阅读全文
posted @ 2020-04-30 16:55 Hecarim丶 阅读(53) 评论(0) 推荐(0) 编辑
摘要:有道翻译爬虫实现 POST请求: #有道翻译爬虫 from urllib import request import urllib import re #构造请求头信息 header={ "User-Agent":"Mozilla/5.0 (Windows NT 10.0; Win64; x64) 阅读全文
posted @ 2020-04-28 16:06 Hecarim丶 阅读(64) 评论(0) 推荐(0) 编辑
摘要:使用urllib库数据挖掘 第一个爬虫程序 import re from urllib import request #直接使用request中的方法 #import urllib.request #需使用urllib.request.方法 url=r"http://www.baidu.com/" 阅读全文
posted @ 2020-04-28 15:53 Hecarim丶 阅读(43) 评论(0) 推荐(0) 编辑
摘要:请求响应包头 请求报头(Request Headers) 1. Host (主机和端口号) Host:对应网址URL中的Web名称和端口号,用于指定被请求资源的Internet主机和端口号,通常属于URL的一部分。 2. Connection (链接类型) Connection:表示客户端与服务连接 阅读全文
posted @ 2020-04-21 10:29 Hecarim丶 阅读(65) 评论(0) 推荐(0) 编辑
摘要:认识爬虫 爬虫是什么: 爬取互联网上的信息 数据挖掘->数据清洗(得到有效的信息) 爬虫分类: 通用爬虫:是搜索引擎抓取系统(百度,谷歌)的重要组成,主要目的是将互联网上的网页下载到本地,形成一个互联网内容的镜像备份 抓取网页 -> 数据存储 -> 预处理 -> 提供检索,网站排名 聚焦爬虫:是"面 阅读全文
posted @ 2020-04-21 10:08 Hecarim丶 阅读(65) 评论(0) 推荐(1) 编辑
摘要:进阶 日期与时间 import datetime import time # 引入time模块 import calendar #获取当前日期时间 now=datetime.datetime.now() print(now) #获取指定日期 d=datetime.datetime(2019,10,1 阅读全文
posted @ 2020-04-15 17:58 Hecarim丶 阅读(42) 评论(0) 推荐(0) 编辑
摘要:多线程 进程 程序:是指令和数据的有序集合,其本身没有任何运行的含义,是一个静态的概念 进程:处理机制上的一次执行过程,他是一个动态的概念 状态:就绪态、运行态、阻塞态 CPU(4核)可以同时执行4个线程 线程 进程中包含若干个线程,进程作为分配资源的基本单位,线程作为独立运行和独立调度的基本单位 阅读全文
posted @ 2020-04-15 16:33 Hecarim丶 阅读(36) 评论(0) 推荐(0) 编辑
摘要:网络编程 端口 总共65535(216)个端口 知名端口:0-1023 80-HTTP服务 21-FTP服务 动态端口:1024-65535 不固定分配某种服务 IP地址 ip:网络地址和主机地址组成 分类:A类、B类、C类、D类,区分什么类看子网掩码 dns:域名解析器 http://14.215 阅读全文
posted @ 2020-04-15 13:52 Hecarim丶 阅读(45) 评论(0) 推荐(0) 编辑