随笔分类 -  Python

摘要:线性回归 逻辑回归 SVM 单层感知缺陷 神经网络 激活函数 学习率 欠拟合,过拟合 文本分类 长文本:SVM 短文本:CNN 关键词提取:TF-IDF 实体识别:NER(named entity recognition) 人工智能非常依赖于各种先验知识,依赖于系统方案的设立 数据源:爬虫对人工智能 阅读全文
posted @ 2023-01-31 21:43 cxc1357 阅读(43) 评论(0) 推荐(0)
摘要:架构 工程结构 参考 https://zhuanlan.zhihu.com/p/272367027 阅读全文
posted @ 2023-01-31 21:42 cxc1357 阅读(39) 评论(0) 推荐(0)
摘要:1、登录 登录方式 表单 ajax xml(国内少用) 表单类型 row from-data x-www-form-urlencoded urllib2 插件 ProxyHandler 代理 build_opener,注册 handler CookieJar python3 设置 redirect= 阅读全文
posted @ 2023-01-31 21:42 cxc1357 阅读(58) 评论(0) 推荐(0)
摘要:分类 H5,浏览器 静态 动态 APP H5 html + 数据 html,内嵌 webview native 网页必须推给浏览器,APP 加密协议、显示方案都由 APP 自己定 工具 AnyProxy anyproxy.io 在 client 和 server 中间,对交互数据进行处理 消息类型( 阅读全文
posted @ 2023-01-31 21:42 cxc1357 阅读(48) 评论(0) 推荐(0)
摘要:爬取工具 chromedriver Selenium PhantomJS:基于nodejs,无界面服务器,适合大规模爬虫集群部署 图片 http://wx2.sinaimg.cn/thumb150/4b7a8989ly1fcws2sryvrj22p81sub2a.jpg re.findall('/[ 阅读全文
posted @ 2023-01-31 21:41 cxc1357 阅读(50) 评论(0) 推荐(0)
摘要:PageRank 计算每个网页的PageRank值,根据此值大小对网页重要性排序 动态排序 主从服务器维持心跳 根据重排条件,启动重排流程 通知爬虫暂停爬取 爬虫在心跳回复中收到暂停通知,暂停爬取并通知主机 主机等待所有爬虫暂停 主机开始重排网页 重排结束,设置标志位 心跳回复收到回复指令,继续爬取 阅读全文
posted @ 2023-01-31 21:41 cxc1357 阅读(100) 评论(0) 推荐(0)
摘要:表单 <form>...</form>创建HTML表单 用于向服务器提交数据 登录方式 form-data x-www-form-urlencoded ajax以json方式提交数据 登录是为了得到 cookie 登录成功后 Header 会有设置 cookie 的相关信息 把服务器返回的 cook 阅读全文
posted @ 2023-01-31 21:37 cxc1357 阅读(93) 评论(0) 推荐(0)
摘要:为什么用 快 反爬虫 多线程 复杂性 资源、数据的安全性:锁保护 原子性:数据操作是天然互斥的 同步等待:wait()、notify()、notifyall() 死锁:多个线程对资源互锁 容灾:任何线程出错,程序都会停止 Python 多线程 支持多线程 直接映射到native线程(Java多线程由 阅读全文
posted @ 2023-01-31 21:36 cxc1357 阅读(113) 评论(0) 推荐(0)
摘要:参考 创建虚拟环境 https://www.cnblogs.com/haoyiyang/p/11309701.html https://blog.csdn.net/qq_41727666/article/details/83958957 更改 Python 版本 https://www.jiansh 阅读全文
posted @ 2021-12-30 23:43 cxc1357 阅读(55) 评论(0) 推荐(0)
摘要:成员函数 参数self代表当前对象的引用 实现查询/修改类的属性等功能 类函数 参数cls表示必须传一个类进来 用于实现不同的init构造函数 需要装饰器@classmethod声明 静态函数 不访问修改类的属性,又不想放到类的外面 用于做一些简单独立的任务,方便测试 需要装饰器@staticmet 阅读全文
posted @ 2021-07-29 15:33 cxc1357 阅读(147) 评论(0) 推荐(0)
摘要:如题: # -*- coding: utf-8 -*- """ Created on Sun Jul 7 20:24:49 2019 @author: Administrator """ from tkinter import ttk from tkinter import * root = Tk( 阅读全文
posted @ 2021-07-29 14:35 cxc1357 阅读(1066) 评论(0) 推荐(0)
摘要:文件变量的声明: #路径声明 path = r'F:\spyder_workspace\test1.txt' #另一种方式 #path = 'F:\\spyder_workspace\\test1.txt' #文件声明 f = open(path,'r') #文件读取,默认全部 f.read() # 阅读全文
posted @ 2021-07-29 09:23 cxc1357 阅读(75) 评论(0) 推荐(0)
摘要:1、skleran中包的命名规律 API帮助中每个大标题对应skleran源码文件夹下的一个文件夹(如preprocessing) 再下一级的是类(如Imputer),定义在文件夹中的py文件里,一般每个py文件中会定义多个类 2、sklearn中的主要对象(类) 估算器(estimator):能够 阅读全文
posted @ 2021-07-29 09:22 cxc1357 阅读(322) 评论(0) 推荐(0)
摘要:在t_1中定义全局变量a,t_2调用t_1函数,观察a的变化 t_1: a = 0 b = [] def f(): global a a += 1 b.append(1) 函数中的a需要声明global,否则会报错,b不需要声明 t_2: import t_1 t_1.f() t_1.f() pri 阅读全文
posted @ 2021-07-29 09:05 cxc1357 阅读(50) 评论(0) 推荐(0)
摘要:例1:定义一个函数计算除法,若除数为零,则显示异常 def myFunc(x,y): if y == 0: raise ValueError('y cannot be zero') else: return x/y temp = 100 velo = 0 try: print(myFunc(temp 阅读全文
posted @ 2021-07-29 09:05 cxc1357 阅读(62) 评论(0) 推荐(0)
摘要:3种方式: import numpy import pandas #方式1:列表推导(list comprehension) b=[[0]*3 for i in range(4)] a = [b[i][j] for i in range(3) for j in range(2)] #删除列表中空字符 阅读全文
posted @ 2021-07-27 09:58 cxc1357 阅读(374) 评论(0) 推荐(0)
摘要:请求位置信息 https://restapi.amap.com/v3/place/text?keywords=北京大学&city=beijing&output=xml&offset=20&page=1&key=<用户的key>&extensions=all 参考 高德地图接口 地理信息 https: 阅读全文
posted @ 2020-11-18 15:57 cxc1357 阅读(294) 评论(0) 推荐(0)
摘要:安装 安装miniconda:bash Miniconda3-py37_4.8.2-Linux-x86_64.sh 启动虚拟环境:source /root/.bashrc 退出虚拟环境:conda deactivate conda镜像配置: conda config --add channels h 阅读全文
posted @ 2020-10-29 20:23 cxc1357 阅读(156) 评论(0) 推荐(0)
摘要:概述 Flask采用MVT模型,即Model, Template, View Model:定义数据的存储格式,并且提供了数据库访问的API View:定义那些数据被显示,是业务逻辑处理模块 Template:定义数据如何被显示 实例1(简单实例) 在项目文件夹创建虚拟环境,安装依赖包 virtual 阅读全文
posted @ 2020-09-21 16:44 cxc1357 阅读(415) 评论(0) 推荐(0)
摘要:参考 https://www.jianshu.com/p/b6e52b80653f 阅读全文
posted @ 2020-09-17 15:17 cxc1357 阅读(109) 评论(0) 推荐(0)