上一页 1 2 3 4 5 6 7 8 9 10 ··· 18 下一页

2022年4月14日

chardet库的问题

摘要: 网页内容编码格式的自动判断一直是困扰爬虫的一个重要问题! python的chardet库,提供了一个解决方案。 import chardet import requests url = "https://www.baidu.com" resp = requests.get(url) # detect 阅读全文

posted @ 2022-04-14 11:36 耀扬 阅读(63) 评论(0) 推荐(0)

2022年4月1日

各种网站新闻正文抽取利器GeneralNewsExtractor

摘要: GNE在提取今日头条、新浪,腾讯新闻等数百个中文新闻网站上效果非常出色,几乎能够达到100%的准确率。 先安装库 pip install --upgrade gne 调用 url 一个新闻链接 如“https://www.sohu.com/a/534140980_162522?editor=%E9% 阅读全文

posted @ 2022-04-01 11:52 耀扬 阅读(683) 评论(0) 推荐(0)

爬虫利器faker_useragent构造user-agent池

摘要: 一部分网站反爬,会通过检查请求的请求头里是否有浏览器的user-agent来判断请求是否是爬虫。 当你在请求头里加上user-agent,然后,进行反复的请求后,系统又会判断请求时爬虫,因为单一版本浏览器请求过多,为了达到以假乱真的目的,你需要构建一个user-agent池,然后随机调用,那样相对比 阅读全文

posted @ 2022-04-01 11:31 耀扬 阅读(255) 评论(0) 推荐(0)

2022年3月23日

转:图文详解ElasticSearch技术,看这一篇就够了

摘要: 傅一平评语: 这篇文章深入浅出的讲解了ES的技术原理,写得挺好,我顺便总结了科普类技术好文章的三个特点: 1、从一个具体案例讲起,点出采用这个技术的必要性,对于读者来讲,特别是对于技术管理者来讲,可以不知道技术细节,但一定要知道为什么要这么做,能解决什么业务问题。 2、代码是最难理解的,将代码用流程 阅读全文

posted @ 2022-03-23 10:17 耀扬 阅读(369) 评论(0) 推荐(0)

转:就想写个爬虫,我到底要学多少东西啊?

摘要: 本文转载自公众号进击的 Coder,作者是静觅博客博主、畅销书《Python 3网络爬虫开发实战》的作者崔庆才。本文全面介绍了学习爬虫必须要掌握的一些技术知识,希望能帮助正在入门爬虫的你找到学习方向。 当今大数据的时代,网络爬虫已经成为了获取数据的一个重要手段。 但要学习好爬虫并没有那么简单。首先知 阅读全文

posted @ 2022-03-23 09:40 耀扬 阅读(220) 评论(0) 推荐(0)

2022年2月24日

endnote x9 使用说明

摘要: 1、创建数据库 库自己命名。尽量选一个空间充裕的磁盘。后期会存放大量的内容 2、导入文献 目前亲测 x9 在无法连接外部数据库的情况下只能逐个导入文献。苦啊 总结了一个小方法: 第一步 导出txt文件 然后逐个下载pad文件。 可恶的知网默认下载的是caj格式文件。endnote不支持啊 只能逐个页 阅读全文

posted @ 2022-02-24 15:56 耀扬 阅读(1060) 评论(0) 推荐(1)

2022年1月3日

什么是UTXO

摘要: UTXO英文全称为Unspent Transaction Output,的中文意思叫作“未消费交易输出”。 所谓UTXO模型,简单来说,就是一种特殊的账户记账模型。它跟银行传统的账户模型有一个很大的区别就是, 这种模型只记录交易本身,而不记录交易的结果。 传统的账户余额模型是直接记录结果的: 例如 阅读全文

posted @ 2022-01-03 20:14 耀扬 阅读(2187) 评论(0) 推荐(0)

2021年10月15日

python交集并集差集对称差集

摘要: a=set([1,2,3,4]) b=set([3,4,5,6]) #并集 a|b {3, 4} #交集 a&b {1, 2, 3, 4, 5, 6} #差集 a-b {1, 2} #对称差集 a^b {1, 2, 5, 6} 阅读全文

posted @ 2021-10-15 16:08 耀扬 阅读(216) 评论(0) 推荐(0)

2021年9月17日

python实现二维数组复制

摘要: h=[[1,2],[2,3]] v=[[x for x in y] for y in h] v[0][0]=2 v [[2, 2], [2, 3]] 阅读全文

posted @ 2021-09-17 17:00 耀扬 阅读(600) 评论(0) 推荐(0)

2021年9月15日

标量、矢量(向量)、张量(tensors)的理解

摘要: #标量 用通俗的说法,标量是只有大小,没有方向的量。 如质量、密度、温度、功、能量、路程、速率、体积、时间、热量、电阻、功率、势能、引力势能、电势能等物理量。 无论选取什么坐标系,标量的数值恒保持不变。 #矢量(向量) 指具有大小(magnitude)和方向的量。如,一个物体的位移 #张量(tens 阅读全文

posted @ 2021-09-15 18:06 耀扬 阅读(10697) 评论(0) 推荐(0)

2021年9月14日

机器学习中什么是baselines

摘要: baseline 就只是「参照物」的意思 如果你是机器学习的初学者,在做课程作业,那么你可能用「随机猜测」作为 baseline;如果你是要在顶会发论文,那么很可能就需要用当前最好的系统(称为 state of the art)来作 baseline,否则审稿人就会质疑。 如果你的论文的论点是「我针 阅读全文

posted @ 2021-09-14 18:39 耀扬 阅读(2419) 评论(0) 推荐(0)

2021年8月12日

python正则表达式过滤

摘要: strr=r'045-夜总.....夜(6人封闭).zip.zip' re.sub(r'\d+-|(.zip)|[(](.*?)[)]', "",strr) 输出结果 夜总.....夜 阅读全文

posted @ 2021-08-12 17:50 耀扬 阅读(371) 评论(0) 推荐(0)

2021年8月11日

mysql优化初步

摘要: The total number of locks exceeds the lock table size 问题 我的电脑 右键-管理-服务和应用程序-服务-找到 mysql任务,先终止任务。 mysql 安装文件夹下有个文件 my.ini 直接打开修改mysql配置文件 搜索 tmp_table_ 阅读全文

posted @ 2021-08-11 14:33 耀扬 阅读(61) 评论(0) 推荐(0)

2021年8月10日

卷积与Max Pooling(池化)

摘要: #1、什么是卷积 从数学上讲,卷积就是一种运算。 有这么一副图像,可以看到,图像上有很多噪点: 高频信号,就好像平地耸立的山峰: 看起来很显眼。平滑后得到: 平滑这座山峰的办法之一就是,把山峰刨掉一些土,填到山峰周围去。用数学的话来说,就是把山峰周围的高度平均一下。 卷积可以帮助实现这个平滑算法。 阅读全文

posted @ 2021-08-10 17:04 耀扬 阅读(992) 评论(0) 推荐(0)

BiLSTM是什么

摘要: 什么是LSTM和BiLSTM? LSTM的全称是Long Short-Term Memory,它是RNN(Recurrent Neural Network)的一种。LSTM由于其设计的特点,非常适合用于对时序数据的建模,如文本数据。 BiLSTM是Bi-directional Long Short- 阅读全文

posted @ 2021-08-10 15:16 耀扬 阅读(4937) 评论(0) 推荐(0)

上一页 1 2 3 4 5 6 7 8 9 10 ··· 18 下一页

导航