摘要:
前言 随着大数据时代的到来,爬虫已经成了获取数据的必不可少的方式,做过爬虫的想必都深有体会,爬取的时候莫名其妙 IP 就被网站封掉了,毕竟各大网站也不想自己的数据被轻易地爬走。 对于爬虫来说,为了解决封禁 IP 的问题,一个有效的方式就是使用代理,使用代理之后可以让爬虫伪装自己的真实 IP,如果使用
阅读全文
posted @ 2021-06-16 15:31
宏宇
阅读(167)
推荐(0)
摘要:
本文来源没啥特别,因为没使用ip代理导致爬取boos直聘数据时,ip被封了,不过好在已解决,想看看博主的爬虫文章的可以点击下方链接,还是蛮全的。 一、免费代理ip地址推荐 站大爷 快代理 芝麻代理 芝麻代理需要注册,但注册后每天可以领取代理,还是很不错的 站大爷和快代理都有免费的开放代理 快代理也可
阅读全文
posted @ 2021-06-16 15:13
宏宇
阅读(1381)
推荐(0)
摘要:
关于数据库索引的所有文章,都会告诉你不要对这种字段建索引。 但这些文章不会告诉你的一个事实是: 如果表里面这个字段的值分布极度不均匀的情况下,而且你需要查询分布较少的记录的话,索引就非常有用了 举个例子,假设表中有一千万条记录,某个状态为0的记录总数大概会有100条,那么你想查询状态为0的记录时,有
阅读全文
posted @ 2021-06-11 12:01
宏宇
阅读(1109)
推荐(0)
摘要:
SciVal其实类似与Web of Science(WOS/SCI)的ESI。 SciVal是什么?爱思唯尔新一代SciVal是一套高效易用的的科研分析管理工具,该平台包含全球220余个国家超过10000家大学及科研机构的数据,全面支持科研绩效分析,学科前沿分析,院校之间的横向比较,国际排名(THE
阅读全文
posted @ 2021-06-07 18:58
宏宇
阅读(551)
推荐(0)
摘要:
1、Review:综述 一般指研究者对前人的实验结果或某一特定研究领域科研成果的总结与评述。一般由期刊对大牛约稿,当然大牛可能会让下面的小老师或者学生去写,自己把关。 对版面(字数)有限制;文章过于长,在投稿前要先与期刊编辑沟通。 2、Minireview:小综述 本质还是对科研成果的总结和评述,只
阅读全文
posted @ 2021-06-07 15:52
宏宇
阅读(1394)
推荐(0)
摘要:
举例,可右上角搜索框中输入: “大小:>?” “大小:>?M<?M” 大小:<2k 大小:<100b
阅读全文
posted @ 2021-06-04 18:55
宏宇
阅读(1576)
推荐(0)
摘要:
国内、国外大学IP地址段 018.000.000.000 018.255.255.255 [美国][麻省理工大学] 061.132.119.192061.132.119.207江苏省苏州硅湖大学 061.132.119.192061.132.119.207江苏省苏州硅湖大学 061.155.016.
阅读全文
posted @ 2021-06-04 15:20
宏宇
阅读(4995)
推荐(0)
摘要:
由于国外大学图书馆购买的数据库大多数是用IP登陆方式,所以获取这些大学的代理就成为我们利用这些数据库的唯一方式,我介绍的方法是最常用的、最基本的方法,希望大家能找到自己有用的数据库。 下面以哈佛大学为例进行说明: 具备条件: 1.proxyhunter(必要) 2.Iplocation(可选) 3.
阅读全文
posted @ 2021-06-04 11:38
宏宇
阅读(1967)
推荐(0)
摘要:
一、SCI SCI是美国《科学引文索引》的英文简称,其全称为:Science Citation Index,是由美国科学信息研究所(ISI)1961年创办出版的引文数据库。其覆盖生命科学、临床医学、物理化学、农业、生物、兽医学、工程技术等方面的综合性检索刊物,尤其能反映自然科学研究的学术水平,是目前
阅读全文
posted @ 2021-05-27 09:48
宏宇
阅读(3225)
推荐(0)
摘要:
Solr是一个独立的企业级搜索应用服务器,它对外提供类似于Web-service的API接口。用户可以通过http请求,向搜索引擎服务器提交一定格式的XML文件,生成索引;也可以通过Http Get操作提出查找请求,并得到XML/Json格式的返回结果。采用Java5开发,基于Lucene。 Luc
阅读全文
posted @ 2021-05-26 23:40
宏宇
阅读(355)
推荐(0)
摘要:
数据库介绍: 德温特创新索引(Derwent Innovations Index),简称DII,该数据库将原来的德温特世界专利索引(Derwent World Patents Indes,简称WPI)与专利引文索引(Patents Citation Indes,简称PCI)加以整合,是世界上国际专利
阅读全文
posted @ 2021-05-26 17:41
宏宇
阅读(1156)
推荐(0)
摘要:
最近两周,两篇关于“论文”的消息引起人们热议:一是SCI以35.5亿美元被卖;二是美国微生物学会(ASM)发文宣称放弃SCI IF : 7月11日,著名的情报数据提供商汤森路透公司(Thomson Reuters Corp)宣布将知识产权业务和科学信息业务(IP&Science)以35.5亿美元(约
阅读全文
posted @ 2021-05-24 13:19
宏宇
阅读(677)
推荐(0)
摘要:
1、什么是Keep-Alive模式? 我们知道HTTP协议采用“请求-应答”模式,当使用普通模式,即非KeepAlive模式时,每个请求/应答客户和服务器都要新建一个连接,完成 之后立即断开连接(HTTP协议为无连接的协议);当使用Keep-Alive模式(又称持久连接、连接重用)时,Keep-Al
阅读全文
posted @ 2021-05-21 13:13
宏宇
阅读(1820)
推荐(0)
摘要:
HTTP(HyperTextTransferProtocol)是超文本传输协议的缩写,它用于传送WWW方式的数据,关于HTTP 协议的详细内容请参考RFC2616。HTTP协议采用了请求/响应模型。客户端向服务器发送一个请求,请求头包含请求的方法、URI、协议版本、以及包含请求修饰符、客户信息和内容
阅读全文
posted @ 2021-05-21 13:04
宏宇
阅读(159)
推荐(0)
摘要:
主机 操作系统 IP地址 软件包 NFS主机 Centos7.2 192.168.190.128 nfs-utils、rpcbind Windows Client Windows server 2008 192.168.190.129 网络文件系统 注:以下实验均关闭防火墙以及其它安全机制 NFS主
阅读全文
posted @ 2021-05-17 14:02
宏宇
阅读(4081)
推荐(0)
摘要:
我的应用程序(.NET 3.5 SP1)使用HttpWebRequest具有不同端点进行通信,有时其通过HTTPS其中每个托管服务器可以具有不同的安全协议要求说TLS或SSL3或者其他。设置在.NET HttpWebRequest的所述SecurityProtocol(SSL3或TLS)每个请求 通
阅读全文
posted @ 2021-05-16 09:39
宏宇
阅读(874)
推荐(0)
摘要:
在上一篇中,我们说了模拟登录, 下面我们说说附件上传。 据说,最早的http协议是不支持附件上传的,后来有添加了一个RFC 2045 协议,才支持附件上传,关于附件上传,请参见 http://www.cnblogs.com/greenerycn/archive/2010/05/15/csharp_h
阅读全文
posted @ 2021-05-16 08:16
宏宇
阅读(219)
推荐(0)
摘要:
有了上一篇的介绍,这次我们来说说模拟登录,上一篇见 :c# 爬虫(一) HELLO WORLD 原理 我们知道,一般需要登录的网站,服务器和客户端都会有一段时间的会话保持,而这个会话保持是在登录时候建立的, 服务端和客户端都会持有这个KEY,在后续访问时,都需要核对这两个KEY是否一致。 而客户端的
阅读全文
posted @ 2021-05-16 08:12
宏宇
阅读(1021)
推荐(0)
摘要:
最近在摸索爬虫相关的东西,写点随笔,以便忘记。 目的与用途 现实的项目中,我们需要太多的第三方接口了。而往往这些第三方接口由于条件限制,一时拿不到。 譬如: 1. 淘宝网今天有什么特价商品。 2. 百度今天的热搜榜是什么。 3. 某用户的水电、话费、煤气有没有欠费,欠了多少。 等等问题,怎么办呢?
阅读全文
posted @ 2021-05-16 08:09
宏宇
阅读(328)
推荐(0)
摘要:
使用静态ParseQueryString方法System.Web.HttpUtility类返回的NameValueCollection. Uri myUri = new Uri("http://www.example.com?param1=good¶m2=bad");string param
阅读全文
posted @ 2021-05-16 08:06
宏宇
阅读(410)
推荐(0)