爬虫 - 随笔分类 - 网络蚂蚁

c#实现从其他网站抓取imei码信息,手工输入验证码

摘要：阅读全文：http://www.yzswyl.cn/blread-1603.html 功能：从其他网站手工输入验证码并抓取手机IMEI信息 using System; using System.Collections.Generic; using System.ComponentModel; usi 阅读全文

posted @ 2020-04-01 09:58 网络蚂蚁阅读(507) 评论(0) 推荐(0)

爬虫、网页分析解析辅助工具 Xpath-helper

摘要：每一个写爬虫、或者是做网页分析的人，相信都会因为在定位、获取xpath路径上花费大量的时间，甚至有时候当爬虫框架成熟之后，基本上主要的时间都花费在了页面的解析上。在没有这些辅助工具的日子里，我们只能通过搜索html源代码，定位一些id去找到对应的位置，非常的麻烦，而且经常出错。这里介绍一个chrom 阅读全文

posted @ 2017-04-17 15:24 网络蚂蚁阅读(1811) 评论(0) 推荐(0)

找xpath好用的工具（Firefox插件）

摘要：WebDriver Element Locator 安装使用 1.在firefox里打开www.baidu.com 2. 将光标定位在搜索框里，鼠标右键，如下图所示，会提供多个语言(C#,Java,Python,Ruby等)的xpath。找到对应自己语言的xpath就可以使用了 Firebug 阅读全文

posted @ 2017-04-17 15:01 网络蚂蚁阅读(11775) 评论(0) 推荐(0)

[开源 .NET 跨平台 Crawler 数据采集爬虫框架: DotnetSpider] [五] 如何做全站采集?

摘要：[DotnetSpider 系列目录] 一、初衷与架构设计二、基本使用三、配置式爬虫四、JSON数据解析与配置系统五、如何做全站采集如何做全站采集? 很多同学加群都在问, 如何使用DotnetSpider做全站采集呢? 其实很简单, 只要你们想通爬虫的整个逻辑就能明白了。简而言之，步骤如下阅读全文

posted @ 2017-04-14 10:27 网络蚂蚁阅读(2764) 评论(1) 推荐(3)

[开源 .NET 跨平台 Crawler 数据采集爬虫框架: DotnetSpider] [四] JSON数据解析

摘要：[DotnetSpider 系列目录] 一、初衷与架构设计二、基本使用三、配置式爬虫四、JSON数据解析与配置系统五、如何做全站采集场景模拟接上一篇, 假设由于漏存JD SKU对应的店铺信息。这时我们需要重新完全采集所有的SKU数据吗？补爬的话历史数据就用不了了。因此，去京东页面上找看是阅读全文

posted @ 2017-04-14 10:26 网络蚂蚁阅读(1840) 评论(0) 推荐(1)

[开源 .NET 跨平台 Crawler 数据采集爬虫框架: DotnetSpider] [三] 配置式爬虫

摘要：[DotnetSpider 系列目录] 一、初衷与架构设计二、基本使用三、配置式爬虫四、JSON数据解析与配置系统五、如何做全站采集上一篇介绍的基本的使用方式，自由度很高，但是编写的代码相对就多了。而我所在的行业其实大部分都是定题爬虫, 只需要采集指定的页面并结构化数据。为了提高开发效率, 阅读全文

posted @ 2017-04-14 10:25 网络蚂蚁阅读(2096) 评论(0) 推荐(0)

[开源 .NET 跨平台 Crawler 数据采集爬虫框架: DotnetSpider] [二] 基本使用

摘要：[DotnetSpider 系列目录] 一、初衷与架构设计二、基本使用三、配置式爬虫四、JSON数据解析与配置系统五、如何做全站采集使用环境 Visual Studio 2015 or later .NET 4.5 or later 如果想使用 .NET CORE 请按照官方说明安装 .N 阅读全文

posted @ 2017-04-14 10:22 网络蚂蚁阅读(2802) 评论(0) 推荐(0)

[开源 .NET 跨平台 Crawler 数据采集爬虫框架: DotnetSpider] [一] 初衷与架构设计

摘要：[DotnetSpider 系列目录] 一、初衷与架构设计二、基本使用三、配置式爬虫四、JSON数据解析与配置系统五、如何做全站采集为什么要造轮子同学们可以去各大招聘网站查看一下爬虫工程师的要求，大多是招JAVA、PYTHON，甚至于还有NODEJS，C++；再或者去开源中国查询C#的爬阅读全文

posted @ 2017-04-14 10:21 网络蚂蚁阅读(4653) 评论(1) 推荐(4)

基于C#.NET的高端智能化网络爬虫（二）（攻破携程网）

摘要：本篇故事的起因是携程旅游网的一位技术经理，豪言壮举的扬言要通过他的超高智商，完美碾压爬虫开发人员，作为一个业余的爬虫开发爱好者，这样的言论我当然不能置之不理。因此就诞生了以及这一篇高级爬虫的开发教程。有人评论我上一篇的简单爬虫：代码太过简单以至于弱爆了，真是被这群有文化的孩子给雷到了！不得不猜测你阅读全文

posted @ 2017-04-13 10:46 网络蚂蚁阅读(15630) 评论(35) 推荐(16)

基于C#.NET的高端智能化网络爬虫（一）（反爬虫哥必看）

摘要：前两天朋友发给我了一篇文章，是携程网反爬虫组的技术经理写的，大概讲的是如何用他的超高智商通过（挑衅、怜悯、嘲讽、猥琐）的方式来完美碾压爬虫开发者。今天我就先带大家开发一个最简单低端的爬虫，突破携程网超高智商的反爬虫技术。一、什么是爬虫？很多人说我们这些搞软件的人，总喜欢把虚拟世界里的事物跟现实中阅读全文

posted @ 2017-04-13 10:31 网络蚂蚁阅读(37380) 评论(17) 推荐(40)

C# 多线程网络爬虫

摘要：上次做了一个帮公司妹子做了爬虫，不是很精致，这次公司项目里要用到，于是有做了一番修改，功能添加了网址图片采集，下载，线程处理界面网址图片下载等。说说思路：首相获取初始网址的所有内容在初始网址采集图片去初始网址采集链接把采集到的链接放入队列继续采集图片，然后继续采集链接，无限循环还是上图片阅读全文

posted @ 2017-04-13 10:29 网络蚂蚁阅读(3048) 评论(2) 推荐(0)

用简单的http抓包来实现微信公众网页如何模拟登录

摘要：一、准备工具：系统：XP 浏览器：IE8 抓包工具：HttpWatch（它可以查看url请求的数据包）二、抓包思路：浏览器上的任何获取数据的方式都符合http协议的请求，只要发送符合要求的数据就可以模拟任何操作，所以抓包重点就要找出服务器需要的数据，例如：模拟登录的话，就是找出那个是用户字段，阅读全文

posted @ 2017-01-16 14:21 网络蚂蚁阅读(4632) 评论(0) 推荐(0)

网络蚂蚁

技术无边界编程靠思想

随笔分类 - 爬虫

公告

网络蚂蚁

技术无边界 编程靠思想

随笔分类 - 爬虫

公告

技术无边界编程靠思想