python - 随笔分类 - 云端翱翔

使用python对文件中的单词进行提取

摘要：由于需要使用一个纯单词组成的文件，在网上下载到了一个存放单词的文件，但是里面有中文的解释，那就需要做一下提取了。文本的形式如下：所见即所得，这个文本是有规律的，每个单词为一行，紧接着下一行便是单词的解释，有了这种规律我们就很好处理了。首先我们... 阅读全文

posted @ 2017-08-11 15:41 云端翱翔阅读(1902) 评论(0) 推荐(0)

文档的相似度（4）--总结

摘要：经过前三篇博客的介绍，关于文档相似度的分析已经基本结束了，下面做下总结。此处给出一个完整的相似项发现方法：首先找出可能的候选对相似文档集合，然后基于该集合发现真正的相似文档。必须强调的是，这种方法可能会产生伪反例，即某些相似文档对由于没有进入候选对所以最终没有被识别出来。... 阅读全文

posted @ 2017-03-19 21:16 云端翱翔阅读(293) 评论(0) 推荐(0)

文档的相似度（3）--局部敏感哈希算法

摘要：此篇博客将会接着上一篇博客继续文档相似度的分析。在上篇博客中我们已经可以利用最小哈希签名对文档间的相似度进行分析了，但是我们应该要发现，及时可以使用最小哈希签名将大文档压缩成小的签名同时保持任意对文档之间的预期相似度，但是高效寻找具有最大相似度的问的那个对仍是不可能的。主要原因在于... 阅读全文

posted @ 2017-03-19 21:02 云端翱翔阅读(694) 评论(0) 推荐(0)

文档的相似度（2）--最小哈希签名

摘要：接着上一篇的博客继续下去，这篇博客主要讲下最小哈希签名的东西。对于上篇博客中提到的shingle，可以说是在压缩数据量的基础上又尽可能保留了源文档的特征，以便于后面对不同的文档进行相似度比较。但是我们会发现，shingle集合非常大，即使将每个shingle... 阅读全文

posted @ 2017-03-18 23:34 云端翱翔阅读(1339) 评论(0) 推荐(0)

文档的相似度（1）--Jaccard相似度与文档的shingling

摘要：在当今的计算机高速发展的时代，对于文章的查重等涉及到数据比对的需求越来越高了。为了识别字面上相似的文档，日常生活中我们所做的就是比对两个文档中相似的语句的比重，如果大部分内容都是相同的话，那么我们就会判定这两篇文档很大程度上是有抄袭嫌疑的。其实这个过程完全是可以类比到计算中来的，... 阅读全文

posted @ 2017-03-15 21:18 云端翱翔阅读(2238) 评论(0) 推荐(0)

python分析作业提交情况

摘要：这次做一个比较贴近我实际的东西：要求：将服务器中交作业的学生（根据文件的名字进行提取）和统计成绩的表格中的学生的信息进行比对，输出所有没有交作业的同学的信息（学号和姓名），并输出所交的作业中命名格式有问题的文件名的信息（如1627406012_E03....）。提示：提示：1、根... 阅读全文

posted @ 2017-01-17 15:28 云端翱翔阅读(424) 评论(0) 推荐(0)

python3中eval函数用法简介

摘要：python中eval函数的用法十分的灵活，这里主要介绍一下它的原理和一些使用的场合。下面是从python的官方文档中的解释： The arguments are a string and optional globals and locals. If provided, globals mus... 阅读全文

posted @ 2016-12-03 10:50 云端翱翔阅读(2224) 评论(1) 推荐(0)

python中模拟浏览器抓取网页（-）

摘要：对于平时我们抓取网页的内容时，比较倾向于直接利用urllib进行抓取（这里我就基于python的2.7版本进行解说，对于python3之后的版本，是将python中的urllib和urllib2和并成了urllib），但有些网站设置了防采集的功能，会拒绝爬虫进行数据的采集，这时候便可以模... 阅读全文

posted @ 2016-11-25 19:22 云端翱翔阅读(911) 评论(0) 推荐(0)

python3实现网络爬虫（4）--BeautifulSoup使用（3）

摘要：这一次我们继续来讲一下BeautifulSoup的相关知识，说一下BeautifulSoup导航树的相关内容。在上一次的博客中我们了解到findAll函数通过标签的名称和属性来查找标签，但有的时候在进网页中的内容爬取时，我们会发现有些我们想要获取的元素并不是都可以通过名称来获得的，因为我们... 阅读全文

posted @ 2016-11-18 16:23 云端翱翔阅读(216) 评论(0) 推荐(0)

python3实现网络爬虫（3）--BeautifulSoup使用（2）

摘要：在这一次的内容中，我们继续讨论BeautifulSoup的一些操作，我们这次只讨论几个在实践中用处特别大的几个函数。这次我们将学习通过属性查找标签的方法，标签组的使用。我们一起回忆一下，基本上，我们见过的每个网站都会使用层叠样式表（css，不懂的可以补一下网页相关知识）。这个css由于其结构的规范化... 阅读全文

posted @ 2016-11-11 22:16 云端翱翔阅读(195) 评论(0) 推荐(0)

python3实现网络爬虫（2）--BeautifulSoup使用（1）

摘要：这一次我们来了解一下美味的汤--BeautifulSoup，这将是我们以后经常使用的一个库，并且非常的好用。BeautifuleSoup库的名字取自刘易斯·卡罗尔在《爱丽丝梦游仙境》里的同名诗歌。在故事中，这首歌是素甲鱼唱的。就像它在仙境中的说法一样，BeautifulSoup尝试化平淡为神奇。它通... 阅读全文

posted @ 2016-11-07 17:10 云端翱翔阅读(158) 评论(0) 推荐(0)

python3实现网络爬虫（1）--urlopen抓取网页的html

摘要：准备开始写一些python3关于爬虫相关的东西，主要是一些简单的网页爬取，给身边的同学入门看。首先我们向网络服务器发送GET请求以获取具体的网页，再从网页中读取HTML内容。我们大家平时都使用网络浏览器，并且它已经成为我们上网不可或缺的软件。它创建信息的数据包，发送他们，然后把我们获取... 阅读全文

posted @ 2016-10-31 17:24 云端翱翔阅读(548) 评论(0) 推荐(0)

Pycharm及python安装详细教程

摘要：首先我们来安装python1、首先进入网站下载：点击打开链接（或自己输入网址https://www.python.org/downloads/），进入之后如下图，选择图中红色圈中区域进行下载。2、下载完成后如下图所示3、双击exe文件进行安装，如下图，并按照圈中区域进行设置，切记要勾选打钩的框，然后... 阅读全文

posted @ 2016-09-25 21:27 云端翱翔阅读(259) 评论(0) 推荐(0)

python使用ip代理抓取网页

摘要：在抓取一个网站的信息时，如果我们进行频繁的访问，就很有可能被网站检测到而被屏蔽，解决这个问题的方法就是使用ip代理。在我们接入因特网进行上网时，我们的电脑都会被分配一个全球唯一地ip地址供我们使用，而当我们频繁访问一个网站时，网站也正是因为发现同一个ip地址访问多次而进行屏蔽的，所以... 阅读全文

posted @ 2016-07-24 22:26 云端翱翔阅读(175) 评论(0) 推荐(0)

python中sort和sorted函数

摘要：在学习python的过程中，感觉python中的排序相和c++中的泛型算法还是比较相似的，但相对于c++而言更加简单易用。python中列表的内置函数sort（）可以对列表中的元素进行排序，而全局性的sorted（）函数则对所有可迭代的序列都是适用的；并且sort（）函数是内置函数，会改变... 阅读全文

posted @ 2016-06-08 21:36 云端翱翔阅读(947) 评论(0) 推荐(0)

云端翱翔

随笔分类 - python