会员
众包
新闻
博问
闪存
赞助商
HarmonyOS
Chat2DB
所有博客
当前博客
我的博客
我的园子
账号设置
会员中心
简洁模式
...
退出登录
注册
登录
hi_net
博客园
首页
新随笔
联系
订阅
管理
2014年10月18日
现代信息检索 -- 空间向量模型
摘要: 现代信息检索
阅读全文
posted @ 2014-10-18 19:18 hi_net
阅读(413)
评论(0)
推荐(0)
2014年8月13日
eval函数记录
摘要: 今天有个小程序想要在函数名列表中调用相应的函数处理,却怎么运行不了。初始代码如下:#coding:utf8def h1(): print '函数1'def h2(): print '函数2'if __name__ == '__main__': list1 = ['h1','h2']...
阅读全文
posted @ 2014-08-13 15:06 hi_net
阅读(131)
评论(0)
推荐(0)
2014年8月12日
抓取新闻的爬虫
摘要: 此爬虫是基于http://www.cnblogs.com/rails3/archive/2012/08/14/2636780.html,修改而成,因自己也在学习过程中,略微加入了一些注释,更改了部分代码。由于发现博主过滤非文本内容时用的正则表达式很不错,记录一下。#coding=utf-8impor...
阅读全文
posted @ 2014-08-12 17:22 hi_net
阅读(273)
评论(0)
推荐(0)
抓取MM图片的爬虫
摘要: 刚学python,试着写了个非常简单的爬虫,爬一些MM的图片下来。记录一下#coding=utf-8import urllib,timeimport reglobal xx=0def getHtml(url): page = urllib.urlopen(url) html = page...
阅读全文
posted @ 2014-08-12 17:06 hi_net
阅读(254)
评论(0)
推荐(0)
Python中的字符编码问题
摘要: 初学Python,本身就在一些语句处有些迷惑,如 a = u'你好',不知加上这个Unicode参数有何作用。一直到做爬虫抓取新闻时,在cmd的输出上总是出现错误。经过检索相关知识后,对一些编码问题做个小总结,其中参杂个人猜测,难免会有错误,以后再慢慢修改了。 1.一定要声明#coding=X...
阅读全文
posted @ 2014-08-12 16:50 hi_net
阅读(190)
评论(0)
推荐(0)
正则表达式
摘要:
阅读全文
posted @ 2014-08-12 12:00 hi_net
阅读(94)
评论(0)
推荐(0)
正则表达式中的贪婪非贪婪
摘要: 近几天在做几个爬虫,分析网页url的时候,抓取总是出现问题。后来了解到是贪婪和非贪婪模式的问题。记录一下本是想在一个html中抓取大量这种模式的href连接xxxxx写的正则表达式为reg = r''经过Regulator分析后,下面语句也匹配了出来href="http://www.xxx.info...
阅读全文
posted @ 2014-08-12 11:39 hi_net
阅读(167)
评论(0)
推荐(0)
公告