12 2013 档案
摘要:FROM:http://my.oschina.net/012345678/blog/122355相信用python的人一定在抓取网页时,被编码问题弄晕过一阵前几天写了一个测试网页的小脚本,并查找是否包含指定的信息。在html = urllib2.open(url).read() 时,打印到控制台始终出现乱码。一般的解决办法就是html.decode('utf-8').encode('gb2312'),不过这个即使用了,也没能解决我的问题这里有两个问题,第一个你要知道网页的编码格式是utf-8 第二你得确定你的系统是gb2312的,能不能主动获取网页的编码格式,并
阅读全文
摘要:FROM:http://www.jb51.net/article/16104.htm在Python中,可以对String调用decode和encode方法来实现转码。比如,若要将某个String对象s从gbk内码转换为UTF-8,可以如下操作s.decode('gbk').encode('utf-8′)可是,在实际开发中,我发现,这种办法经常会出现异常:UnicodeDecodeError: ‘gbk' codec can't decode bytes in position 30664-30665: illegal multibyte sequence
阅读全文
摘要:FROM:http://blog.csdn.net/duck_genuine/article/details/17014991好久没写solr的文章了,刚好需要在公司作个分享,先总结一些先。引用请声明原文:http://blog.csdn.net/duck_genuine/article/details/17014991solrCloud分布式检索主要流程如下:搜索 video,“美女斗秀场” 取按相关度排序取得2条记录~过程是:从集群里得知:video—>两个分片信息所以请求被并行分发到两个分片搜索,各自取top2第一次返回返回:shard1返回:vid:score1, 0.5f2,
阅读全文