会员
众包
新闻
博问
闪存
赞助商
HarmonyOS
Chat2DB
所有博客
当前博客
我的博客
我的园子
账号设置
会员中心
简洁模式
...
退出登录
注册
登录
立峰
自然语言处理、数据采集,欢迎加qq:2091395524交流!
博客园
首页
新随笔
联系
订阅
管理
上一页
1
2
3
4
2016年2月18日
网站常见的反爬虫和应对方法 + [评论]
摘要: 在我们的对2016年大数据行业的预测文章《2016年大数据将走下神坛拥抱生活 资本青睐创业机会多》里,我们曾经提到“在2016年,防止网站数据爬取将变成一种生意。”。今天我找到了来自”BSDR“的一篇文章,文章里主要介绍了常见的反爬虫应对方法,下面是正文。 常见的反爬虫 这几天在爬一个网站,网站做了
阅读全文
posted @ 2016-02-18 08:40 胡立峰
阅读(9865)
评论(0)
推荐(1)
2016年2月17日
斯坦福大学自然语言处理第一课——引言(Introduction)
摘要: 一、课程介绍 斯坦福大学于2012年3月在Coursera启动了在线自然语言处理课程,由NLP领域大牛Dan Jurafsky 和 Chirs Manning教授授课:https://class.coursera.org/nlp/ 以下是本课程的学习笔记,以课程PPT/PDF为主,其他参考资料为辅,
阅读全文
posted @ 2016-02-17 09:23 胡立峰
阅读(2823)
评论(0)
推荐(1)
爬虫入门实战,知乎小爬虫
摘要: 相比于爬虫框架,知乎小爬虫,更加适合初学者,尤其是想要了解爬虫技术细节、实现自己编写爬虫需求的初学者。 1. 谈爬虫工程师的价值 大数据时代已到,数据越来越具有价值了,没有数据寸步难行,有了数据好好利用,可以在诸多领域干很多事,比如很火的互联网金融。从互联网上爬来自己想要的数据,是数据的一个重要来源
阅读全文
posted @ 2016-02-17 08:45 胡立峰
阅读(9185)
评论(3)
推荐(0)
2016年2月14日
使用情感分析技术做营销
摘要: 利用情感分析技术对用户的评论、社会媒体上发表的言论进行分析,可以帮助我们得知用户的情感倾向性,比如喜欢什么(篮球、购物、哪款手机等等)。基于此,我们可以做有针对性的产品或者服务营销,往往会有事半功倍的效果。 以下面的例子来说: 微博是现代网络社会沟通的重要工具,以新浪微博为例,很多大型零售商会建立
阅读全文
posted @ 2016-02-14 16:20 胡立峰
阅读(836)
评论(0)
推荐(0)
2016年1月19日
字符串匹配的KMP算法
摘要: 举例来说,有一个字符串"BBC ABCDAB ABCDABCDABDE",我想知道,里面是否包含另一个字符串"ABCDABD"?这完全可以是一道程序员的笔试题。 许多算法可以完成这个任务,Knuth-Morris-Pratt算法(简称KMP)是最常用的之一。它以三个发明者命名,起头的那个K就是著...
阅读全文
posted @ 2016-01-19 10:35 胡立峰
阅读(287)
评论(0)
推荐(0)
上一页
1
2
3
4