摘要: 随着今晚和明天即将举行的几场大型比赛,我们与我们的合作伙伴SciSports合作,分析其余四支球队的优势。以下是法国队和比利时队的分析。 目前正在通过锦标赛分析为Red Devils提供支持。对于此特定报告,SciSports将其SciSkill数据提供我们,以便我们在SAS Visual Anal 阅读全文
posted @ 2018-07-16 14:57 拓端tecdat 阅读(188) 评论(0) 推荐(0)
摘要: 原文链接:http://tecdat.cn/?p=6181 Word Mover的距离(WMD)是用于衡量两个文档之间差异的距离度量,它在文本分析中的应用是由华盛顿大学的一个研究小组在2015年引入的。 Word Mover距离的定义 WMD是两个文档之间的距离,作为将所有单词从一个文档移动到另一个 阅读全文
posted @ 2018-07-16 14:18 拓端tecdat 阅读(514) 评论(0) 推荐(0)
摘要: 摘要:自然语言理解是人工智能的核心难题之一,也是目前智能语音交互和人机对话的核心难题。之前写过一篇文章自然语言理解,介绍了当时NLU的系统方案,感兴趣的可以再翻一番,里面介绍过的一些内容不再赘述。本文详细讨论了自然语言理解的难点,并进一步针对自然语言理解的两个核心问题,详细介绍了规则方法和深度学习的 阅读全文
posted @ 2018-07-11 15:06 拓端tecdat 阅读(498) 评论(0) 推荐(0)
摘要: Tableau是一款非常棒的数据可视化商业软件,通过拖拉拽的方式迅速的实现数据可视化。而且该软件可以连接任何一种数据库,在处理大型数据时一点都不逊色。 阅读全文
posted @ 2018-07-11 15:04 拓端tecdat 阅读(799) 评论(0) 推荐(0)
摘要: 原文链接:http://tecdat.cn/?p=3050 我一直在寻找各种方法来查找有关R包的信息,但我最近才了解CRAN_package_db()了基本tools包中的函数。如果一位同事没有向我指出,我确信我永远不会自己找到它。 当被调用时,这个函数发送到由环境变量指定的CRAN镜像,R_CRA 阅读全文
posted @ 2018-07-10 16:11 拓端tecdat 阅读(448) 评论(0) 推荐(0)
摘要: 原文链接:http://tecdat.cn/?p=4740 缺少数据在分析数据集时可能不是一个微不足道的问题。 如果缺失数据的量相对于数据集的大小非常小,那么为了不偏离分析而忽略缺少特征的少数样本可能是最好的策略,但是留下可用的数据点会剥夺某些数据的特征。 尽管某些快速修正如均值替代在某些情况下可能 阅读全文
posted @ 2018-07-10 14:12 拓端tecdat 阅读(443) 评论(0) 推荐(0)
摘要: 其实,虽然很想做数据分析师,但是是跨行,心里相当忐忑,做这个分析就相当于加深自己对数据分析这个行业的了解了。 阅读全文
posted @ 2018-07-10 14:00 拓端tecdat 阅读(310) 评论(0) 推荐(0)
摘要: 这篇文章是如何使用几种不同的矩阵分解算法计算相关艺术家的分步指南。代码用Python编写,使用 Pandas 和SciPy进行计算,D3.js以交互方式可视化结果。 阅读全文
posted @ 2018-07-09 16:45 拓端tecdat 阅读(323) 评论(0) 推荐(0)
摘要: 论坛为有相同爱好的网友提供了广阔的互动交流平台,而由此积累下来的庞大数据和复杂的用户互动场景也蕴含着有价值的信息,本文对虎扑论坛的帖子、个人信息展开分析,探索虎扑论坛用户有哪些特点? 阅读全文
posted @ 2018-07-09 16:43 拓端tecdat 阅读(426) 评论(0) 推荐(0)
摘要: 微博作为热门话题的聚集地,评价、点赞转发、评论有无水军……都可能影响新人们的判断。本文对婚策微博上的用户行为数据进行盘点,一起来看看微博用户行为里有哪些值得深挖的奥秘吧! 阅读全文
posted @ 2018-07-09 16:43 拓端tecdat 阅读(157) 评论(0) 推荐(0)