摘要: [TOC] 1. TPC H 数据生成和导入 实验环境 PostgreSQL 12 参数 ScaleFactor = 1G, QuerySeed = 20190909 制作完成的数据和查询如下: 链接: https://pan.baidu.com/s/1 2VcQcrSZhz1yFd1Cq4m9Q 阅读全文
posted @ 2019-10-06 13:20 nlp-in-shell 阅读(1006) 评论(0) 推荐(0) 编辑
摘要: 1. 数据下载 一些重要的链接: 1. "最新转储" 需要 这个文件 2. "中文维基的页面统计信息" 目前内容页面数大约是 978K 2. 数据处理 选择了 "Gensim" 这个主题工具包进行数据预处理。 2.1 xml 转 json "scripts.segment_wiki" 然后就转换成了 阅读全文
posted @ 2017-11-25 11:10 nlp-in-shell 阅读(1479) 评论(0) 推荐(0) 编辑