摘要:
[TOC] 1. TPC H 数据生成和导入 实验环境 PostgreSQL 12 参数 ScaleFactor = 1G, QuerySeed = 20190909 制作完成的数据和查询如下: 链接: https://pan.baidu.com/s/1 2VcQcrSZhz1yFd1Cq4m9Q 阅读全文
摘要:
1. 数据下载 一些重要的链接: 1. "最新转储" 需要 这个文件 2. "中文维基的页面统计信息" 目前内容页面数大约是 978K 2. 数据处理 选择了 "Gensim" 这个主题工具包进行数据预处理。 2.1 xml 转 json "scripts.segment_wiki" 然后就转换成了 阅读全文