12 2016 档案

摘要:1.PyExcelerate http://www.open-open.com/lib/view/open1420790232359.html 2. pyxley https://github.com/stitchfix/pyxley 阅读全文
posted @ 2016-12-14 15:13 zdmlcmepl 阅读(8566) 评论(0) 推荐(0)
摘要:1.创建mysql的alzheimer表,包括pmc_id,journal,title,abstract,name,authorinfor,pun_year,keyword,reference信息。 2.从mongodb中获取信息并且填入mysql,因为有12万条,中间可能有不正确的数据无法填入,分 阅读全文
posted @ 2016-12-14 12:55 zdmlcmepl 阅读(397) 评论(0) 推荐(0)
摘要:1 获取中国所有关键词 选出排名前50的关键词 2.获取美国的所有关键词,并做统计,与中国的统计代码相似,下一步工作是整合代码。 美国前50的关键词 3,世界的前50的关键词 世界前50关键词 4.比较中国与美国的关键词有哪些相似的,以及中国与世界的研究热点有哪些相似的 阅读全文
posted @ 2016-12-14 12:48 zdmlcmepl 阅读(557) 评论(0) 推荐(0)
摘要:1.获取每个国家的论文数量,采取的方法是写好sql语句,直接用sql语句统计数量,可能这种方式速度会比较慢,另外一种方法是把id全部传过来,在本地做统计。 2)获得每个国家每年的论文信息后,求比例。比如1996年美国的比例 = 1996年美国的论文量/1996年全世界的论文量 阅读全文
posted @ 2016-12-14 12:39 zdmlcmepl 阅读(449) 评论(0) 推荐(0)
摘要:1.获取2016年的所有关键字,保存到keyword_2016.json中 从keyword_2016。json中读取关键词,并统计选出前25的关键词 2.获取发表论文量排名前十的国家 1)把所有第一作者的信息保存到authorinfor.json中 2)选出排名前十的国家 阅读全文
posted @ 2016-12-14 12:31 zdmlcmepl 阅读(333) 评论(0) 推荐(0)
摘要:1还原mongodb 阅读全文
posted @ 2016-12-08 20:09 zdmlcmepl 阅读(169) 评论(0) 推荐(0)
摘要:from nltk.tokenize import MWETokenizer tokenizer = MWETokenizer([('molecular','pathogenesis'), ('molecular','basis'), ('cognitive','assessment'),('cli 阅读全文
posted @ 2016-12-08 14:50 zdmlcmepl 阅读(185) 评论(0) 推荐(0)
摘要:比如解析name surname.next_sibling实际上是换行符,所有用换行符的next_sibling 直接print x.given-names.text 无法解析given-names这种格式的 参考文献 .next_sibling 和 .previous_sibling 在文档树中, 阅读全文
posted @ 2016-12-06 12:00 zdmlcmepl 阅读(664) 评论(0) 推荐(0)
摘要:1.下载mongodb安装包,官网下载速度比较慢,百度云安装包链接:http://pan.baidu.com/s/1geVQ8Xt 密码:8o5i 2.python 安装pymongo 我是在python的scripts目录下 pip install pymongo 3.安装mongodb,我是装在 阅读全文
posted @ 2016-12-05 19:47 zdmlcmepl 阅读(1347) 评论(0) 推荐(0)
摘要:用Python写一个爬虫,用BeautifulSoup解析html。其中一个地方需要抓取下面两类标签:<dd class="ab " >blabla1</dd><dd class="ab cd" >blabla2</dd>第一类class的值的末尾有一个空格。第二类class的值中间有一个空格,而且 阅读全文
posted @ 2016-12-01 21:27 zdmlcmepl 阅读(4737) 评论(0) 推荐(0)