随笔档案「2016年12月」 - zdmlcmepl

python绘制表格

摘要：1.PyExcelerate http://www.open-open.com/lib/view/open1420790232359.html 2. pyxley https://github.com/stitchfix/pyxley 阅读全文

posted @ 2016-12-14 15:13 zdmlcmepl 阅读(8566) 评论(0) 推荐(0)

提取mongodb中论文的信息，填入mysql，加快统计速度

摘要：1.创建mysql的alzheimer表，包括pmc_id,journal,title,abstract,name,authorinfor,pun_year,keyword,reference信息。 2.从mongodb中获取信息并且填入mysql，因为有12万条，中间可能有不正确的数据无法填入，分阅读全文

posted @ 2016-12-14 12:55 zdmlcmepl 阅读(397) 评论(0) 推荐(0)

统计中国，美国，世界排名前50的关键词并进行比较

摘要：1 获取中国所有关键词选出排名前50的关键词 2.获取美国的所有关键词，并做统计，与中国的统计代码相似，下一步工作是整合代码。美国前50的关键词 3，世界的前50的关键词世界前50关键词 4.比较中国与美国的关键词有哪些相似的，以及中国与世界的研究热点有哪些相似的阅读全文

posted @ 2016-12-14 12:48 zdmlcmepl 阅读(557) 评论(0) 推荐(0)

AD统计，排名前十的国家每年的论文统计量

摘要：1.获取每个国家的论文数量，采取的方法是写好sql语句，直接用sql语句统计数量，可能这种方式速度会比较慢，另外一种方法是把id全部传过来，在本地做统计。 2）获得每个国家每年的论文信息后，求比例。比如1996年美国的比例 = 1996年美国的论文量/1996年全世界的论文量阅读全文

posted @ 2016-12-14 12:39 zdmlcmepl 阅读(449) 评论(0) 推荐(0)

关于alzheimer disease论文的统计

摘要：1.获取2016年的所有关键字，保存到keyword_2016.json中从keyword_2016。json中读取关键词，并统计选出前25的关键词 2.获取发表论文量排名前十的国家 1）把所有第一作者的信息保存到authorinfor.json中 2）选出排名前十的国家阅读全文

posted @ 2016-12-14 12:31 zdmlcmepl 阅读(333) 评论(0) 推荐(0)

数据库操作

摘要：1还原mongodb 阅读全文

posted @ 2016-12-08 20:09 zdmlcmepl 阅读(169) 评论(0) 推荐(0)

自然语言处理 NLTK

摘要：from nltk.tokenize import MWETokenizer tokenizer = MWETokenizer([('molecular','pathogenesis'), ('molecular','basis'), ('cognitive','assessment'),('cli 阅读全文

posted @ 2016-12-08 14:50 zdmlcmepl 阅读(185) 评论(0) 推荐(0)

使用beautiful soup解析xml

摘要：比如解析name surname.next_sibling实际上是换行符，所有用换行符的next_sibling 直接print x.given-names.text 无法解析given-names这种格式的参考文献 .next_sibling 和 .previous_sibling 在文档树中, 阅读全文

posted @ 2016-12-06 12:00 zdmlcmepl 阅读(664) 评论(0) 推荐(0)

mongodb下载以及连接

摘要：1.下载mongodb安装包,官网下载速度比较慢，百度云安装包链接：http://pan.baidu.com/s/1geVQ8Xt 密码：8o5i 2.python 安装pymongo 我是在python的scripts目录下 pip install pymongo 3.安装mongodb，我是装在阅读全文

posted @ 2016-12-05 19:47 zdmlcmepl 阅读(1347) 评论(0) 推荐(0)

beautiful soup解析有空格的class

摘要：用Python写一个爬虫，用BeautifulSoup解析html。其中一个地方需要抓取下面两类标签：<dd class="ab " >blabla1</dd><dd class="ab cd" >blabla2</dd>第一类class的值的末尾有一个空格。第二类class的值中间有一个空格，而且阅读全文

posted @ 2016-12-01 21:27 zdmlcmepl 阅读(4737) 评论(0) 推荐(0)

life is tough，so are you

12 2016 档案

公告