Geek_Arking

2018年7月12日

摘要： python调用word接口主要用到的模板为python-docx，基本操作官方文档有说明。 python-docx官方文档地址使用python新建一个word文档，操作就像文档里介绍的那样：读取和编辑一个已有的word文档，只需在一开始添加上文件路径就行了，如下：如果是想读取其中的图片或是更阅读全文

posted @ 2018-07-12 17:23 Geek_Arking 阅读(82186) 评论(1) 推荐(2)

2018年7月5日

利用正则表达式提取签到卡机数据中的人员考勤情况

摘要：我们这里已经获取到了某单位签到卡机导出的数据和单位人员通讯录。其中签到机导出数据格式为.txt，内容如下图：其中有价值的信息就数每行的time，id，name了，所以第一步要做的就是从文本中提取出所有time，id，name的数据。而需要从文本中筛选需要的信息，最好的办法自然是使用正则表达式。阅读全文

posted @ 2018-07-05 16:27 Geek_Arking 阅读(813) 评论(0) 推荐(0)

2018年6月9日

Git常用操作（上）

只有注册用户登录后才能阅读该文。阅读全文

posted @ 2018-06-09 00:08 Geek_Arking 阅读(5) 评论(0) 推荐(0)

2018年5月9日

使用python读取MS-SQL数据库

摘要：使用python读取MS-SQL中的数据，这里使用到模板pymssql。因为不是python自带的模板，所以首先需要使用pip安装，对应命令：pip install pymssql 建立main.py文件，输入代码如下：通过循环命令，逐条显示获取到的结果。点击运行，执行该程序，能够正常返回SQ 阅读全文

posted @ 2018-05-09 22:06 Geek_Arking 阅读(6525) 评论(0) 推荐(0)

2018年4月30日

使用浏览器模拟器获取动态网站数据

摘要：抓取静态网站的数据，只是根据需要组合出合适的url列表，之后编写方法spider获取指定url上的数据就可以了。但如果网站是动态的，例如在这个站点“http://www.zgyyjgw.com/front/cn/hospitalPrice”，从源代码中我们可以看出，该站点使用的是javascript 阅读全文

posted @ 2018-04-30 19:24 Geek_Arking 阅读(1694) 评论(0) 推荐(0)

2018年4月27日

利用爬虫获取网上医院药品价格信息（下）

摘要：因为之前的爬虫存在着各种不足，在此我们进行一些必要的扩展和改进。一、加入代理服务器首先，编写另外一个爬虫搜集网上的免费代理服务器编写代理服务器数据爬虫程序”getproxy2.py”，代码如下： 1 from bs4 import BeautifulSoup 2 import urllib2 阅读全文

posted @ 2018-04-27 20:29 Geek_Arking 阅读(1160) 评论(0) 推荐(0)

2018年4月11日

爬虫中多线程的运用

摘要：检索百张的页面，爬虫运行下来往往在一小时以内，时间上还是可以接受的。但当整理后的URL数量过多的时候，就只能考虑采取多线程分步爬取了。Python里控制多线程只需要用到模板threading，而且只需要用到其中的Thread。简单的使用方法如下：可以看到五个线程同步运行，因sleep设置的时间相阅读全文

posted @ 2018-04-11 20:43 Geek_Arking 阅读(3340) 评论(0) 推荐(0)

2018年4月8日

利用爬虫获取网上医院药品价格信息（上）

摘要：在对比医院业务数据中的各类药品价格的时候，面对着成千上百种的药品。因而想到使用爬虫来自动获取网上的药品价格，保存下来导入数据库中就可以方便地比较院方的药品采购价格了。通过百度搜索“药品价格查询”，在众多的网站中，这里选择了药价查询网（http://www.china-yao.com/），主要是因为阅读全文

posted @ 2018-04-08 23:05 Geek_Arking 阅读(2630) 评论(0) 推荐(0)

公告