• 博客园logo
  • 会员
  • 众包
  • 新闻
  • 博问
  • 闪存
  • 赞助商
  • HarmonyOS
  • Chat2DB
    • 搜索
      所有博客
    • 搜索
      当前博客
  • 写随笔 我的博客 短消息 简洁模式
    用户头像
    我的博客 我的园子 账号设置 会员中心 简洁模式 ... 退出登录
    注册 登录
野野
博客园    首页    新随笔    联系   管理    订阅  订阅
2018年5月14日
结巴分词python
摘要: 将文件中的txt文档依次读出 并分好词后 写入 另外的TXT中 #coding=utf-8 import os import jieba import codecs import random def readFile(newDir): f=open(newDir,"r",encoding="utf-8") string=f.read() print(string) seg_list = ji... 阅读全文
posted @ 2018-05-14 21:04 野野 阅读(136) 评论(0) 推荐(0)
2018年4月6日
竞品分析
摘要: 一、SWOT分析法 strength weakness opportunity threat 以爱奇艺APP做竞品对优酷APP做swot竞品分析 SWOT分析 (1)优势: 买断很多视频的版权,享独播的特权; (2)缺陷:很多视频需要会员才能观看;专享蓝光灯各种特权也只有会员可以享有;UI界面设计的 阅读全文
posted @ 2018-04-06 12:59 野野 阅读(300) 评论(0) 推荐(0)
2018年2月8日
学期总结(一)------文献挖掘
摘要: 我负责的主要部分是文本的分类,运用最基础的朴素贝叶斯分类算法进行处理数据。 一、数据源 采用22673篇文档的数据集,其中的0.7作为训练集,其中的0.3当做测试集来计算roc,测试集一共有6802篇文章的题目和摘要。 二、数据预处理 原始数据是一个TXT中有很多篇文章,包括他的各种属性,我们只把需 阅读全文
posted @ 2018-02-08 20:43 野野 阅读(260) 评论(0) 推荐(0)
2018年1月29日
分类结果评估
摘要: 五、分类结果评估 (1)数据集: 采用2万多篇文档的数据集中的0.3测试集来计算roc,一共有6802篇文章的题目和摘要。 (2)精确度、召回率、F值: 混淆矩阵(Confusion Matrix): 真正例(True Positive;TP):将一个正例正确判断成一个正例 伪正例(False Po 阅读全文
posted @ 2018-01-29 20:46 野野 阅读(305) 评论(0) 推荐(0)
2017年10月16日
scrapy 爬虫怎么写入日志和保存信息
摘要: 写入日志: 首先我的爬虫 name= article scrapy crawl article -s LOG_FILE=wiki.log 输出为不同格式: scrapy crawl article -o articles.csv -t csv scrapy crawl article -o arti 阅读全文
posted @ 2017-10-16 16:22 野野 阅读(3818) 评论(0) 推荐(0)
2017年10月10日
Python 安装 imread报错
摘要: 看到一篇博客才解决 http://blog.csdn.net/u010480899/article/details/52701025 阅读全文
posted @ 2017-10-10 19:17 野野 阅读(5164) 评论(0) 推荐(0)
2017年10月8日
Python爬虫爬中文却显示Unicode,怎样显示中文--问题解答
摘要: 首先爬取古诗网站时,显示 原因是因为输出为列表[] 如果写一个循环,输出其中每个元素就为中文了。。。 阅读全文
posted @ 2017-10-08 20:13 野野 阅读(2064) 评论(0) 推荐(1)
2017年9月23日
Python网络数据采集
摘要: 一、正则表达式 * 表匹配0次或者多次 a*b* + 表至少一次 [ ] 匹配任意一个 ( ) 辨识一个编组 {m,n} m或者n 次 [^] 匹配任意不在中括号里的字符 | 表示或者 . 表示匹配任意字符 ^ 表字符的开始 ^a 表示以a开始 \ 表示转义字符 $ 和^ 相反 从字符串的末尾开始匹 阅读全文
posted @ 2017-09-23 20:32 野野 阅读(1193) 评论(0) 推荐(0)
Python网络数据采集二
摘要: 一、正则表达式 * 表匹配0次或者多次 a*b* + 表至少一次 [ ] 匹配任意一个 ( ) 辨识一个编组 {m,n} m或者n 次 [^] 匹配任意不在中括号里的字符 | 表示或者 . 表示匹配任意字符 ^ 表字符的开始 ^a 表示以a开始 \ 表示转义字符 $ 和^ 相反 从字符串的末尾开始匹 阅读全文
posted @ 2017-09-23 20:32 野野 阅读(210) 评论(0) 推荐(0)
2017年9月14日
Python学习三
摘要: 定义函数: 自定义函数: def 名字(参数): 函数体 返回值 再调用就行 空函数: pass函数就为空 pass还可以用在其他语句里,比如: 缺少了pass,代码运行就会有语法错误。 参数检查: 数据类型检查可以用内置函数isinstance 返回多个值: 设置p(a,x):返回多个参数 ret 阅读全文
posted @ 2017-09-14 17:40 野野 阅读(195) 评论(0) 推荐(0)
下一页
博客园  ©  2004-2025
浙公网安备 33010602011771号 浙ICP备2021040463号-3