软工作业-个人项目
文本查重算法
本作业的github链接,点击访问
个人软件过程PSP表记录
PSP2.1 |
Personal Software Process Stages |
预估耗时(分钟) | 实际耗时(分钟) |
Planning |
计划 |
30 | 20 |
· Estimate |
· 估计任务耗时 | 30 |
20 |
Development | 开发 | 210 |
290 |
· Analysis |
· 需求分析 (包括学习新技术) |
50 | 30 |
· Design Spec |
· 生成设计文档 |
30 | 30 |
· Design Review | · 设计复审 | 20 | 30 |
|
· Coding Standard |
· 代码规范 (为目前的开发制定合适的规范) | 10 | 10 |
· Design |
· 具体设计 | 20 | 25 |
|
· Coding | · 具体编码 | 60 |
80 |
|
· Code Review | · 代码复审 | 10 |
10 |
|
· Test |
· 测试(自我测试,修改代码,提交修改) |
10 | 15 |
Reporting |
报告 | 60 |
60 |
|
· Test Repor | · 测试报告 |
20 | 20 |
· Size Measurement | · 计算工作量 | 20 |
20 |
· Postmortem & Process Improvement Plan |
· 事后总结, 并提出过程改进计划 |
20 | 20 |
|
· 合计 | 300 |
370 |
计算模块接口的设计与实现过程
本程序的依赖要求
sentence-transformers
paraphrase-multilingual-MiniLM-L12-v2
本程序使用sentence transformer提供的接口完成任务,引用的设计如下
from sentence_transformers.util import cos_sim
from sentence_transformers import SentenceTransformer
完成两句文本的相似度检查过程如下
sentence1="当你竭尽所能却只能铩羽而归"
sentence2="当你竭尽所能却无法入睡"
st_model=SentenceTransformer("paraphrase-multilingual-MiniLM-L12-v2")
embedding1=st_model.encode(sentence1)
embedding2=st_model.encode(sentence2)
cosine_value=cos_sim(embedding1,embedding2)
print(cosine_value.item()*100,"%")
实际运行结果

浙公网安备 33010602011771号