软工作业-个人项目

文本查重算法

本作业的github链接,点击访问

个人软件过程PSP表记录

PSP2.1

Personal Software Process Stages

预估耗时(分钟)

实际耗时(分钟)

Planning

计划

30

20

· Estimate

· 估计任务耗时

30

20

Development

开发

210

290

· Analysis

· 需求分析 (包括学习新技术)

50

30

· Design Spec

· 生成设计文档

30

30

· Design Review

· 设计复审

20

30

· Coding Standard

· 代码规范 (为目前的开发制定合适的规范)

10

10

· Design

· 具体设计

20

25

· Coding

· 具体编码

60

80

· Code Review

· 代码复审

10

10

· Test

· 测试(自我测试,修改代码,提交修改)

10

15

Reporting

报告

60

60

· Test Repor

· 测试报告

20

20

· Size Measurement

· 计算工作量

20

20

· Postmortem & Process Improvement Plan

· 事后总结, 并提出过程改进计划

20

20

 

· 合计

300

370

计算模块接口的设计与实现过程

本程序的依赖要求

sentence-transformers
paraphrase-multilingual-MiniLM-L12-v2

本程序使用sentence transformer提供的接口完成任务,引用的设计如下

from sentence_transformers.util import cos_sim
from sentence_transformers import SentenceTransformer

完成两句文本的相似度检查过程如下

sentence1="当你竭尽所能却只能铩羽而归"
sentence2="当你竭尽所能却无法入睡"
st_model=SentenceTransformer("paraphrase-multilingual-MiniLM-L12-v2")
embedding1=st_model.encode(sentence1)
embedding2=st_model.encode(sentence2)
cosine_value=cos_sim(embedding1,embedding2)
print(cosine_value.item()*100,"%")

实际运行结果

posted @ 2023-09-16 22:26  Leo_Scott  阅读(62)  评论(0)    收藏  举报