数据采集实践大项目

:由于models较大,无法直接上传到git中,我们将models上传至github上。若需要运行系统请点击.gitattributes,使用git lfs依次将相应文件下载到本地并存放在相应文件夹中,位置如.gitattributes中链接所示。

github链接:https://github.com/liuliuliuliu617-maker/-/tree/master
(一)项目准备
我们使用问卷星对项目用户群体进行调研,覆盖面广,目标用户明确,分别调研出用户年龄和使用领域,并对热门领域(如游戏邻域)进行细分,为接下来我们将对这些领域依次进行模型训练进行准备。

image

image

这些文件夹是我们从多平台爬取的评论,包含其内部的表情包等图片信息。每一个文件夹下面都有至少1000条数据,为接下来我们搭建训练评论分类模型做准备。

image

(二)系统搭建:
为了让模型训练有个好的结果,我们将Qwen2.5-3B-instruct模型部署到本地,并加入我们之前爬取的评论数据对大模型进行微调,接下来是我们的相应代码:
1. --Qwen2.5_train.py: 模型训练代码,可使用本地数据对模型进行训练

我们采用以下方法进行训练:
(1)LoRA(Low-Rank Adaptation)方法:
该代码通过集成LoRA配置,在预训练模型上进行微调。LoRA是一种高效的参数调整方法,通过引入低秩矩阵来减少微调时的参数量。

image

(2)量化(Quantization):
在模型加载时,代码配置了量化选项(使用4位量化)。这使得模型在训练时可以节省显存,同时加速推理过程,尤其对于大规模语言模型(如3B参数量的Qwen2.5)而言,量化是重要的优化手段。

image

2. --pinglun: 前端代码文件夹,使用了一个基于 React 和 React Router 的前端应用结构。主要功能包括登录、注册、用户中心、评论概览等模块,每个功能通过独立的组件进行管理。使用 React Router 实现页面导航,使得在单页应用中可以动态加载不同页面,提升用户体验。组件化设计使得每个模块独立且可复用,便于维护和扩展。每个组件配有独立的 CSS 文件,实现样式的局部管理,避免样式冲突。通过 Navigate 组件实现路径重定向,确保访问根路径时会自动跳转到登录页。使用时请确保使用pycharm打开并在本地下载node.js

image

3.--models:模型存放处

image

4.后端:****

--db.py :所有数据库访问逻辑(用户、视频、评论、关键词、v_cnt 统计)。

--server.py :Flask 服务入口,登录/注册接口、爬取接口 /api/process、关键词接口 /api/keywords、用户视频管理接口 /api/user/videos、/api/user/video_comments,以及页面路由。

--back.sql:数据库 back 的表结构(user / video / comments / keyword),要和db.py配套。

--预测.py:加载本地 Qwen 模型并对评论进行分类(结合关键词规则和大模型),输出类别 ID 和中文标签,供后端入库和展示使用。

5.华为云平台部署:
(1)云端服务器部署:
5a54ce14b039a026d043c6567867669f

(2)启动数据库并创建back数据库
619ae6be3b78dd88a24249e80e12f12e

(3)创建comments,keyword,users,video表(之前创建的没截图,这里直接显示我们之前创建的)
2fa92b214ab493f954160044cdbbabbd

(4)创建各表信息:
9f63f4e6e68af4ba493cbcdbfc650262

929becec8cfd0767529cc729b9bb6408

9c23a10fa93bb30afd53150e929169be

posted @ 2025-12-19 13:48  流留六刘  阅读(5)  评论(0)    收藏  举报