途知·抖音多模态数据采集与AI融合解析
途知·抖音多模态数据采集与AI融合解析
| 这个项目属于哪个课程 | 2025综合设计——多源异构数据采集与融合应用综合实践 |
|---|---|
| 组名、项目简介 | 组名:往死里爬组 项目需求:解决用户从社交媒体(小红书、抖音、B站等)“种草”到实际行程规划之间的巨大鸿沟。提供从信息提取到路线生成的一站式解决方案。 项目目标:构建“途知·智能旅行路线规划助手”,利用 LLM 和 AI Agent 实现非结构化旅游信息的自动化提取与可行性路线生成。 项目开展技术路线: 1. 数据采集层:Selenium/DrissionPage/Playwright 多源爬虫 + ASR/AI 清洗。 2. 数据存储层:openGauss 数据库,TEXT[] 数组优化存储。 3. 后端逻辑层:Python Flask + ReACT 架构 Agent + RAG 技术。 4. 算法层:高德 API + TSP 算法 + 混合出行方案。 5. 前端交互层:React 玻璃拟态 UI + 交互式地图。 |
| 团队成员学号 | 102302140 (组长), 102302125, 102302127, 102302129, 102302130, 102302131, 102302142 |
| 这个项目目标 | 1. 多源目的地智能提取:支持自然语言或链接输入,自动解析 POI。 2. AI 总结与结构化呈现:自动总结景点特色与消费,生成可选列表。 3. 交通可行性分析:调用地图接口查询真实交通数据,分析行程合理性。 4. 智能取舍与最优路线规划:基于 TSP 算法生成不走回头路的最优路线。 5. 个性化路书生成:生成含时间轴的详细方案,支持分享与管理。 |
| 其他参考文献 | 1. 冷昊-B站爬虫与音频解析 2. 杨知明-小红书数据采集 3. 罗伟钊-抖音数据采集 4. 陈宇新-微博爬虫设计 5. 苏琎宇-前后端搭建与ReACT架构 6. 何玮鑫-路线规划算法 7. 畅乾淇-openGauss数据库设计与部署 |
- 要求:
在抖音上搜索指定的旅游景点,抓取相关视频的评论,利用 AI 总结这些评论,最后结合本地的景点元数据,生成一份包含景点详情和用户真实评价的 CSV 报告。
• Gitee文件夹链接:
https://gitee.com/sui123feng/20251015/tree/master/实践大作业
1. 系统库导入
playwright: 一个强大的浏览器自动化工具,用于模拟真实用户操作(打开网页、点击、滚动、抓取数据)。这里用来处理抖音这种动态加载极多的网站。
pandas: 用于数据处理,读取输入的 fuzhou.csv 和保存输出的 CSV 文件。
openai: 这里虽然库名叫 openai,但实际配置的是 DeepSeek (阿里千问) 的 API,用于调用大模型进行文本分析。

2.数据读取模块
编码兼容:尝试 utf-8, gbk, utf_8_sig 三种编码格式,防止因为文件编码问题导致读取失败
字段统一:如果 CSV 里有 prirating 字段,会自动重命名为 rating,保证后续处理的一致性。
3. AI 分析模块
输入:一长串从抖音抓取的原始评论字符串。
处理:
构建了一个详细的 Prompt (提示词),指示 AI 扮演“旅游信息分析师”。
要求 AI 执行三个步骤:清洗数据(去噪)、提取干货(体验、避雷、建议)、总结输出。
调用:使用 client.chat.completions.create 异步调用 DeepSeek 模型。
输出:一段精炼的景点描述/评价总结。

4. 评论抓取模块
获取标题:尝试获取视频描述作为标题,如果失败则获取网页标题。
滚动加载:抖音的评论是懒加载的(滚动到底部才加载更多)。代码使用 page.mouse.wheel 模拟鼠标滚轮向下滚动。
去噪逻辑:定义了 NOISE_KEYWORDS(如“回复”、“分享”、“作者”等),过滤掉无效的互动信息,只保留有实质内容的评论。
去重:防止抓取到重复的评论。

5. 单个景点处理流程
匹配元数据:先在 fuzhou.csv 里查找当前景点的信息(如地址、票价),填入结果字典。
搜索景点:控制浏览器跳转到抖音搜索页 https://www.douyin.com/search/{keyword}。
提取视频链接:等待搜索结果加载。
人工验证处理:代码中包含了一个检测机制,如果搜索结果没加载出来(通常是因为触发了滑块验证码),它会暂停并提示你在控制台按回车,给你时间手动去浏览器里滑滑块。
点击视频卡片,获取视频详情页的 URL。
抓取评论:遍历提取到的视频 URL,调用 scrape_comments_and_title 抓取评论。
AI 总结:将所有评论合并,调用 AI 进行总结,填入 description 字段。

- ppt制作:

“途知·智能旅行助手”项目旨在解决用户从社交媒体“种草”到实际出行规划之间的鸿沟。项目核心是一个基于LLM(大语言模型)和RAG(检索增强生成)的Web应用,主要面向大学生及年轻职场人群,通过智能解析用户粘贴的社交媒体链接(如小红书、抖音)或自然语言输入,自动提取POI(兴趣点)信息,并集成高德/飞猪API获取实时交通数据,结合TSP(旅行商问题)算法与AIAgent生成最优路线。文档详细阐述了项目的NABCD模型(需求、方法、好处、竞争、推广),并对标携程等竞品进行了差异化分析,明确了前端(React)和后端(集成爬虫、AI Agent、华为OpenGauss数据库)的功能模块。此外,文档还包含了采用Figma工具设计的界面原型、UML(用例图、活动图、类图)以及详细的数据库ER图与表结构设计,为项目的技术实现提供了全面的蓝图。
浙公网安备 33010602011771号