《5杆大烟枪团队》第5次作业：项目选题

前言

项目名称

媒体分离器/Media Separator

项目简介

这是一个Web应用，用于对媒体（音频，视频）进行处理，主要实现功能有二：

对视频中的人脸（后期可能不限于人脸）进行提取、分析
将音频文件分离为乐器伴奏和人声演唱

NABCD模型分析

1. N（Need 需求）

分离音频：
很多人都遇到过这样的情况：在看电影或者听音乐时，听到了一段十分打动自己的音乐，于是很像将其保存下来，这时：

小白选手，拿手机将其录下来，音质……
有一些基础的同学，知道如何从视频中分离音频，但不想要音频中的人声/伴奏

针对以上的需求，我们打算开发音频分离功能

视频分析：
对于视频中的人脸进行提取和分析，（为什么是人脸呢？因为数据集好找一些，后期项目可能会加入提取其他对象的功能）

在一些场景下，我们想要捕获某个/某些在视频中出现人物，这时我们就会向港片里警察为了抓疑犯看监控一样将一段视频反复、仔细地看，这不仅耗时而且费力

针对以上需求，我们打算开发视频提取功能

2. A（Approach 做法）

音频：python有许多的音频提取工具，同时已有模型来处理这样的问题：Open-Unmix D3Net Demucs Spleeter等模型。一篇近期论文提出了一个音频分离模型，样例代码使用pytorch实现的，我们尝试将模型实现
视频：OpenCV+卷积神经网络（我们准备使用ResNet18作为模型）

3. B（Benefit 好处）

Web应用，用户可以随时随地使用我们的软件
用户可以轻松获取对音频、视频的提取与分析结果
对我们来说，这是一次很好的锻炼机会，能将深度学习用于实际项目，同时也是对网页制作和基本代码的锻炼
没有VIP，不赚钱，图个开心

4. C (Competitors 竞争)

说实话，视频、音频处理在市场上已经有比较成熟的软件了，这是竞争较大的方面；然而，这些软件一般都被嵌入在较大的视频（音频）处理软件内，多数用户只是偶尔需要使用这样的服务，不愿意专门下载软件，因此在大众方面竞争较少（根据搜索目前在线分离视频/音频的网站较少）

为了提高竞争力，同时吸引更多人使用，我们的软件具有以下特点：

无需注册，可直接使用
优化模型，音频分离的质量更好
功能全面，对于视频提取，将提供3种（至少）分析模式：扫描（完全抓取视频中出现的所有人脸）、过滤（对所有对象仅保留一张照片）、追踪（注重提取与用户提供的图片相似度最高的对象）

5. D（Delivery 交付）

免费的宣传渠道不多，除了能在校园内吆喝一嗓子（通过公众号和QQ群）之外，可以尝试在CSDN上通过博客宣传

电梯演说

为什么我们不能对媒体文件进行分离呢？我们已习惯于将一段视频当做一段视频，将一段音乐当成一段音乐，而忽略了其是可以被分离、处理的，我们完全可以从中提取出自己最想要的那部分。我们的软件可以帮大家轻松的、快速的完成任务，只要将需要分离的媒体文件上传，就可以得到您想要的结果。

posted @ 2021-10-30 21:00 ouc_software2021 阅读(78) 评论(0) 收藏举报

刷新页面返回顶部

ouc_software2021