《5杆大烟枪团队》第5次作业:项目选题

前言

项目名称

媒体分离器/Media Separator

项目简介

这是一个Web应用,用于对媒体(音频,视频)进行处理,主要实现功能有二:

  • 对视频中的人脸(后期可能不限于人脸)进行提取、分析
  • 将音频文件分离为乐器伴奏和人声演唱

NABCD模型分析

1. N(Need 需求)

分离音频:
很多人都遇到过这样的情况:在看电影或者听音乐时,听到了一段十分打动自己的音乐,于是很像将其保存下来,这时:

  • 小白选手,拿手机将其录下来,音质……
  • 有一些基础的同学,知道如何从视频中分离音频,但不想要音频中的人声/伴奏

针对以上的需求,我们打算开发音频分离功能

视频分析:
对于视频中的人脸进行提取和分析,(为什么是人脸呢?因为数据集好找一些,后期项目可能会加入提取其他对象的功能)

在一些场景下,我们想要捕获某个/某些在视频中出现人物,这时我们就会向港片里警察为了抓疑犯看监控一样将一段视频反复、仔细地看,这不仅耗时而且费力

针对以上需求,我们打算开发视频提取功能

2. A(Approach 做法)

音频:python有许多的音频提取工具,同时已有模型来处理这样的问题:Open-Unmix D3Net Demucs Spleeter等模型。一篇近期论文提出了一个音频分离模型,样例代码使用pytorch实现的,我们尝试将模型实现
视频:OpenCV+卷积神经网络(我们准备使用ResNet18作为模型)

3. B(Benefit 好处)

  • Web应用,用户可以随时随地使用我们的软件
  • 用户可以轻松获取对音频、视频的提取与分析结果
  • 对我们来说,这是一次很好的锻炼机会,能将深度学习用于实际项目,同时也是对网页制作和基本代码的锻炼
  • 没有VIP,不赚钱,图个开心

4. C (Competitors 竞争)

说实话,视频、音频处理在市场上已经有比较成熟的软件了,这是竞争较大的方面;然而,这些软件一般都被嵌入在较大的视频(音频)处理软件内,多数用户只是偶尔需要使用这样的服务,不愿意专门下载软件,因此在大众方面竞争较少(根据搜索目前在线分离视频/音频的网站较少)

为了提高竞争力,同时吸引更多人使用,我们的软件具有以下特点:

  • 无需注册,可直接使用
  • 优化模型,音频分离的质量更好
  • 功能全面,对于视频提取,将提供3种(至少)分析模式:扫描(完全抓取视频中出现的所有人脸)、过滤(对所有对象仅保留一张照片)、追踪(注重提取与用户提供的图片相似度最高的对象)

5. D(Delivery 交付)

免费的宣传渠道不多,除了能在校园内吆喝一嗓子(通过公众号和QQ群)之外,可以尝试在CSDN上通过博客宣传

电梯演说

为什么我们不能对媒体文件进行分离呢?我们已习惯于将一段视频当做一段视频,将一段音乐当成一段音乐,而忽略了其是可以被分离、处理的,我们完全可以从中提取出自己最想要的那部分。我们的软件可以帮大家轻松的、快速的完成任务,只要将需要分离的媒体文件上传,就可以得到您想要的结果。

posted @ 2021-10-30 21:00  ouc_software2021  阅读(74)  评论(0)    收藏  举报