2024 年 7月随笔档案 - 小马同学..3

音频编码基础详解

摘要：音频编码是将音频信号转换成数字数据的过程，使其能够在计算机系统中存储、处理和传输。音频编码的目的是在保持音质的同时，尽可能地减少数据量。以下是音频编码的详细讲解：音频编码的基本原理采样：将连续的模拟音频信号转换成离散的数字信号。每秒钟对音频信号进行的采样次数称为采样率。采样率的选择决定了能够阅读全文

posted @ 2024-07-28 12:47 小马同学..3 阅读(444) 评论(0) 推荐(0)

PCM与WAV

摘要：PCM (Pulse Code Modulation) 原理与工作机制模拟信号采样：PCM 的工作流程始于对模拟信号的采样。在固定的时间间隔内，对模拟信号的幅度进行测量，这个过程称为采样。采样的频率称为采样率。量化：将每个采样点的幅度值转化为一个离散的数字值。量化过程中会引入一定的误差，称为量化阅读全文

posted @ 2024-07-28 12:42 小马同学..3 阅读(202) 评论(0) 推荐(0)

视频解码基础讲解

摘要：视频解码流程视频解码的具体步骤如下：查找指定的解码器 avcodec_find_decoder 根据指定的解码器ID初始化相应裸流的解析器 av_parser_init 分配解码器上下文 avcodec_alloc_context3 打开解码器和关联解码器上下文 avcodec_open2 读取阅读全文

posted @ 2024-07-28 12:33 小马同学..3 阅读(110) 评论(0) 推荐(0)

音频解码基础讲解

摘要：音频解码流程音频解码的总体流程如下：输入音频格式（例如AAC）通过音频解码器进行解码得到PCM数据 FFmpeg解码流程音频解码的具体步骤如下：查找指定的解码器 avcodec_find_decoder 根据指定的解码器ID初始化相应裸流的解析器 av_parser_init 分配解码器阅读全文

posted @ 2024-07-28 12:25 小马同学..3 阅读(160) 评论(0) 推荐(0)

梅尔频谱图（Mel Spectrogram）和梅尔频率倒谱系数（MFCC）

摘要：梅尔频谱图（Mel Spectrogram）和梅尔频率倒谱系数（MFCC）之间有着密切的关系。MFCC可以看作是梅尔频谱图的进一步处理和特征提取。以下是两者之间关系的详细讲解： 1. 梅尔频谱图 (Mel Spectrogram) 梅尔频谱图是将音频信号的频谱表示转换到梅尔频率标度上，并通过一组梅尔阅读全文

posted @ 2024-07-26 13:34 小马同学..3 阅读(1334) 评论(0) 推荐(0)

MFCC（梅尔频率倒谱系数）

摘要：MFCC（Mel-Frequency Cepstral Coefficients，梅尔频率倒谱系数）是音频信号处理中的一种重要特征，用于捕捉音频信号的频谱特征。MFCC广泛应用于语音识别、音乐信息检索、声纹识别等领域。以下是MFCC的详细讲解： 1. 背景人耳对不同频率的声音感知是非线性的，特别是阅读全文

posted @ 2024-07-25 08:37 小马同学..3 阅读(774) 评论(0) 推荐(0)

Mbps 及其相关单位详细讲解

摘要：1. 定义和基本单位 Mbps：全称为“Megabits per second”，即每秒传输百万比特（Megabit）的数据量。它是数据传输速率的一个常用单位。比特（bit）：最小的信息单位，用“b”表示。字节（Byte）：8个比特组成一个字节，用“B”表示。千比特（Kbps）：每秒传输千比特阅读全文

posted @ 2024-07-23 21:12 小马同学..3 阅读(1361) 评论(0) 推荐(0)

数据线线损和长度对数据传输和网络传输的影响

摘要：数据线的线损和长度是影响数据传输和网络传输质量的重要因素。以下是详细展开讲解： 1. 信号衰减（Attenuation）定义：信号衰减是指信号在传输过程中能量逐渐减少的现象，主要原因是电阻和电容效应。电阻：数据线内部材料的电阻会消耗部分信号能量，尤其在长距离传输中更为明显。电容效应：线缆内部和阅读全文

posted @ 2024-07-23 21:08 小马同学..3 阅读(457) 评论(0) 推荐(0)

AD模数转换（ADC）在音频处理中的详细深度讲解

摘要：AD模数转换（Analog-to-Digital Conversion，简称ADC）是将模拟信号转换为数字信号的过程。对于音频处理来说，ADC是音频录制、数字音频处理和传输的关键步骤。以下是对AD模数转换在音频方面的详细讲解： 1. ADC的基本原理 ADC的过程包括以下几个步骤：采样（Sampl 阅读全文

posted @ 2024-07-23 21:02 小马同学..3 阅读(695) 评论(0) 推荐(0)

FLV（Flash Video）

摘要：FLV（Flash Video）是一种用于通过互联网传输视频和音频的文件格式。以下是对FLV文件格式的详细讲解： 1. FLV Header FLV文件头部包含文件的基本信息，是文件的开头部分，通常占据9个字节。其结构如下： Signature (3 bytes): 表示文件类型，固定为 "FLV" 阅读全文

posted @ 2024-07-23 20:58 小马同学..3 阅读(309) 评论(0) 推荐(0)

H264 NALU

摘要：H.264 是一种广泛使用的视频压缩标准，全称是MPEG-4 Part 10 AVC（Advanced Video Coding）。它通过有效的压缩技术，能够在较低的比特率下提供高质量的视频。以下是对H.264的一些关键概念和工作原理的详细讲解： 1. 编码原理 H.264采用帧内和帧间预测技术来压阅读全文

posted @ 2024-07-23 20:31 小马同学..3 阅读(158) 评论(0) 推荐(0)

16kHz音频用8kHz播放及 8kHz音频用16kHz播放

摘要：在音频处理中，采样率是一个重要的参数，决定了音频信号的质量和带宽。采样率越高，能够捕捉到的音频细节越多。然而，如果音频的播放采样率与其录制采样率不匹配，会出现一些现象和问题。 16kHz音频用8kHz播放现象音频变速（变慢）：16kHz的音频用8kHz播放时，播放速度会变成原来的1/2，即播放时阅读全文

posted @ 2024-07-22 21:34 小马同学..3 阅读(119) 评论(0) 推荐(0)

字节（byte）与位（bits）

摘要：基本概念 Bit（位）: 是计算机数据的最小单位。它只有两种取值，0或1。 Byte（字节）: 是计算机存储数据的基本单位。1字节 = 8位。在数据通信和存储中，数据的大小通常用字节来表示，而在描述数据的详细结构（例如协议头）时，通常使用位。字节与位的关系 1 字节 = 8 位 (1 Byte 阅读全文

posted @ 2024-07-22 21:30 小马同学..3 阅读(438) 评论(0) 推荐(0)

AAC ADTC

摘要：AAC音频格式: Advanced Audio Coding（高级音频解码）是一种由MPEG-4标准定义的有损音频压缩格式，由Fraunhofer发展，Dolby，Sony和AT&T是主要的贡献者。 AAC是一种高效的音频编码格式，设计用于提供比MP3更好的音频质量，同时使用更少的存储空间。它广泛应阅读全文

posted @ 2024-07-22 21:26 小马同学..3 阅读(187) 评论(0) 推荐(0)

驻极体电容麦克风的声信号转电信号、模拟信号转数字信号

摘要：驻极体电容麦克风（Electret Condenser Microphone, ECM）是一种常见的声音传感器，广泛应用于手机、计算机、录音设备等。它将声信号转换为电信号，然后通过模数转换器（ADC）将模拟信号转换为数字信号。以下是详细的讲解：一、声信号转化为电信号驻极体材料：驻极体材料是具有永阅读全文

posted @ 2024-07-22 17:40 小马同学..3 阅读(257) 评论(0) 推荐(0)

4mic阵列基础讲解

摘要：概述 4麦克风线性阵列是指在一条直线上等间距排列的四个麦克风，用于拾取声源信号。它常用于语音识别、会议系统、远场语音交互等应用。通过信号处理技术，4麦克风线性阵列可以提高语音信号的质量，抑制噪声和混响，提高语音识别的准确率。组成结构麦克风阵列：由四个麦克风组成，通常是全向麦克风，均匀排列在一条直阅读全文

posted @ 2024-07-21 19:09 小马同学..3 阅读(446) 评论(0) 推荐(0)

数据共享（浅拷贝）与数据独立（深拷贝）

摘要：在FFmpeg中，数据共享和数据独立的区别在于浅拷贝和深拷贝的使用。让我们详细探讨这两个概念及其在FFmpeg内存模型中的实现。数据共享（浅拷贝）浅拷贝是指在拷贝对象时，只拷贝对象的引用，而不拷贝实际的数据内容。对于FFmpeg中的AVPacket来说，浅拷贝意味着两个Packet共享同一个数据阅读全文

posted @ 2024-07-21 19:05 小马同学..3 阅读(68) 评论(0) 推荐(0)

ffmpeg内存模型

摘要：FFmpeg内存模型在FFmpeg中，当从现有的Packet拷贝一个新Packet时，有两种情况：数据共享：两个Packet的buf引用的是同一数据缓存空间。这种情况下，需要注意数据缓存空间的释放问题。一个数据块同时被两个AVPacket（avpacket1和avpacket2）引用。此时阅读全文

posted @ 2024-07-21 19:01 小马同学..3 阅读(58) 评论(0) 推荐(0)

ffmpeg解码基本流程

摘要：1. 分配解码器上下文 AVCodecContext *avcodec_alloc_context3(const AVCodec *codec); 首先，需要为解码器分配一个上下文，这一步通过avcodec_alloc_context3函数完成。这个函数会返回一个指向AVCodecContext结构阅读全文

posted @ 2024-07-21 18:48 小马同学..3 阅读(183) 评论(0) 推荐(0)

ffmpeg基本结构

摘要：FFmpeg 是一个领先的多媒体框架，可以解码、编码、转码、mux、demux、流、过滤和播放几乎任何由人类和机器创造的内容。它支持最晦涩的古老格式到最尖端的格式。图中展示了FFmpeg的整体结构，分为多个组件，每个组件在多媒体处理流程中扮演特定角色。以下是对每个组件的详细讲解：顶层组件 ffpl 阅读全文

posted @ 2024-07-21 17:38 小马同学..3 阅读(66) 评论(0) 推荐(0)

封装C项目为dll

摘要：这是头文件，定义了一个接口 MyHeader.h。 #ifndef MYHEADER_H #define MYHEADER_H // 定义导出DLL函数的宏 #define MY_API __declspec(dllexport) #ifdef __cplusplus extern "C" { // 阅读全文

posted @ 2024-07-21 16:24 小马同学..3 阅读(26) 评论(0) 推荐(0)

封装C++项目为dll

摘要：这是头文件，定义了一个接口类 IMyInterface。 #pragma once #ifndef MY_INTERFACE_H #define MY_INTERFACE_H #define _CRT_SECURE_NO_WARNINGS #define MY_DLL_API __declspec( 阅读全文

posted @ 2024-07-14 16:49 小马同学..3 阅读(62) 评论(0) 推荐(0)

lib与dll（静态库与动态库）

摘要：在计算机软件开发中，lib 和 dll 是两种不同的库文件类型，用于代码共享和模块化。以下是它们的详细解释：静态库 (Static Library - .lib) 特点文件扩展名：通常为 .lib (在Windows上) 或 .a (在Unix/Linux系统上)。编译时间链接：静态库在编译时阅读全文

posted @ 2024-07-14 15:38 小马同学..3 阅读(131) 评论(0) 推荐(0)

TUTK详解

摘要：TUTK (ThroughTek) 是一家提供物联网 (IoT) 连接解决方案的公司，其技术广泛用于各种设备之间的远程连接和通信。通过 TUTK 技术，用户可以轻松地在固件和移动应用程序 (App) 之间建立连接，实现远程控制和数据传输。以下是对 TUTK 技术的详细讲解：基本概念 TUTK 技术阅读全文

posted @ 2024-07-12 18:26 小马同学..3 阅读(815) 评论(0) 推荐(0)

G711详解

摘要：G.711 是一种常用的音频编码标准，主要用于电话和 VoIP (Voice over IP) 系统。它由国际电信联盟 (ITU-T) 在 1972 年制定，是一种脉冲编码调制 (PCM) 技术。G.711 有两个变种：A-law 和 μ-law，分别在不同的地区使用。以下是对 G.711 编码的详阅读全文

posted @ 2024-07-12 18:22 小马同学..3 阅读(392) 评论(0) 推荐(0)

TCP与UDP

摘要：TCP（Transmission Control Protocol）什么是TCP？ TCP 是一种面向连接的、可靠的传输层协议，用于在计算机网络中传输数据。它确保数据能够按照发送顺序到达目的地，并且不丢失，确保了数据的完整性和顺序性。详细解释： TCP 在传输数据之前，首先在发送端和接收端之间建阅读全文

posted @ 2024-07-12 18:05 小马同学..3 阅读(25) 评论(0) 推荐(0)

iperf详解

摘要：iperf 是一个网络性能测试工具，用于测量带宽和网络延迟等性能参数。它可以在两台计算机之间进行测试，一台作为服务器，另一台作为客户端。下面是一些关键的详细讲解：功能：带宽测试：iperf 可以测量两台计算机之间的带宽，即数据传输速度。延迟测试：可以测量数据从一个计算机到另一个计算机的往返时间阅读全文

posted @ 2024-07-12 18:04 小马同学..3 阅读(280) 评论(0) 推荐(0)

模拟增益（Analog Gain）、数字增益（Digital Gain）

摘要：在WebRTC中，模拟增益和数字增益是两种增强音频信号的技术，它们在确保通话质量中扮演着重要角色。下面我将详细解释这两种增益的概念及其作用。模拟增益（Analog Gain）模拟增益是在模拟信号处理阶段调整信号强度的过程。模拟增益通常在音频信号被转换为数字信号之前，在麦克风放大器级别进行调整。增阅读全文

posted @ 2024-07-10 18:26 小马同学..3 阅读(700) 评论(0) 推荐(0)

音频带宽控制

摘要：音频带宽控制是音频编码和传输中的关键概念，通过调整带宽，可以在不同的网络条件下优化音频质量和传输效率。Opus编码器具有灵活的带宽控制机制，能够动态调整音频带宽以适应网络条件和应用需求。 1. 带宽（Bandwidth）的定义音频带宽指的是音频信号中包含的频率范围。带宽越宽，包含的音频频率范围越大阅读全文

posted @ 2024-07-10 17:52 小马同学..3 阅读(197) 评论(0) 推荐(0)

码率、采样率与复杂度调整

摘要：在Opus编码器中，码率、采样率和复杂度是关键参数，它们直接影响音频质量、编码延迟和计算复杂度。调整这些参数可以优化Opus编码器的性能，以适应不同的应用需求和网络条件。以下是对这三个参数的详细说明。 1. 码率（Bitrate） 1.1 码率的基本概念码率是指编码后的音频数据在单位时间内的比特数阅读全文

posted @ 2024-07-10 17:52 小马同学..3 阅读(628) 评论(0) 推荐(0)

Opus 的帧结构

摘要：Opus音频编码器在设计上具备灵活性和高效性，它的帧结构能够适应多种应用场景，特别是在实时通信和高质量音频存储方面。以下是Opus的帧结构的详细内容： 1. Opus帧的基本概念 Opus帧是Opus编码器将音频信号编码后的数据单元。每个帧包含编码后的音频数据以及相关的控制信息，用于解码器重建音频信阅读全文

posted @ 2024-07-10 17:52 小马同学..3 阅读(879) 评论(1) 推荐(0)

CELT 和 SILK 两种编码模式

摘要：Opus是一种高效的音频编码格式，广泛应用于实时通信和存储中。Opus结合了两种不同的编码模式：CELT（Constrained Energy Lapped Transform）和SILK（Speech-optimized linear predictive coding）。这两种编码模式在不同的比阅读全文

posted @ 2024-07-10 17:52 小马同学..3 阅读(962) 评论(0) 推荐(0)

频谱分析

摘要：频域分析是信号处理中的重要工具，通过将信号从时间域转换到频域，可以更直观地观察和分析信号的频谱特性。这种转换通常通过傅里叶变换（FT）来实现。以下是频域分析的详细内容。 1. 傅里叶变换（FT）傅里叶变换是将信号从时间域转换到频域的数学工具，适用于连续信号和离散信号。 1.1 连续傅里叶变换（CF 阅读全文

posted @ 2024-07-10 17:52 小马同学..3 阅读(260) 评论(0) 推荐(0)

滤波器设计

摘要：1. 数字滤波器类型 1.1 FIR滤波器（有限冲激响应滤波器） FIR滤波器的输出只依赖于当前和过去有限个输入样本，其冲激响应在有限时间内结束。FIR滤波器的优点包括：线性相位特性固定长度的滤波器系数总是稳定的 FIR滤波器的基本形式为：其中， h[k] 是滤波器系数， x[n] 是输入信阅读全文

posted @ 2024-07-10 17:52 小马同学..3 阅读(148) 评论(0) 推荐(0)

离散傅里叶变换（DFT）和快速傅里叶变换（FFT）

摘要：离散傅里叶变换（DFT）和快速傅里叶变换（FFT）是信号处理和数字信号处理中的基本工具。它们用于将时间域的信号转换为频率域的表示，帮助分析信号的频谱成分。 1. 离散傅里叶变换（DFT） 1.1 DFT的基本概念 DFT是将离散时间信号转换为频域表示的工具。对于长度为 N 的离散信号 x[n]，其D 阅读全文

posted @ 2024-07-10 08:44 小马同学..3 阅读(993) 评论(0) 推荐(0)

opus学习规划

摘要：第一阶段：基础知识学习 1. 数字信号处理 (DSP) 书籍推荐：《数字信号处理导论》 by John G. Proakis 和 Dimitris G. Manolakis 《数字音频信号处理》 by Udo Zölzer 在线课程： Coursera 的 DSP 课程 MIT OpenCours 阅读全文

posted @ 2024-07-10 08:29 小马同学..3 阅读(142) 评论(0) 推荐(0)

dBFS详解

摘要：什么是dBFS？ dBFS（decibels relative to full scale）是描述音频信号在数字系统中的幅度的单位。它表示信号电平相对于数字系统的满刻度（Full Scale）的分贝值。dBFS的满刻度通常被认为是数字音频系统中所能处理的最大电平。 dBFS的计算在数字音频系统中，阅读全文

posted @ 2024-07-09 08:10 小马同学..3 阅读(1262) 评论(0) 推荐(0)

TCP基础

摘要：TCP（传输控制协议，Transmission Control Protocol）是互联网协议套件中的核心协议之一，提供可靠、有序和错误检查的数据传输。以下是对TCP的详细讲解，帮助你理解它的工作原理及其在固件和软件通信中的应用。 1. 基本概念 TCP是一种面向连接的协议，主要特点包括：可靠性：阅读全文

posted @ 2024-07-08 18:42 小马同学..3 阅读(57) 评论(0) 推荐(0)

封装格式与音视频同步

摘要：封装格式（Container Formats）封装格式（也称为容器格式）是指将音频、视频、字幕、元数据等多种数据流封装在一个文件中的文件格式。不同的封装格式支持不同的编码格式和功能特性。以下是一些常见的封装格式及其特点： 1. 常见的封装格式 MP4 (MPEG-4 Part 14) 扩展名: . 阅读全文

posted @ 2024-07-07 20:38 小马同学..3 阅读(158) 评论(0) 推荐(0)

音频基础

摘要：音频基础知识涵盖了音频信号的基本属性、采样和量化、音频格式和编码、音频处理、以及常见的应用场景。以下是音频基础知识的详细输出： 1. 音频信号的基本属性频率（Frequency）定义: 音频信号的频率表示声音的高低，通常以赫兹（Hz）为单位。范围: 人耳能够听到的频率范围大约在20Hz到20k 阅读全文

posted @ 2024-07-07 20:38 小马同学..3 阅读(543) 评论(0) 推荐(0)

视频基础

摘要：视频的基础知识涵盖了视频的构成、格式、编码、传输以及显示技术。以下是视频主要基础的详细输出： 1. 视频的基本构成帧（Frame）视频是由一系列静止图像（帧）按照一定的速率连续播放而成。每一帧是一个静态的图片，快速播放这些帧就形成了连续的动态视频效果。帧率（Frame Rate）帧率指的是每阅读全文

posted @ 2024-07-07 20:38 小马同学..3 阅读(1028) 评论(0) 推荐(0)

图像RGB-YUV

摘要：RGB颜色空间 RGB（Red, Green, Blue）颜色空间是最常见的颜色表示方法，用于大多数显示设备如电视、电脑显示器和相机。每个颜色分量（红、绿、蓝）通常用8位表示，范围从0到255。红色 (R): 表示红色强度绿色 (G): 表示绿色强度蓝色 (B): 表示蓝色强度在RGB颜色空阅读全文

posted @ 2024-07-07 20:37 小马同学..3 阅读(119) 评论(0) 推荐(0)

音视频录制与播放原理

摘要：图片来源于网上学习资料，零声学院！阅读全文

posted @ 2024-07-07 20:37 小马同学..3 阅读(77) 评论(0) 推荐(0)

默认构造函数、参数化构造函数、拷贝构造函数、析构函数

摘要：在C++编程语言中，构造函数和析构函数是用于管理对象生命周期的重要函数。以下是关于默认构造函数、参数化构造函数、拷贝构造函数和析构函数的详细解释及代码示例。默认构造函数默认构造函数是在没有参数的情况下创建对象时调用的构造函数。如果用户没有定义任何构造函数，编译器会提供一个隐式默认构造函数。用户也阅读全文

posted @ 2024-07-07 19:36 小马同学..3 阅读(62) 评论(0) 推荐(0)

public, private, protected 访问权限

摘要：在C++中，封装（Encapsulation）是面向对象编程的一个基本概念。它通过将数据和方法封装在类中来隐藏内部实现细节，并通过访问控制来保护数据的完整性和安全性。C++提供了三种访问控制权限：public、private 和 protected。下面详细介绍这三种访问权限及其用法。 public 阅读全文

posted @ 2024-07-07 19:34 小马同学..3 阅读(180) 评论(0) 推荐(0)

07 2024 档案

公告