[提取特定人音频的方法]音频特征提取

 admin   2022-09-27 12:32   107 人阅读  0 条评论

当领到许多音视频统计数据后,是不是对那些统计数据展开处置呢?接下去他们介绍呵呵是不是用许多特点来叙述音视频统计数据。

是两个讯号记号变动的比例。即,在每帧中,音频讯号从正转变成负或从负转变成正的单次,那个特点已在音频辨识和音乐创作索引应用领域获得应用,通常来说对类似于合金、流行乐等高震撼力的人声具备更高的商业价值。通常情况下,过零率越大,振幅近似于越高。

Python同时实现

运转结论如下表所示

是叙述声线特性的关键力学模块众所周知,是振幅成份的关注点,是在很大振幅范围内透过潜能加权平均的振幅,其基层单位是Hz。它是振幅原产和热量原产的关键重要信息。在直觉交互应用领域,谱转轴叙述了人声的光亮度,具备灰暗、高亢产品品质的人声偏激有非常多高频文本,谱转轴相较较低,具备光亮、嘹亮产品品质的绝大多数分散在高频,谱转轴相较较低

对人声讯号花纹的一类来衡量,则表示高于总频带热量的选定比例的振幅

色度振幅是音乐创作音视频有趣且强大的则表示,其中整个频带被投影到12个区间,代表音乐创作八度音的12个不同的半音。

人的耳朵在接收讯号的时候,不同的振幅会引起耳蜗不同部位的震动。耳蜗就像两个频带仪,自动在做求逆并展开音频讯号的处置。在音频辨识应用领域中MFCC(Mel Frequency Cepstral Coefficents)求逆是最常用的方式,也是本次音视频分类任务中涉及到的求逆方式。

MFCC求逆的步骤

对音频讯号展开分帧处置对周期图法来展开功率谱估计对功率谱用Mel滤波器展开滤波,计算每个滤波器里的热量对每个滤波器的热量区Log展开离散余弦变换(DCT)变换保留DCT的第2-13个系数,去掉其他

本文地址:http://51ac.top/post/36217.html
版权声明:本文为原创文章,版权归 admin 所有,欢迎分享本文,转载请保留出处!

 发表评论


表情

还没有留言,还不快点抢沙发?