众所周知,抚子的女友一直是个谜题,在剧场版里她的女友也是说了一次话
为了探究抚子的女友究竟是谁
首先处理音频,我把女友的声音放大并用uvr5提取人声
最开始我是直接通过对音频信号进行短时傅里叶变换,计算其频谱图,然后将频谱图映射到Mel尺度,最后计算Mel频谱图的倒谱系数,使用PyTorch的F.cosine_similarity函数,计算目标音频与其他音频的相似度,使用matplotlib库中的plt.bar函数绘制柱状图(图一)
从图可知音频的相似度过于的高,都集中在一个部分0.88到0.89之间,于是我在GitHub上找了一个基于Pytorch声纹识别的项目,并且对他们三的声音重新训练了一个模型。通过新的模型计算的余弦相似度可得到下图(图二)
但是不能这么肤浅得出结论,于是在剧中又提取了各30句来进行比对,最终得出女友说话声音相似度最高的是惠,如图(图3)
所以女友很有可能是惠(仅供娱乐,我也不知道这个识别到底准不准呢)
下面贴一个GitHub项目链接 https://github.com/yeyupiaoling/VoiceprintRecognition-Pytorch?
为了探究抚子的女友究竟是谁
首先处理音频,我把女友的声音放大并用uvr5提取人声
最开始我是直接通过对音频信号进行短时傅里叶变换,计算其频谱图,然后将频谱图映射到Mel尺度,最后计算Mel频谱图的倒谱系数,使用PyTorch的F.cosine_similarity函数,计算目标音频与其他音频的相似度,使用matplotlib库中的plt.bar函数绘制柱状图(图一)
从图可知音频的相似度过于的高,都集中在一个部分0.88到0.89之间,于是我在GitHub上找了一个基于Pytorch声纹识别的项目,并且对他们三的声音重新训练了一个模型。通过新的模型计算的余弦相似度可得到下图(图二)
但是不能这么肤浅得出结论,于是在剧中又提取了各30句来进行比对,最终得出女友说话声音相似度最高的是惠,如图(图3)
所以女友很有可能是惠(仅供娱乐,我也不知道这个识别到底准不准呢)
下面贴一个GitHub项目链接 https://github.com/yeyupiaoling/VoiceprintRecognition-Pytorch?