语音数据集下载地址汇总-2014世界杯足球-世界杯预选赛积分榜_世界杯直播

❤️【专栏：数据集整理】❤️ 之【有效拒绝假数据】

👋 Follow me 👋，一起 Get 更多有趣 AI、冲冲冲 🚀 🚀

语音数据集下载地址汇总

📔 Acoustic-Phonetic Continuous Speech Corpus【英文】

🔴 数据集链接

🔵 数据集简介

📕 commonvoice [ 中文]

🟧 下载链接

🟨 该链接下载界面如下

🟦 该链接下还可以关注的数据集如下

📗 中文语音数据 - THCHS-30 : A Free Chinese Speech Corpus

📘 一个免费的汉语说话人识别语料库【A Free Chinese Speaker Recognition Corpus】

🔴 数据集介绍

🔵 下载地址

🟣 下载主页

📙 致谢

📔 Acoustic-Phonetic Continuous Speech Corpus【英文】

🔴 数据集链接

TIMIT Acoustic-Phonetic Continuous Speech Corpus GitHub 地址

TIMIT 语料库 kaggle 下载地址，登录Kaggle账号即可下载

🔵 数据集简介

📕 commonvoice [ 中文]

🟧 下载链接

Mozilla 公司的 Common Voice（输入邮箱即可下载）: Mozilla 公司的 Common Voice

🟨 该链接下载界面如下

🟦 该链接下还可以关注的数据集如下

📗 中文语音数据 - THCHS-30 : A Free Chinese Speech Corpus

请直接参考该博文即可：中文语音数据 - THCHS-30

国内主流语音数据库主页：https://openslr.org/resources.php

📘 一个免费的汉语说话人识别语料库【A Free Chinese Speaker Recognition Corpus】

🔴 数据集介绍

这是一个“户外”收集的大规模说话人识别数据集

数据集由两个子集 CN-Celeb1 和 CN-Celeb2 组成。

所有音频文件都被编码为单声道，并以 16kHz 的频率采样，精度为 16 位。

对于 CN-Celeb1，它包含来自 1,000 位中国名人的 130,000 多条话语，并涵盖了现实世界中的 11 种不同类型。

对于 CN-Celeb2，它包含来自 2,000 位中国名人的 520,000 多条话语，涵盖了现实世界中的 11 种不同类型。

数据收集过程由清华大学语音与语言技术中心组织。

数据集详细信息

语种：中文

内容：自由文本

音频参数：16 kHz，16 bits，单通道

数据类型：说话人识别语料库

录音环境：

娱乐、访谈、唱歌、戏剧、电影、视频博客、直播、演讲、电视剧、朗诵和广告

🔵 下载地址

http://cslt.riit.tsinghua.edu.cn/~data/CN-Celeb/

http://www.openslr.org/82/

🟣 下载主页

这里下载了 CN-Celeb1 的 cn-celeb_v2.tar.gz [22G] 数据压缩包，解压查看内容，分析如下

flac 格式音频

查看数据集文件目录

# tree 查看两个层级

tree -L 2

├── 1911.01799.pdf

├── data

│ ├── id00000

│ ├── id00001

│ ├── id00002

│ ├── id00003

│ ├── id00004

│ ├── id00005

│ ├── id00006

...

│ ├── id00996

│ ├── id00997

│ ├── id00998

│ └── id00999

├── dev

│ └── dev.lst

├── eval

│ ├── enroll

│ ├── lists

│ ├── README.TXT

│ └── test

└── README.TXT

1003 directories, 4 files

📙 致谢

文章来源: positive.blog.csdn.net，作者：墨理学AI，版权归原作者所有，如需转载，请联系作者。

原文链接：positive.blog.csdn.net/article/details/105522398