本文我们将通过一个使用Tensorflow对一些声音剪辑进行分类的例子,帮助你了解足够的基础知识,从而能够构建自己的语音识别模型。另外,你也可以通过进一步的学习,将这些概念应用到更大、更复杂的音频文件中。
本案例的完整代码可以在GitHub上获取。
获取数据
数据收集是数据科学中的难题之一。虽然有很多可用的数据,但并不是所有的数据都容易用于机器学习问题。因此必须确保数据是干净的、有标签的和完整的。
为了实现本次案例,我们将使用Google发布的一些音频文件,可以在Github上获取。
首先,我们将创建一个新的Conducto管道。在这里,您可以构建,训练和测试模型,并与其他感兴趣的人共享链接:
####MainPipeline###defmain()-co.Serial:path=/conducto/data/pipelineroot=co.Serial(image=get_image())#Getdatafromkerasfortestingandtrainingroot[GetData]=co.Exec(run_whole_thing,f{path}/raw)returnroot然后,开始编写run_whole_thing功能:
defrun_whole_thing(out_dir):os.makedirs(out_dir,exist_ok=True)#Setseedforexperimentreproducibilityseed=55tf.random.set_seed(seed)np.random.seed(seed)data_dir=pathlib.Path(data/mini_speech_
转载请注明:http://www.0431gb208.com/sjszlff/1751.html