# 卷积神经网络识别图像和声音
内容包括:
- 图像和其他感知数据(例如音频)如何表示为多维张量
- 什么是卷积神经网络(convnet),它们如何工作以及它们为什么特别适合图像的机器学习任务
- 如何在 TensorFlow.js 中编写和训练卷积网络以解决对数字进行分类的任务
- 如何在 Node.js 中训练模型以实现更快的训练速度
- 如何在音频数据上使用卷积网络以进行语音识别
深度学习革命始于诸如 ImageNet 竞赛之类的图像识别任务的突破。 从图像的识别到将图像分割,从对象定位到图像定位,再到图像合成,都存在关于图像的各种有用且在技术上有趣的问题。 机器学习的这个子领域有时称为计算机视觉[61]。 计算机视觉技术通常被移植到与视觉或图像无关的领域(例如自然语言处理),这也是研究深度学习计算机视觉的重要原因之一[62]。 但是在研究计算机视觉问题之前,我们需要讨论深度学习中图像的表示方式。