6.7 总结
- 数据是推动深度学习革命的关键力量。没有对大型、组织良好的数据集的访问,大多数深度学习应用程序都无法实现。
- Tensorflow.js使用tf.data可以方便地对大型数据集进行流式处理,以各种方式转换数据,并将它们连接到模型以进行训练和预测。
- 可以使用tf.data.Dataset对多种数据对象进行处理:数组、文件或数据生成函数。为创建一个数据集,通过一行代码就可以从远程文件获取数据。
- tf.data.Dataset对象有一个链式API,使得清洗、筛选、批处理、映射和执行机器学习应用程序中的操作变得简单方便。
- tf.data.Dataset以延迟方式访问数据。使用远程数据集变得简单高效,但需要使用异步操作。
- tf.data.Dataset的fitDataset()方法可以直接训练tf.model对象。
- 处理和清理数据需要时间和精力,但对于任何打算投入实际使用的机器学习系统来说,这都是一个必需的步骤。在数据处理阶段检测和管理诸如倾斜、丢失数据和异常值等问题,将节省建模阶段的调试时间。
- 数据扩充可用于扩展数据集,包括以编程方式生成的伪示例。