设计工具
应用程序

人工智能和机器学习需要性能存储:第二部分

美光科技| 2019年3月

沙巴体育安卓版下载人工智能和机器学习的系列文章中, 我向你们介绍了什么是AI和ML, 并介绍了一个高层次的流程概述,介绍了数据如何被转换并用于人工智能系统创建“智能”响应. 在那个博客里, 我们解释了必须如何从多个不同的来源摄取大量数据,然后将其转换为可用的格式,用于人工智能过程的下一步:训练.

\r\n

这就是我们今天第二部分要讲的内容. 提醒一下, 下图代表了一个典型的AI工作流,它由四个主要组件组成:摄取, 变换, 火车, 和执行. 在上一篇博客中, 我们介绍了摄取和转换过程,因为它们通常会在数据准备用于人工智能训练过程时一起发生.

\r\n"}}' id="text-dba27cf8ec">

人工智能和机器学习需要高性能存储系列, 第二部分:培训

以前的博客 在我沙巴体育安卓版下载人工智能和机器学习的系列文章中, 我向你们介绍了什么是AI和ML, 并介绍了一个高层次的流程概述,介绍了数据如何被转换并用于人工智能系统创建“智能”响应. 在那个博客里, 我们解释了必须如何从多个不同的来源摄取大量数据,然后将其转换为可用的格式,用于人工智能过程的下一步:训练.

这就是我们今天第二部分要讲的内容. 提醒一下, 下图代表了一个典型的AI工作流,它由四个主要组件组成:摄取, 变换, 火车, 和执行. 在上一篇博客中, 我们介绍了摄取和转换过程,因为它们通常会在数据准备用于人工智能训练过程时一起发生.

AI训练1

培训步骤通常是流程中资源极其密集的一部分, 尽管我们将在以后的博客文章中看到, 推断可能需要更多的资源. 这是真正强大的硬件, 通常以图形处理单元(gpu)的形式,具有大量快速内存, 使用. 工作流的训练阶段涉及一组重复的步骤,这些步骤对所摄取的数据执行一组数学函数,旨在以高概率识别所需的响应/结果. 然后评估结果的准确性. 如果精度不能高到可以接受的程度(通常意味着在95%以上的范围内),则修改数学函数,然后通过将更新应用于相同的数据集再次尝试.

人工智能训练3

典型AI用例的典型例子是简单的图像识别. 在这个例子中,最著名的图像识别模型和测试数据集被称为 ImageNet 还有一组函数叫做 ResNet. 我不会在这里详细介绍,但是ImageNet训练数据集是1.200万张图片,占用145GB的数据存储空间. ResNet具有不同程度的复杂性, 但通常使用的是ResNet-50(也有ResNet-101和-152). 这个数字代表了被称为“神经元”的不同数学函数的神经网络“层”的数量(也代表了人工智能模型的复杂性)。.

So, 这和我们在美光公司非常感兴趣的存储和内存方面的讨论有什么关系呢? 好吧, 培训过程-就像之前的摄取/转换阶段一样-可能是一个耗时且复杂的过程. 但不像摄取/转化阶段, 列车阶段依赖于高性能计算来执行数学函数.

在我们的测试中,我们发现解决方案可用的快速存储和内存数量直接影响完成给定训练运行所需的时间. 我们越快地完成每次训练(称为一个epoch), 我们可以执行的时代越多,我们的人工智能系统就越准确,同时保持相对较低的训练时间. 因此,虽然我们可以使用hdd来存储训练数据,但旋转媒体确实很慢. gpu获取数据的速度不够快,无法及时完成训练纪元. ssd通常比hdd快几个数量级(在IOPS和延迟方面). 出于这个原因, 这似乎是合乎逻辑的,如果我们能更快地满足培训系统, 这样我们就可以更快地完成工作.

也, 如果我们可以增加每个epoch的数据量(我们称之为“批处理”),那么我们可以更快地运行每个epoch以获得相同的结果. 因此,我们可以在系统中放入的内存越多越好. 但是,虽然我们可以在服务器中放入2TB或更多的DRAM,但这可能非常昂贵. 大多数组织都在不断地平衡成本和效率. 根据我们的测试, 我们认为,专注于更快的存储(ssd),并以更低的价格这样做,会有更好的结果. ssd每字节的成本低于DRAM.

美光人工智能工程师韦斯·瓦斯克(Wes Vaske)进行了一些测试,证明了这一点. 而 他的博客最近与Forrester的网络研讨会 深入了解他的测试细节, 他的一些结果说明了快速或缓慢的存储和记忆对人工智能训练过程的影响. Wes的测试和图表清楚地表明,快速存储对整体性能的影响与简单地增加内存一样大. 这可以通过查看两个“低内存”值来说明,并将“快速磁盘/低内存”条(第三条)与“慢磁盘/高内存”条(第二条)进行比较。. 在这个例子中, 购买更快的存储, 额外的内存, 或者两者都对整体性能产生巨大影响. 找到这两种资源的适当平衡将取决于您想要执行的数据集和模型.

人工智能训练2

过去的测试表明,人工智能训练直接受到计算资源的影响——比如添加gpu, 但这个测试证明,即使使用相同的CPU/GPU组合,内存和存储资源也会对AI性能产生直接影响. 美光拥有独一无二的优势,能够帮助您在人工智能领域取得成功. 虽然我们不能把所有的变量都考虑到你特定的人工智能建模要求, 我们使用ResNet-50进行的测试很好地说明了存储和内存对人工智能工作负载的重要性. 我鼓励大家 从韦斯的博客上了解详情 为了学到更多.

访问 微米.com/AI.

与我们保持联系 Linkedin.