用于 AI 和 ML 的现代数据湖参考架构

love · 发表于 2024-4-3 04:59:52

组织不应只建立专门用于人工智能的基础设施，而让数据分析和数据科学等工作自生自灭。

译自 Architect’s Guide to a Reference Architecture for an AI/ML Data Lake，作者 Keith Pijanowski。

在企业人工智能中，有两种主要类型的模型：判别式和生成式。判别式模型用于对数据进行分类或预测，而生成式模型用于创建新数据。尽管生成式 AI 近来占据新闻头条，但企业仍在追求这两种类型的 AI。
判别式 AI 对于希望更有效地运营并追求额外收入流的企业来说仍然是一项重要的举措。这些不同类型的 AI 有很多共同点，但在构建 AI 数据基础设施时必须考虑重大差异。
企业不应只构建专门用于 AI 的基础设施，而让数据分析和数据科学等工作自生自灭。构建一个完整的数据基础设施是可能的，该基础设施支持组织的所有需求——数据分析、数据科学、判别式 AI 和生成式 AI。

现代数据湖
让我们从定义一个现代数据湖开始，因为这将作为我们参考架构的基础。此架构并非“回收”的；相反，它反映了广泛适用的工程优先原则。
现代数据湖一半是数据仓库，一半是数据湖，并且对所有内容都使用对象存储。将对象存储用于数据湖非常有意义，因为对象存储适用于非结构化数据，而数据湖就是用来存储非结构化数据的。
然而，虽然将对象存储用于数据仓库听起来可能很奇怪，但以这种方式构建的数据仓库代表了下一代数据仓库。这得益于 Netflix、Uber 和 Databricks 编写的开放表格式规范 (OTF)，它使在数据仓库中无缝使用对象存储成为可能。
OTF 是 Apache Iceberg、Apache Hudi 和 Delta Lake。从本质上讲，它们以不同的方式定义了可以在对象存储之上构建的数据仓库。对象存储提供了其他存储解决方案无法比拟的规模和性能的组合。（这通常被称为“规模化性能”。）
由于这些是现代规范，因此它们具有旧式数据仓库所没有的高级功能，例如分区演进、模式演进和零拷贝分支。
最后，由于数据仓库是使用对象存储构建的，因此你可以将同一对象存储用于图像、视频文件、音频文件和文档等非结构化数据。MLOps 工具将使用同一对象存储用于模型检查点、日志文件和数据集。非结构化数据通常存储在业界称为数据湖中。
将对象存储用作数据湖和数据仓库的基础，可以得到一个能够容纳所有数据的解决方案。结构化存储驻留在基于 OTF 的数据仓库中，非结构化存储驻留在数据湖中。对象存储的同一实例可用于两者。
在 MinIO，我们将这种基于 OTF 的数据仓库和数据湖的组合称为现代数据湖，我们将其视为所有 AI 和 ML 工作负载的基础。这是收集、存储、处理和转换数据的地方。使用判别式 AI（监督式、无监督式和强化学习）训练模型通常需要一个能够处理可以驻留在数据仓库中的结构化数据的存储解决方案。
另一方面，如果你正在训练大型语言模型 (LLM)，则必须在数据湖中以原始和处理过的形式管理非结构化数据或文档。

来源：现代数据湖参考架构
这篇文章重点介绍了现代数据湖参考架构中支持不同 AI 和 ML 工作负载的那些领域——特别是判别式 AI 和生成式 AI。
判别式 AI
判别式 AI 模型需要各种类型的数据进行训练。图像分类和语音识别的模型将以图像和音频文件形式使用非结构化数据。另一方面，欺诈检测和医疗诊断的模型根据结构化数据进行预测。让我们看看现代数据湖中可用于存储和处理判别式 AI 所需数据的选项。
非结构化数据的存储
非结构化数据将驻留在数据湖中，在那里可用于训练和测试模型。可以放入内存的训练集可以在训练之前加载（在 epoch 循环开始之前）。但是，如果训练集很大且无法放入内存，则必须在训练之前加载对象列表，并在 epoch 循环中处理每个批次时检索实际对象。如果你没有使用高速网络和高速磁盘驱动器构建数据湖，这可能会给你的数据湖带来压力。
如果你正在使用无法放入内存的数据训练模型，那么我们强烈建议使用 100 GB 网络和非易失性存储器 (NVMe) 驱动器构建数据湖。
检索增强生成 (RAG)
检索增强生成 (RAG) 是一种从所问问题开始的技术。它使用向量数据库将问题与附加数据匹配，然后将问题和数据传递给 LLM 以进行内容创建。使用 RAG，不需要培训，因为我们通过向 LLM 发送来自我们高质量文档语料库的相关文本片段来对其进行教育。

它使用一个问答任务，其工作原理如下：用户在您应用程序的用户界面中提出问题。您的应用程序将获取问题——特别是其中的单词——并使用向量数据库，在您高质量文档的语料库中搜索在上下文上相关的文本片段。这些片段和原始问题将被发送到 LLM。提示
整个包——问题加片段（上下文）——称为提示。LLM 将使用此信息生成您的答案。这看起来似乎是一件愚蠢的事情。如果您已经知道答案（片段），为什么还要费心使用 LLM？请记住，这是实时发生的，目标是生成您可以复制并粘贴到研究中的文本。您需要 LLM 来创建包含来自自定义语料库信息的文本。
这比微调复杂。但是，由于在推理时从向量数据库中选择了文档（或文档片段），因此可以实现用户授权。文档中的信息永远不会成为模型参数参数的一部分。RAG 的优缺点如下。
缺点

推理流程更复杂。

优点

LLM 直接从您的自定义语料库中获取知识。
可以解释。
无需微调。
幻觉显着减少，并且可以通过检查向量数据库查询的结果来控制。
可以实现授权。

结论
这篇文章概述了我们在与企业合作构建 AI 数据基础设施方面的经验。它确定了核心组件、关键构建模块和不同 AI 方法的权衡。基础元素是建立在对象存储之上的现代数据湖。对象存储必须能够大规模提供性能，其中规模为数百 PB，通常为 EB。
通过遵循此适用于 AI 和 ML 的现代数据湖参考架构，我们预计用户将能够构建灵活、可扩展的数据基础设施，虽然针对 AI 和 ML，但在所有联机分析处理 (OLAP) 工作负载上都将具有同等的性能。要获得有关组件部分的具体建议，请随时通过 keith@min.io 与我联系。

		自动登录	找回密码
密码			立即注册

[理论] 用于 AI 和 ML 的现代数据湖参考架构

浏览过的版块