Google 的 Vertex AI 是一个基于 Google Cloud 的平台,企业家、开发者和 AI 研究人员可以使用它来管理他们的 AI 项目。我们在之前的文章“ Google Vertex AI:加速 AI 开发及更多”中详细讨论了整个 Vertex AI 生态系统的架构。
本文将讨论 Vertex AI 中的托管 ML 数据集以及如何使用它们来创建生成式 AI 应用程序。我们将在此介绍以下主题:
什么是托管数据集?
托管数据集是在 Vertex AI 框架内工作的数据集。您需要它们进行 AutoML 训练(和 Gemini 训练),但不需要它们进行自定义模型训练。
但是,通过提供多种功能,管理数据库 推特数据 可以减少您在 Vertex 生态系统中的工作量。托管数据库的好处包括:
1. 您可以从集中位置管理您的数据集。
2.您可以轻松创建标签和多个注释集。
3.可以创建人工标记的任务。
4.您可以根据AI模型跟踪该数据库的谱系,以进行迭代和训练。
5. 您可以使用相同的数据集训练多个模型来比较AI模型的性能。
您可以生成统计数据
7.Vertex 允许您将数据集分成训练、测试和验证数据。
这些功能可让您使用所需的任何数据集在 Vertex AI 上以本地方式端到端运行您的 AI 项目。您还可以使用 Google 提供的数据集来训练您的模型并检查其性能。
但是,您可以访问的数 的出价调整来优化您的地理位置效果 据库将取决于数据集的服务器位置。由于训练和迭代的速度取决于您与所选服务器的物理距离,因此建议您选择距离项目所需的模型和训练数据集最近的位置。
现在,让我们讨论如何创建数据集。
如何为 Vertex AI 准备数据集?
可以使用Google Cloud Platform (GCP)或 Google Vertex API 创建 Vertex AI 的托管数据集。您的流程将根据您使用的数据类型和要执行的操作而有所不同。
对于导入的每个数据集,您需要一个结构 短信列表 化的 JSON 或 CSV 文件,将数据放入结构中并允许注释。
准备图像数据集用于分类的图像数据集
分类任务是自动标记图像并识别特征的任务。例如,分类任务可能是找出照片中花朵的种类。让我们来谈谈训练此类模型所需的数据。
输出图像将遵循相同的文件格式,但如果需要,这些模型也可以训练以输出 TIFF 和 WEBP 文件。
注意:另外,请记住您的文件需要采用 Base64 编码。
准备数据
现在,我们将准备用于单标签分类的图像。您需要遵循如下 JSON 格式:回归任务用于预测连续的数值数据,因此如果您想将房价与数据关联起来。