首页 » 如何使用 Vertex AI 管理机器学习数据集

如何使用 Vertex AI 管理机器学习数据集

Google 的 Vertex AI 是一个基于 Google Cloud 的平台,企业家、开发者和 AI 研究人员可以使用它来管理他们的 AI 项目。我们在之前的文章“ Google Vertex AI:加速 AI 开发及更多”中详细讨论了整个 Vertex AI 生态系统的架构。

本文将讨论 Vertex AI 中的托管 ML 数据集以及如何使用它们来创建生成式 AI 应用程序。我们将在此介绍以下主题:

什么是托管数据集?

托管数据集是在 Vertex AI 框架内工作的数据集。您需要它们进行 AutoML 训练(和 Gemini 训练),但不需要它们进行自定义模型训练。 

但是,通过提供多种功能,管理数据库 推特数据 可以减少您在 Vertex 生态系统中的工作量。托管数据库的好处包括:

1. 您可以从集中位置管理您的数据集。

2.您可以轻松创建标签和多个注释集。

3.可以创建人工标记的任务。 

4.您可以根据AI模型跟踪该数据库的谱系,以进行迭代和训练。

5. 您可以使用相同的数据集训练多个模型来比较AI模型的性能。

您可以生成统计数据

7.Vertex 允许您将数据集分成训练、测试和验证数据。

这些功能可让您使用所需的任何数据集在 Vertex AI 上以本地方式端到端运行您的 AI 项目。您还可以使用 Google 提供的数据集来训练您的模型并检查其性能。 

但是,您可以访问的数 的出价调整来优化您的地理位置效果 据库将取决于数据集的服务器位置。由于训练和迭代的速度取决于您与所选服务器的物理距离,因此建议您选择距离项目所需的模型和训练数据集最近的位置。

现在,让我们讨论如何创建数据集。

如何为 Vertex AI 准备数据集?

可以使用Google Cloud Platform (GCP)或 Google Vertex API 创建 Vertex AI 的托管数据集。您的流程将根据您使用的数据类型和要执行的操作而有所不同。

对于导入的每个数据集,您需要一个结构 短信列表 化的 JSON 或 CSV 文件,将数据放入结构中并允许注释。

准备图像数据集用于分类的图像数据集

分类任务是自动标记图像并识别特征的任务。例如,分类任务可能是找出照片中花朵的种类。让我们来谈谈训练此类模型所需的数据。

输出图像将遵循相同的文件格式,但如果需要,这些模型也可以训练以输出 TIFF 和 WEBP 文件。

注意:另外,请记住您的文件需要采用 Base64 编码。

准备数据

现在,我们将准备用于单标签分类的图像。您需要遵循如下 JSON 格式:回归任务用于预测连续的数值数据,因此如果您想将房价与数据关联起来。

 

滚动至顶部