亚马逊云科技推出六项Amazon SageMaker新功能

2024.03.23 美通社

    o Amazon SageMaker Canvas进一步降低机器学习使用门槛,业务分析师无需编码即可使用点击式界面进行更准确的机器学习预测
    o Amazon SageMaker Ground Truth Plus提供全托管数据标记服务,为客户提供内置工作流程以及技能娴熟的团队,以更低成本快速交付高质量的机器学习模型训练数据集
    o Amazon SageMaker Studio 提供一个可以集中执行数据工程、数据分析和机器学习工作流程的通用notebook环境
    o Amazon SageMaker Training Compiler 通过自动代码编译提高效率,帮助客户将深度学习模型训练速度提高50%
    o Amazon SageMaker Inference Recommender为运行机器学习推理自动推荐适合的亚马逊云科技计算实例,获得最佳性价比
    o Amazon SageMaker Serverless Inference 为大规模机器学习推理提供无服务器计算
    北京2021年12月8日 /美通社/ -- 2021年12月8日,亚马逊云科技在2021 re:Invent全球大会上,宣布为行业领先的机器学习服务Amazon SageMaker推出六项新功能,让机器学习更易于上手且更具成本效益。此次发布的强大新功能包括:无需编码即可进行准确的机器学习预测,更精准的数据标记服务,可用于跨域协作的通用 Amazon SageMaker Studio notebook体验、让代码更高效的机器学习模型训练编译器,为机器学习推理自动推荐计算实例,以及用于机器学习推理的无服务器计算。
    在多重因素的推动下,如云上几乎无限的算力、数据量的爆炸性增长以及开发人员工具的快速进步及迭代,机器学习已成为各行业的主流。多年来,亚马逊云科技一直致力于降低机器学习的使用门槛,让更多的客户利用机器学习技术。Amazon SageMaker是亚马逊云科技增长速度最快的服务之一,全球数万客户包括阿斯利康、Aurora、Capital One、塞纳、路虎、现代集团、Intuit、汤森路透、Tyson、Vanguard,正使用Amazon SageMaker训练各种规模的机器学习模型,有些模型甚至包含数十亿参数,每月进行数千亿次预测。随着客户在 Amazon SageMaker 上不断扩展其机器学习模型训练和推理,亚马逊云科技也持续投入,仅在过去一年就推出 60 多项Amazon SageMaker新的特性和功能。此次发布的诸多新功能让Amazon SageMaker更强大 -- 更轻松地准备和收集机器学习数据,更快地训练模型,优化推理所需的计算类型和数量,并将机器学习扩展到更广泛的受众。
    Amazon SageMaker Canvas 无代码机器学习预测:Amazon SageMaker Canvas 为业务分析师(支持财务、市场、运营和人力资源团队的业务员工)提供可视化界面,他们无需任何机器学习经验,也不必编写代码,即可自行创建更准确的机器学习模型进行预测。越来越多的公司希望通过机器学习重塑其业务和客户体验,这就需要更多来自不同业务领域的员工使用先进的机器学习技术。然而,机器学习通常需要专业技能,获得这些技能通常需要多年的正规教育或强化培训,同时对应的课程难度大且不断变化。Amazon SageMaker Canvas解决了这一挑战,它通过提供一个可视化的、点击式的用户界面,让业务分析师可以轻松地生成预测。客户将Amazon SageMaker Canvas连接到他们的数据存储(例如 Amazon Redshift、Amazon S3、Snowflake、本地数据存储、本地文件等),Amazon SageMaker Canvas提供可视化工具,帮助客户直观地准备和分析数据。然后,客户无需任何编码,Amazon SageMaker Canvas使用自动机器学习来构建和训练机器学习模型。为确保模型的准确性和有效性,业务分析师还可以在Amazon SageMaker Canvas的控制台中查看和评估模型。Amazon SageMaker Canvas还支持客户将模型导出到 Amazon SageMaker Studio,与数据科学家共享,进一步验证和完善模型。
    Amazon SageMaker Ground Truth Plus 专业数据标记:Amazon SageMaker Ground Truth Plus 是一项完全托管的数据标记服务,为客户提供内置的工作流程、技能娴熟的团队,以更低成本快速交付高质量的训练数据集,用于训练机器学习模型,客户无需编码。为了训练更准确的模型并规模化机器学习部署,客户需要被正确标记的数据集越来越大。但是,要生成大型数据集可能需要数周甚至数年的时间,并且通常需要公司雇佣员工并创建工作流来管理标记数据的过程。
    2018 年,亚马逊云科技推出了 Amazon SageMaker Ground Truth,通过使用来自Amazon Mechanical Turk、第三方供应商或自有团队的人工数据标注员的方式,帮助客户更轻松的生成标记数据。Amazon SageMaker Ground Truth Plus 进一步扩展了这项功能,通过提供专业团队为客户提供高度准确的数据标签。这些专业团队不但拥有特定领域和行业专业知识,同时具有职业技能可满足客户对数据安全、隐私与合规等要求。 Amazon SageMaker Ground Truth Plus具有多步骤标记工作流程功能,可缩短标记数据集所需的时间并降低采购高质量注释数据的成本,该功能包括机器学习模型预标记、检测人工标记错误和低质量标签的机器验证,以及辅助标记功能(例如 3D 长方体捕捉、去除2D中的失真图像、视频标记中的预测和自动分割工具)。客户只需先将 Amazon SageMaker Ground Truth Plus 指向他们在 Amazon Simple Storage Service (Amazon S3) 中的数据源,并提供特定的标记要求(例如,医学专家应如何标记肺部放射影像中的异常情况的说明)。 Amazon SageMaker Ground Truth Plus 随后创建数据标记工作流程并提供控制面板,客户可通过控制面板跟踪数据注释进度、检查已完成标签的样本质量,并提供为生成高质量数据的反馈;该功能让客户可以更快地构建、训练和部署高度准确的机器学习模型。
    Amazon SageMaker Studio 通用notebook:Amazon SageMaker Studio 的通用notebook(业界首个完整的机器学习集成开发环境)提供了一个统一的集成环境来执行数据工程、数据分析和机器学习。如今,来自不同数据领域的团队希望使用一系列涵盖数据工程、数据分析和机器学习的工作流开展协作。这些领域的从业者通常来自数据工程、数据分析和数据科学等不同的知识领域,他们希望实现跨各种工作流工作,并无需切换数据相关工具。而当客户准备集成数据分析和机器学习的数据时,通常需要处理多种工具和notebook,这一过程繁琐、耗时且容易出错。
    Amazon SageMaker Studio 现支持客户在一个通用notebook中,为实现多种目的而进行的交互方式访问、转换和分析各种数据。Amazon SageMaker Studio与在 Amazon EMR 集群上运行的 Spark、Hive 和 Presto,以及在 Amazon S3 上运行的数据湖均内置集成,客户无需切换服务即可使用Amazon SageMaker Studio 访问和操作通用notebook中的数据。客户除了可以使用喜欢的框架(例如 TensorFlow、PyTorch 或 MXNet)开发机器学习模型,并在 Amazon SageMaker Studio 中构建、训练和部署机器学习模型外;客户无需离开通用Amazon SageMaker Studio notebook,可以一站式浏览和查询数据源、探索元数据和模式,并处理数据分析或机器学习工作流相关的工作负载。
    适用于机器学习模型的 Amazon SageMaker Training Compiler:Amazon SageMaker Training Compiler 是一种新的机器学习模型编译器,可自动优化代码提高计算资源的使用效率,并缩短训练模型时间多达 50%。先进的深度学习模型通常是庞大而复杂的,训练单个模型可能消耗数千小时的GPU计算时间,为此它们需要专门的计算实例来加速训练。为了进一步缩短训练时间,数据科学家会尝试增加训练数据或调整超参数(控制机器学习训练过程的变量),找到性能最佳且资源消耗最少的模型版本。这项工作的技术复杂性致使数据科学家没有时间优化在 GPU 上运行训练模型所需的框架。
    Amazon SageMaker Training Compiler与 Amazon SageMaker 中的 TensorFlow 和 PyTorch 版本集成,这些版本经过优化可在云中更高效地运行,因此数据科学家可以使用他们喜欢的框架,更高效得使用GPU训练机器学习模型。只需单击一下,Amazon SageMaker Training Compiler 就会自动优化并编译训练好的模型,提高训练执行速度多达50%。
    Amazon SageMaker Inference Recommender 自动实例选择:Amazon SageMaker Inference Recommender 帮助客户自动选择最佳计算实例和配置(例如实例数量、容器参数和模型优化),运行其特定的机器学习模型推理。大型机器学习模型,通常用于自然语言处理或计算机视觉,选择具有最佳性价比的计算实例是一个复杂的迭代过程,可能需要数周的实验时间。
    Amazon SageMaker Inference Recommender消除了运行一个模型应选择哪种实例的不确定性和复杂性,通过自动推荐适合的计算实例配置,可将部署时间从数周缩短至几小时。数据科学家使用 Amazon SageMaker Inference Recommender 可将模型部署到推荐的一个计算实例上, 或者使用该服务在一系列选定的计算实例上运行性能基准测试。客户可以在 Amazon SageMaker Studio 中查看基准测试结果,并评估不同配置在延迟、吞吐量、成本、计算和内存等方面的利弊。
    适用于机器学习模型的 Amazon SageMaker Serverless Inference:使用Amazon SageMaker Serverless Inference,客户仅需为生产中部署的机器学习模型推理按使用量付费。客户使用机器学习时,希望能优化成本,对于具有间歇性流量模式和长时间空闲的应用程序而言尤为重要。有些应用程序,如基于消费者购买的个性化推荐、接听来电的聊天机器人以及基于实时交易的需求预测等,可能会受外部因素如天气状况、促销的产品或节假日等影响出现波峰波谷。为机器学习推理提供合适的计算容量是一项艰难的、需要权衡多方面因素的工作。有时,为满足峰值需求,客户会过度配置容量,虽然实现了一致的性能,但在没有流量时会浪费成本。有时, 客户为控制成本而部署了不足够的计算容量,在条件变化时却无法提供足够的算力来执行推理。为了适应不断变化的条件,一些客户尝试动态地手动调整计算资源,这是繁琐且耗费精力的工作。用于机器学习的 Amazon SageMaker Serverless Inference 会根据推理请求的数量自动预置、扩展和关闭计算容量。当客户将机器学习模型部署到生产中,只需在 Amazon SageMaker 中选择无服务器部署选项,Amazon SageMaker Serverless Inference 就会管理计算资源并提供所需的精确计算量。通过Amazon SageMaker Serverless Inference,客户无需管理底层基础设施,且只需为每个请求使用的算力和处理的数据量付费。
    亚马逊云科技机器学习副总裁Bratin Saha 表示:“各个行业和各种规模的客户都在积极借助Amazon SageMaker 扩大机器学习的使用范围,机器学习已经成为很多企业运营的核心组成,并赋能客户发明新的产品,创新的服务和体验。我们很高兴将行业领先的机器学习服务拓展至更多客户,帮助更多企业推动业务创新,解决富有挑战性的问题。这些 Amazon SageMaker的新功能将触达更广泛的客户,同时为现有客户提供额外的功能,帮助他们在机器学习之旅中更轻松地将数据转化为有价值的洞察,加快部署速度,提升性能并节省成本。”
    宝马集团总部位于德国慕尼黑,是一家全球豪华汽车和摩托车制造商,品牌涵盖宝马、宝马摩托车、MINI 和劳斯莱斯等;它还提供优质的金融和移动服务。
    宝马集团人工智能平台产品负责人 Marc Neumann 表示:“将人工智能作为关键技术使用是宝马集团数字化转型过程中的重要一环。我们在整个价值链中已经采用人工智能,为客户、产品、员工和流程创造附加价值。过去几年里,我们已经将宝马集团许多具有商业价值影响的顶级用例产业化。我们认为Amazon SageMaker Canvas将帮助我们把人工智能/机器学习扩展至整个宝马集团。通过SageMaker Canvas,业务用户可以轻松地探索和构建机器学习模型,无需编写代码即可做出准确预测。SageMaker 还支持我们的核心数据科学团队协作,并对由业务用户创建的模型在投入生产环境之前对其进行评估。”
    西门子能源正在为社会注入活力,环境、社会和公司治理(ESG)是其战略重点,他们的创新正在为合作伙伴和员工创造不一样的明天。西门子能源工业应用数据科学团队负责人 Davood Naderi表示:“西门子能源数据科学战略的核心是将机器学习的力量带给所有业务用户,让他们能够在不需要数据科学专家的情况下试验不同的数据源和机器学习框架。这将加快我们能源解决方案(例如调度优化器和诊断服务)的创新和数字化速度
    Amazon SageMaker Canvas支持业务用户开展实验,是西门子能源机器学习工具套件的很好的补充。同时还可以与数据科学团队共享和协作,这种协作非常重要,不但帮助我们将更多机器学习模型投入生产,同时还确保所有模型都符合我们的质量标准和政策。”
    爱彼迎是全球最大的特色民宿预定平台之一,提供超过 700 万个住宿选择和 40,000 项由当地房东组织的手工活动。“在爱彼迎,我们越来越多地将机器学习整合到业务的各个方面。为了训练和测试机器学习模型,我们的团队始终需要生成和维护高质量的数据。”爱彼迎中国数据科学家罗伟表示:“为了更好地为客户提供服务,并减少对客服团队的依赖,我们一直在寻找一种方法,可以基于十万段普通话客户服务日志生成高质量的文本分类数据结果。通过Amazon SageMaker Ground Truth Plus,亚马逊云科技团队为我们构建了定制数据标记工作流程,其中包括能够实现 99% 分类准确率的自定义机器学习模型。”
    美国国家橄榄球联盟(NFL)是美国最受欢迎的体育联盟,由 32 支职业运动队组成,他们每年都在争夺超级碗冠军,这是世界上最大的年度体育赛事。NFL 球员健康与创新高级副总裁 Jennifer Langton表示:“在 NFL,为了帮助我们的球迷、广播公司、教练和球队获得洞察,我们一直寻找使用机器学习的新方法。橄榄球是一项追求速度的运动,比赛可以在一瞬间发生。虽然有教练员和裁判员,但很难在场上照看到所有球员的安全。计算机视觉让我们能够准确监测球员安全事件,但开发这些算法需要专业标记的数据。现在,Amazon SageMaker Ground Truth Plus为复杂的标记任务提供了定制工作流程和用户界面,这将帮助我们提高球员的安全性。”
    Vanguard Group, Inc．是一家美国注册的投资顾问机构,总部位于宾夕法尼亚州马尔文,管理着约 7 万亿美元的全球资产。
    Vanguard 重新定义行业价值,帮助投资者做正确的选择,并为全球数百万客户创造变革。Vanguard数据和分析高级总监Doug Stewart表示:“我们非常高兴的看到数据科学家和数据工程师可以在一个通用notebook环境中协作,进行数据分析和机器学习。Amazon SageMaker Studio已与在 Amazon EMR 上运行的 Spark、Hive 和 Presto 内置集成,这提高了我们开发团队的工作效率。这种统一的开发环境让我们的团队能够专注于构建、训练和部署机器学习模型。”
    iFood 是拉丁美洲在线食品配送的领先企业,每月完成6,000 多万份订单。iFood使用机器学习向在线订购的客户推荐餐厅。
    iFood 机器学习和数据工程总监 Ivan Lima 表示:“我们的机器学习模型一直采用 Amazon SageMaker构建高质量的应用程序,这贯穿于整个业务线。Amazon SageMaker Serverless Inference让我们能够更快地实现模型部署和扩展,无需担心实例选择,也不必担心工作负载的波峰波谷。同时,我们预计该服务将进一步降低我们的成本。”