甲骨文(中国)软件系统有限公司

甲骨文推出 MySQL HeatWave ML

  甲骨文宣布,除了事务处理和分析功能,Oracle MySQL HeatWave 现在也支持数据库内机器学习 (ML),这是唯一支持此功能的 MySQL 云数据库服务。MySQL HeatWave ML 全面自动执行机器学习生命周期,并将所有经过训练的模型存储在 MySQL 数据库中,而无需将数据或模型移动到机器学习工具或服务中。消除提取、转换和加载 (ETL) 流程可降低应用程序的复杂性与成本,并提高数据和模型的安全性。HeatWave ML 功能现已包含在所有37个 Oracle 云基础设施 (OCI) 区域的 MySQL HeatWave 数据库云服务中。

1

  目前,对许多开发人员来说,为 MySQL 应用程序添加机器学习功能困难且耗时。首先,开发人员需要将数据从数据库提取到另一个系统,以创建和部署机器学习模型。将机器学习用于应用程序数据会创建多个孤岛,并延迟数据移动。这还会导致数据库外的数据激增,使其更易受到安全威胁,并增加开发人员在多个环境中进行编程的复杂性。其次,现有服务期待开发人员为机器学习模型训练的专家;否则,模型是次优的,并会降低预测的准确性。最后,大多数现有的机器学习解决方案没有包括相应功能来解释开发人员构建的模型为何会提供某种特定预测。

  MySQL HeatWave ML 通过在 MySQL 数据库内原生集成机器学习功能来解决这些问题,而无需将数据 ETL 到其他服务。HeatWave ML 完全自动化训练过程,并为给定数据集和指定任务创建具有最佳算法、最佳特征和最佳超参数的模型。HeatWave ML 生成的所有模型都可以提供模型和预测解释。

  没有其他云数据库供应商可以直接在数据库服务中提供此类高级的机器学习功能。甲骨文此次发布的机器学习基准测试可在大量公开可用的机器学习分类和回归数据集上执行,例如 Numerai、Nomao 和 Bank Marketing 等。针对在更大的 HeatWave 集群上进行培训时,会增加相对于 Redshift ML 的性能优势。使用 MySQL HeatWave 可以非常高效快速地完成耗时的训练过程,因此客户可以更频繁地重新训练模型并跟上数据的变化,使模型保持最新并提高预测的准确性。

  甲骨文首席企业架构师 Edward Screven 表示:“正如在单一数据库中集成运行分析和事务处理一样,我们现将机器学习引入 MySQL HeatWave。MySQL HeatWave 是甲骨文发展最迅速的云服务之一。越来越多客户从 Amazon 和其他云数据库服务迁移到 MySQL HeatWave,并显著提高了性能和降低成本。如今,我们还发布一系列丰富了 HeatWave 功能的其他创新,以提高可用性并降低成本。我们全新且完全透明的基准测试结果再次表明,Snowflake、AWS、Microsoft 和 Google 的速度比 MSQL HeatWave 更慢且成本更高。”

  相较于其他云数据库服务,HeatWave ML 提供了以下功能:

  完全自动化的模型训练

  使用 HeatWave ML 创建模型的所有不同阶段都是完全自动化的,无需开发人员干预。这样可以实现更准确、无需手动操作的模型优化,并且始终完成培训过程。Amazon Redshift 等其他云数据库服务提供了集成外部服务的机器学习功能,意味着开发人员在 ML 培训过程中需要进行大量的手动输入。

  模型和推断解释

  模型的可解释性有助于开发人员了解机器学习模型的行为。例如,如果银行拒绝客户贷款,则它需要能够确定模型的哪些参数有被考虑在内,或者模型是否包含任何偏差。预测可解释性是一组技术,有助于回答机器学习模型为何做出如此特定预测的问题。如今,预测解释变得越来越重要,因为公司必须能够解释其机器学习模型作出的决策。HeatWave ML 将模型解释和预测解释相结合,作为模型训练过程的一部分。因此,HeatWave ML 创建的所有模型都可以提供模型和推断解释,而无需在推断解释时提供训练数据。甲骨文增强了现有的解释技术,以提高性能、可解释性和质量。其他云数据库服务并未针对其所有机器学习模型提供如此丰富的可解释性。

  超参数优

  HeatWave ML 为超参数优化实现了基于渐变搜索的全新缩减算法。这样可以并行执行超参数搜索,而不影响模型的准确性。超参数优化是机器学习模型训练最耗时的阶段,此独特功能可以为 HeatWave ML 提供优于其他云服务构建机器学习模型的性能优势。

  算法选择

  HeatWave ML 使用代理模型的概念来确定最佳的 ML 算法,以进行训练。代理模型是一种展示完整复杂模型属性的简单模型。使用简单的代理模型可非常高效地完成算法选择,而不会牺牲准确性。其他用于构建机器学习模型的数据库服务皆未提供这种代理建模功能。

  智能数据采样

  在模型训练期间,HeatWave ML 对一小部分数据进行抽样,以提高性能。这种抽样的方式是在样本数据集中捕获所有代表性的数据点。其他用于构建机器学习模型的云服务采用了效率较低的方法,即使用随机数据采样,在不考虑数据分布特征的情况下对一小部分数据进行采样。

  特征选择

  这个功能有助于确定训练数据的属性;这些属性会影响机器学习模型进行预测的行为。HeatWave ML 中的特征选择技术针对多个域和应用程序的大量数据集进行了训练。根据这些收集到的统计信息和元数据信息,HeatWave ML 能够有效地识别新数据集中的相关特征。

  除了机器学习功能,甲骨文还为 MySQL HeatWave 服务发布了更多创新。实时弹性功能让客户将 HeatWave 集群扩展和缩小到任意数量的节点,无需任何停机时间或只读时间,也无需手动重新平衡集群。其他功能还包括数据压缩,可让客户处理每个节点两倍的数据,并降低近50%的成本,同时保持相同的性价比。新增的暂停与恢复功能则可让客户暂停 HeatWave,以节省成本。恢复后,MySQL Autopilot 所需的数据和统计信息将自动重新加载到 HeatWave 中。

  MySQL Heatwave 客户与合作伙伴分享

  Astute Business Solutions 是 Oracle 云 MSP合作伙伴。Astute Business Solutions 联合创始人兼首席执行官 Arvind Rajan 指出:“我们最近有机会使用 HeatWave ML 的机器学习功能,发现这个功能非常创新、快速且易于使用。最重要的是,它是安全的,因为数据或模型始终在数据库内运行。我们相信,客户将对 MySQL HeatWave 提供的数据库内机器学习功能非常感兴趣,并将进一步加速采用 MySQL HeatWave。”

  Estuda.com 是一家教育 SaaS 提供商,在巴西为 K-12 学生测试提供服务。Estuda.com 联合创始人兼首席技术官 Vitor Freitas 表示:“与未更改代码的Google BigQuery 相比,MySQL HeatWave 将我们复杂的查询性能提升了300 倍,响应时间只需几秒,而且成本降低了85%。现在,我们可以更好地为300万名用户提供实时分析,并持续改进我们的应用程序,以提高学生的表现。”

  VRGlass 是一家巴西 SaaS 生产商,为企业客户提供元宇宙应用程序和设备。VRGlass 首席执行官 Ohmar Tacla 说:“ Oracle for Startups 计划取得的进展让 VRGlass 深受鼓舞,因此将所有应用程序数据从 AWS EC2 迁移到 MySQL HeatWave。在三个小时内,我们就把一个虚拟活动的数据库性能提高了5倍,同时更安全,而且只需一半的成本。这个活动可容纳超过100万名参与者,达170万个活动环节。”

  Genius Sonority 是日本的视频游戏设计商、开发商和运营商。Genius Sonority 首席技术官 Masayuki Kawamoto 表示:“MySQL HeatWave 将性能提高了90倍,解决了我们在移动数据遇到的所有挑战和顾虑,以实现实时分析。这对我们来说是一个很大的惊喜。卓越的性能提升帮助我们不断改善游戏体验,为全球玩家带来愉悦的娱乐体验。”

  Neovera 是一家值得信赖的托管网络安全解决方案提供商,具备超过20年的行业经验。Neovera Inc 的 Oracle 高级数据库架构师 Arman Rawls 表示:“与本地部署的 MySQL 数据库环境相比,基于 OCI 的 MySQL HeatWave 提高了查询性能 300倍,并降低总拥有成本80%。现在,我们可以在 OLTP 数据库中获得实时分析报告,以加速增强我们的安全应用程序。”

  IDC 数据管理软件研究副总裁 Carl Olofson 指出:“甲骨文去年8月推出 MySQL HeatWave 组件 Autopilot,这可能是过去20年来开源云数据库的一大创新。如今,MySQL HeatWave ML 的面世意味着,甲骨文在 HeatWave 中统一 OLTP 和 OLAP 的努力更上一层楼。甲骨文将所有机器学习处理和模型都引入了数据库中,客户不仅可以避免在核心数据库之外管理 ML 数据库,还可以消除 ETL 流程带来的麻烦,从而在速度、准确度和成本方面获得更多优势。”