soword科技言
永久公益免费API接口
提供永久免费的API接口,查看更多API接口,如果您有其他免费API资源,请联系我们,造福人类。
提供商务开发:小程序,系统,APP
定制开发,免费评估,免费咨询,价格便宜,售后保障,前往开发服务中心联系开发客服中心
不仅仅是文字:揭示数据术语混乱

Maarten Masschelein和Tom Baeyens是Soda的联合创始人,这家初创公司刚刚获得Gartner授予的“数据管理领域的酷供应商”称号。

我们需要XYZ。一定地。它出现在所有的分析师报告中,它的趋势已经偏离了图表,我们的竞争对手也有。所以让我们找一个拥有它的供应商,让我们自己投资。应该可以了。

听起来熟悉吗?希望你们公司的技术投资决策不是这样做的。但随着技术的发展速度比以往任何时候都快,很难跟上所有术语的发展。有些人认为术语是一个模糊层,意在美化那些提出术语的人,炒作产品,让那些到处乱扔术语的人显得聪明。

这里面可能有一些道理,但这并不意味着术语是无用的。术语是为了满足一种真正的需求,即描述快速移动领域中的新兴概念。理想情况下,共享词汇应该有助于理解不同的概念、细分市场和产品。

例如:数据和元数据管理。您以前听过数据管理、数据可观测性、数据结构、数据网格、数据操作、MLOP和AIOP这些术语吗?你知道它们的确切含义,以及它们之间的关系吗?这是你找到答案的机会。

尽管我们在更广泛的数据领域作为分析师非常活跃,但我们承认,我们也不完全清楚上述所有内容。所以,当我们遇到马腾·马舍林和汤姆·拜恩斯时,我们想我们会要求他们接受。Masschelein和Baeyens是Soda的联合创始人,Soda是一家刚刚获得Gartner“数据管理领域的酷供应商”称号的初创公司。

除了被正式宣布为酷之外,他们可能还知道一两件事的另一个原因:他们一直在身边。Masschelein是Collibra的第五名员工,用他的话来说,他是第一个向首席数据官销售软件的人——在那之前甚至是一件事。Baeyens是jBPM的创始人和项目负责人,jBPM是一个传奇的业务流程管理(BPM)开源项目。Masschelein将此视为一个用于按规模组织数据的框架—一个元层,用于以统一的方式访问与组织相关的所有数据,无论这些数据位于何处。数据结构侧重于这种统一数据访问的技术方面。

根据Gartner的说法,数据结构体系结构的关键支柱。

数据网格是一个类似的概念,但在关注组织方面的意义上有所不同。Masschelein发现数据网格类似于数据治理原则的现代化版本,适用于更广泛的数据团队。我们的目标是构建和组织,消除过去的一些瓶颈,比如依赖数据仓库团队。Masschelein说:

“有了数据网格,基本上就是构建数据产品和数据服务。所以是数据产品思维。在数据治理中,我们讨论将数据作为资产进行管理。当我们谈到将数据作为产品进行管理时,归根结底,这一点更为具体。我们应该拥有核心平台服务。但除此之外,我们还需要围绕数据域、领域、业务、专业知识和知识建立结构,使它们能够自我服务。我认为这是关键所在。

数据管理,Masschelein接着补充说,是一个已经存在了几十年的术语。数据管理协会(datamanagementassociation)对它进行了广泛的描述,它围绕如何管理数据做了大量的工作。最后,元数据管理是其中的一部分,它衍生出了数据编目软件和数据沿袭功能。

Masschelein将数据监控、数据可观察性和数据测试视为更广泛的数据管理框架内质量管理的专门子领域。Baeyens增加了关于数据可观察性的内容:

“您有工程师在构建数据管道。他们准备数据用于数据产品,如机器学习模型。有一群工程师定期开发新产品。一旦这些产品投入生产,可观察性就开始了。这就是数据可能变坏的地方。如果使用数据的模型没有注意到数据不好,这将导致各种非常昂贵和危险的后果“

数据监控、测试、适应和协作

对于DataOps,它是关于使用与数据相关的能力,按照最佳实践流程组织,以更快的速度交付数据产品,所有这些都增加了可靠性。许多小的过程需要到位和标准化,以便更好地使用数据,类似于我们在软件工程中对DevOps所做的工作,Mascliein说,

MLOPS,它似乎与AOPS互换使用,依赖于一个良好的数据基础,但更专业。例如,在DataOps中,我们不会监视预测的准确性。这是特定于数据产品的,也是特定于数据产品的生命周期的。Masschelein从生命周期的角度来考虑它:

“这是两个不同的东西,因为数据集的生命周期最终并没有与机器学习或数据产品的生命周期紧密耦合。也有不同的人这样做。当涉及到管理数据和数据操作时,我们有可以是组织外部的数据生产者,而您有内部生成的数据。

另一种看待它的方式是工具环境。如果你看一下监控和可观察性软件堆栈,我们在底层有基础设施,然后是我们编写的应用程序,然后现在我们将数据和机器学习作为两种新的层来使用。”

我们刚刚开始使用软件和平台来帮助监控这些相对较新的层,而其他的已经存在了很长时间,二人组注意到。这就是苏打自己的平台发挥作用的地方。这个名字之所以出现,是因为创始人们喜欢无声的数据问题,比如汽水。Soda包括监视、测试、数据适配和协作。

协作是一个跨领域的关注点,可以帮助解决与数据监视和质量有关的问题。

监视是自动监视数据集中的问题。这意味着要尝试找出环境中的数据集是否存在异常。例如,您这次大概处理了多少条记录?与上周同一天的情况相比,这是否反常?例如,Soda可以使用机器学习来发现异常情况。

但是监视只覆盖了您可能遇到的数据问题类型的一小部分。这就是为什么数据测试和验证是下一步。在这里,您可以同时启用数据工程师和主题专家。这就是可以指定规则的地方,例如“我们只能在该列中有X%的丢失数据”、“我们需要引用完整性”或“允许的一组值”。

这一切都很好,但是如果您有一个发现数据问题的系统,它将创建大量警报,因此问题是:您如何处理警报?你的业务流程是什么?这就是数据健身仪表板的用武之地。这可以实现SLA跟踪,让数据所有者了解整个组织对数据的所有期望,以及解决问题的工作流程。

最后但并非最不重要的是,协作是一个跨部门的问题。拥有协作功能可以让对问题有不同认识的人(他们通常拥有默契的、未记录的知识)一起工作并解决问题。Baeyens提到,这也涉及到传统上不被视为协作的功能,例如使分析师能够在没有数据工程师参与的情况下自行管理领域知识。

Suds和Soda

Baeyens为Soda带来的BPM专业知识已被用于构建平台,特别是不同的模块如何在一个工作流进程中结合在一起。Soda可以与SQL源代码一起工作,Spark集成也差不多了。我们的目标是能够覆盖尽可能多的数据领域。

根据Gartner的定义,Soda可能无法覆盖全面数据结构的所有关键支柱,但同样,很难想到有许多解决方案能够覆盖这些支柱。但是,它确实扩展了数据目录,重点放在数据操作上。Soda面向不同的用户群体,这也反映在它的产品中。

有一个面向数据工程师的开源层。Baeyens认为,用户并不一定对SaaS产品感兴趣。 开源Soda-SQL Baeyens认为,Soda-SQL的目标是简单,并与目标用户喜欢使用的技术(SQL和YAML)一起工作。

Soda-SQL正在得到良好的发展和采用,它是人们了解Soda的一种方式。如果他们喜欢他们所看到的,并且他们的需求增长到包括分析师和cdo这样的人,那么是时候转向付费的SaaS版本的Soda了 收到€1150万的A轮基金,加上他们之前的种子基金,总计约€1400万。这将为Soda提供一个良好的平台来开发其产品,目的是发展工程和走向市场的团队。

如果没有别的,Soda的创始人似乎对他们所处的环境有着坚定的把握。

这是数据库史上最大的投资,也是有史以来最大的社交网络,Neo4j的其他图表故事

边缘机器学习:TinyML正在变得越来越大

超导公司获得2100万美元的A系列融资,以维持其巨大期望的增长

这都是关于数据的:Explorium的赌注通过注册获得7500万美元的C系列融资

,您同意使用条款,并承认隐私政策中概述的数据实践。

您还将获得免费订阅的ZDNet今日技术更新和ZDNet公告时事通讯。您可以随时取消订阅这些时事通讯。

您同意接收CBS系列公司的更新、提醒和促销活动,包括ZDNet的今日技术更新和ZDNet公告时事通讯。您可以随时取消订阅


2023-03-22 10:04:37

新人小程序+APP定制199元起


发放福利,助力中小企业发展,真正在互联网中受益

点击询问定制

广告服务展示