与非专业人士经常使用的AutoML不同,特性存储是为数据科学家设计的。特征存储的前提是基于两个重要事实:(1)单个ML模型可以从多个源获得其训练数据,每个源可以以不同的节奏更新;(2)一些这样的源数据可以被多个模型使用。基于这种多对多关系(通常被认为是一对一的关系),将模型视为ML操作中最小的粒度单位通常是不正确的。相反,数据输入的源数据和一组ML模型特性(输入变量)应该一起管理,包括摄取、特性工程,然后可能是受影响模型的传播再培训。
Databricks AutoML将把代码放在一个标准的、可编辑的笔记本中,代码将利用databricks推出数据共享,自动化管道,数据目录,Cosmos DB