BobvanLuijt的技术生涯始于15岁,他建立网站帮助人们在网上销售牙刷。没有多少15岁的孩子会这么做。显然,这给了范路易特足够的先机,使他能够在当今科技潮流的交汇点上取得成功。
范路易特继续学习艺术,但最终还是在科技领域全职工作。2015年https://www.searchenginejournal.com/google-algorithm-history/rankbrain/“target=”\u blank“rel=”noopener noreferrer nofollow“data component=”externalLink“>Google推出了RankBrain算法,搜索结果的质量大幅提升。这是一个分水岭,因为它在搜索中引入了机器学习。一些人注意到了这一点,包括van Luijt,他们看到了一个商机,决定把它带给大众。
ZDNet与van Luijt联系,了解更多信息。
谷歌的RankBrain机器学习是否能改善用户的搜索结果?当朗克布莱恩被介绍出来的时候,人们都很好奇。正如ZDNet自己的Eileen Brown所指出的:https://www.zdnet.com/article/does-googles-rankbrain-machine-learning-improve-search-results-for-users/“target=”\u blank“>是的,RankBrain提供的结果将变得更好,因为它了解到我们正试图要求它做什么
对于van Luijt来说,这是一个“啊哈”的时刻。像其他从事技术工作的人一样,他必须处理大量的非结构化数据。用他的话说,关联数据是个问题https://www.zdnet.com/article/i-got-99-data-stores-and-integration-them-aint-fun/“target=”\u blank“>即使是结构化数据,也很难进行数据集成。当您有来自不同来源的非结构化数据时,它变得非常具有挑战性。
Van Luijt读了RankBrain的文章,认为它使用单词矢量化来推断查询中的关系,然后尝试呈现结果。搜索引擎日志
向量是一个非常长的数字列表,可以认为是几何空间中的坐标。三维向量——即(X,Y,Z)形式的向量——对应于人类熟悉的空间。但是多维向量也存在,这使事情复杂化了:
“有很多维度,但是要描绘一幅心理画面,你可以说只有三个维度。现在的问题是,你可以用一个向量来识别照片中的图案,然后说,是的,它是一只猫,或者不,它不是一只猫。但是,如果你想拍十万张或者一百万张照片呢?然后你需要一个不同的解决方案,你需要有一种方法来查看空间并找到类似的东西。范路易特很感兴趣。他开始尝试自然语言处理(NLP)模型。他甚至直接问谷歌的员工:他们是否打算建立一个B2B搜索引擎解决方案?因为他们的回答是“不,“他打算用Weaviate用向量搜索文档空间href=“https://medium.com/technology-nineleaps/vectors-in-machine-learning-b8dbdae53aa0“target=”\u blank“rel=”noopener noreferrer nofollow“data component=”externalLink“>NLP机器学习模型输出向量:它们将单个单词放置在向量空间中。Weaviate背后的想法是:如果我们拿一个文档--一封电子邮件,一个产品,一篇文章,不管什么--看所有描述它的单词,然后计算这些单词的向量。
这就是文档在向量空间中的位置。然后,如果你问,例如:什么出版物与时尚最相关?搜索引擎应该深入到向量空间,找到像Vogue这样的出版物,因为它们在这个空间里接近“时尚”。
这是Weaviate所做的核心。此外,医疗保健。模块化的结构使人们也可以插入自己的矢量器。
Weaviate还可以与流行的机器学习框架一起工作,如Metro AG是一个突出的用例。
Metro面临的挑战是如何在市场中发现新的机会。Weaviate通过结合他们的CRM和打开街道地图。van Luijt指出,如果一个业务所在地无法与CRM中的客户关联,那么这就意味着一个机会。
,问题在根级别总是一样的:非结构化数据需要与内部结构化的数据关联。众所周知,图形有助于利用连接。但事实证明,正如Metro用例所示,即使找不到连接也能产生业务价值。
Van Luijt坚信利用连接或缺乏连接的图表的价值。在数据仓库和数据湖中堆积数据https://www.zdnet.com/article/data-lakehouse-meet-fast-querys-and-visualization-databricks-uncleses-delta-engine-acquires-redash/“target=”\u blank“>湖边别墅和没有价值的东西。但是,要从数据中的连接获取值,它是app://obsidian.md/yearofgraph.xyz他指出:“target=”\u blank“rel=”noopener noreferrer nofollow“data component=”externalLink“>最有意义的图形模型。
然后,问题就变成了:我们如何让人们访问它?给人们很多能力,这样他们就可以做“大量的事情”,a图形查询语言可能有意义,van Luijt说。
GraphQL在开发人员中的迅速崛起也吸引了将其用作数据库访问层的兴趣。图片:阿波罗
但是如果你想让人们访问图形变得简单,这样他们的学习曲线就很短,GraphQL就变得有趣了,他接着补充说:“大多数不熟悉图形技术的开发人员,如果看到SPARQL,他们就会开始出汗,变得紧张。如果他们看到GraphQL,他们会说,‘嘿,我明白这一点。这很有道理。”“
还有一个GraphQL的优势:它周围的社区。有很多可用的库,因为Weaviate使用GraphQL,所以也可以使用这些库。vanluijt将使用GraphQL的决定描述为https://en.wikipedia.org/wiki/User\u体验“target=”\u blank“rel=”noopener noreferrer“data component=”externalLink“>用户体验(UX)决策——访问API的用户体验应该是平滑的。
Weaviate还支持模式的概念。当实例开始运行时,API端点变得可用,用户需要做的第一件事就是创建一个类属性模式。它可以是简单的,也可以是复杂的,现有的模式也可以被导入。
Van Luijt在谈到向量的局限性以及开源的使用时有非常实用的观点。至open core,被选为对客户和用户透明的机制。
可能令人惊讶的是,van Luijt指出Weaviate并不一定在寻找贡献者。拥有这样的服务固然不错,但开源服务的主要目的是支持审计。当客户要求他们的专家审核Weaviate时,数据库、图形和图形ql:过去、现在和未来