微软公开了其Bing搜索服务背后的关键算法

2021-07-22上一篇 : |下一篇 :

微软 今天宣布它开源了一个关键部分,使其Bing搜索服务能够快速将搜索结果返回给用户。通过开放这项技术,该公司希望开发人员能够为其他用户搜索大量数据库(包括零售业)的用户构建类似的体验,尽管在这个数据丰富的时代,开发人员可能会发现很多其他企业和消费者使用案例。

该公司今天开源的软件是微软开发的一个库,它可以更好地利用它收集的所有数据以及它为Bing 构建的AI模型。

“仅在几年前,网络搜索很简单。用户输入几个单词并浏览结果页面,“该公司在今天的公告中指出。“今天,相同的用户可能会在手机上拍照并将其放入搜索框中,或使用智能助手提问而无需亲自触摸设备。他们也可能会输入一个问题并期待一个实际的答复,而不是一个可能答案的页面列表。“

利用空间分区树和图(SPTAG)算法作为开源Python库的核心,Microsoft能够在几毫秒内搜索数十亿条信息。

当然,矢量搜索本身并不是一个新想法。然而,微软所做的是将这一概念应用于深度学习模型。首先,团队采用预先训练的模型并将数据编码到矢量中,其中每个矢量代表一个字或像素。然后使用新的SPTAG库生成向量索引。随着查询的进入,深度学习模型将该文本或图像转换为向量,并且库在该索引中找到最相关的向量。

微软表示,“通过Bing搜索,矢量化工作已经扩展到搜索引擎索引的超过1500亿条数据,从而带来了对传统关键字匹配的改进。” “这些包括单个单词,字符,网页摘要,完整查询和其他媒体。一旦用户搜索,Bing就可以扫描索引的向量并提供最佳匹配。“