专业的短链接生成工具
链接域名
短网址有效期
如何从0到1搭建搜索系统(一)
更新时间:2025-5-2 12:15:03 作者:爱短链
本文将简要介绍搜索系统的结构,帮助产品小白如何快速入门搜索,并建立一个基本满足中小型电子商务平台使用的搜索系统。
我希望我能帮助1到2个朋友。
欢迎更感兴趣的合作伙伴一起学习和讨论,共同进步。
概览篇 电子商务商品SPU随着越来越多的电子商务平台对商品搜索能力的要求越来越高,每个电子商务平台都开始制作自己的搜索系统。
这样做的好处之一是,商品排名可以根据自己的实际情况进行调整,也更适合商品价格竞争力保密性高的电子商务平台。
1. 核心指标 一般电子商务搜索的核心指标是搜索精度和广度,精度是搜索的精度,广度是搜索结果的范围。
搜索足够准确,为什么还有一个搜索广度指标? 电子商务搜索的关键结果(Key Result)它必须是为用户准确地搜索他们想要的商品。
这主要是因为虽然越来越多的电子商务平台商品不会覆盖一切,所以过度追求搜索的准确性会导致用户搜索结果更少或更多的搜索,这样的后果往往显得平台商品更薄。
如果用户不能搜索商品,他们必然会损失。
一方面,他们应该督促销售学生增加商品竞争,另一方面,他们在搜索本产品时所能做的就是向用户暴露一些相关商品。
所以搜索做得好不好,其实就是在搜索精度和广度之间做一个更好的平衡。
2. 搜索架构 搜索主要包括分词、数据查询和数据排序。
这是我找到的一个更直观的搜索结构,并重新绘制它。
您可以看到用户在搜索关键字时输入搜索关键字,通过搜索关键字,分裂关键字匹配商品数据、库存数据、营销活动、订单信息等数据,获得查询结果,根据相关性、销售、折扣、用户以往订单历史记录等因素合理排序搜索结果。
分词篇 很多朋友不明白为什么搜索需要分词。
分词可以拆解用户搜索的关键词,分析主要关键词,快速找到一堆商品,然后根据用户的形容词筛选这些商品,得到正确的结果。
以栗子为例,搜索进口红鸟鞋油……搜索引擎认为是口红,搜索结果会有口红,用户搜索目标产品实际上是鞋油,这显然是错误的。
此外,进口红鸟鞋油被正确识别为鞋油,进口是普通属性词只有0.1的权重,红鸟实际上是一个品牌词,权重0.8仅次于鞋油。
分词主要包括建立词库、词义分析和搜索纠错。
用户搜索关键词后,通过搜索监控对这些搜索关键词进行数据整理,清理数据后,去除一些无意义的乱码。
有一个词库会通过语义分析(词义分析)和分词服务将这些清洗后的关键词条记录下来,分成最小粒度。
根据拆分后的关键词,权重分析可以得出关键词的主次程度;仅仅拥有主次关键词是不够的。
关键词将从平面句子分为几个维度,并从多维度、多属性三维查询。
1. 建立词库 一般来说,垂直电子商务平台的词库,用户搜索的关键词会根据词库中的词条进行匹配,关键词会根据匹配结果进行分割。
例如,栗子:如果关键词是猪肉保存,如果条目中只有猪肉,那么猪肉保存的结果是猪肉和保存;你可以看到各种各样的关键词,建立一个词库需要大量的用户数据积累,从一开始就建立一个词库,这并不奇怪~的原因 因此,自建词库不仅成本高、见效慢,而且搜索往往不准确。
但为什么垂直电子商务仍然建立自己的词库呢? 这样做的主要好处是可以更适合这个平台的产品,提高搜索精度。
另一个栗子:一个销售二手手机的平台可以添加一些手机参数和型号作为条目,如搜索A1865,如果这个词存在于词库中,它将被用作整个词搜索。
用户可以通过搜索引擎更好地搜索iPhoneX 国行和港版。
2. 词义分析 词义分析主要是通过用户输入的关键词NLP(Natural Language Processing 自然语言处理)理解单词的含义,找到输入关键字的中心单词,根据不同类型拆分关键字并计算分数。
根据一家大型工厂的一个通用实体命名接口,我们首先模拟阿玛尼真丝绒哑光唇釉作为搜索关键词;分词结果主要包括类别词、品牌词、属性词(修饰词),权重也依次下降。
从搜索分词的结果来看,自建词库不仅可以选择网上开源词条,还可以根据自己电商平台商品的属性扩展词条。
一般包括品牌词、品类词等商品属性词。
3. 搜索纠错 在上图的分词结果图中可以看到 “synonym”: “amani;阿妈尼;armani jeans;阿码尼;emporio armani;armani” “amani阿妈尼和阿码尼是搜索纠错的过程。
主要是为了避免用户因输入法和口碑传播信息的差异而无法搜索用户期望的结果。
搜索纠错分为同义词、同义词、错别词和屏蔽词。
同义词: 一般包括中英文英文、别名等。
armani与阿玛尼同义词,以及上图返回结果【synonym】里面第一个amani其实是全拼,可以算在同义词里;或者杨树林也是ysl的同义词。
近义词:商品近义词的边界不容易定义,因为每个人对单词的理解都不同;近义词的应用场景实际上是为了增加搜索的广度。
也许商场里的猕猴桃很少或已经买完了,搜索结果显示奇怪的水果也就不足为奇了。
因此,为了搜索广度,我们还将相似的两个单词添加到相关的关系中,以减少搜索结果较少无法搜索带来的不良体验。
错别字:这是为了避免输入法在输入时不可避免地输入一些错别字。
如果不搜索自动纠错,阿码尼将分为阿码尼、代码和尼,而不被视为阿玛尼的品牌词。
屏蔽词:在搜索关键词时,用户可能会添加一些无序的代码,以避免这些无序的代码或标点符号影响搜索结果,扰乱搜索结果的重量。
所以当遇到无序的代码和标点符号时,请先屏蔽它们。
由于搜索是一个庞大的系统,经过反复思考,本文将根据搜索系统的分词、数据查询和数据排序分为多个介绍。
如果你想知道发生了什么,请听下~ 特别说明:本网站的主要目的是收集与互联网运营相关的干货知识,为运营伙伴提供便利。
本网站收集的公共内容来自互联网或用户的贡献,这并不意味着本网站同意其观点,也不对网站内容的真实性负责。
如有侵权行为,请联系网站管理员删除,。