专业的短链接生成工具
链接域名
短网址有效期
逻辑回归在目标用户挖掘层面的应用
更新时间:2025-5-2 09:41:05 作者:爱短链
它包括分析现有用户特征和寻找符合目标特征的用户。
此外,如果您想对用户进行精细操作,您可以使用逻辑返回算法。
本文分析了五个方面,希望对您有所帮助。
随着用户数据的丰富,越来越多的公司开始开展自己的用户洞察项目。
所谓用户洞察,主要有两种输出,一种是现有用户肖像:一般是通过现有用户组分析目标用户特征;二是目标用户挖掘:以用户肖像为标准,寻找符合目标特征的用户。
事实上,这里的目标可以是积极的,也可以是消极的。
积极的,如注册目标、活跃目标、订单目标、回购目标等。
毫无疑问,找到这些意向用户可以帮助我们提高性能;消极的损失目标、睡眠目标和投诉目标也有自己的价值。
如果我们提前知道这种行为可能发生的用户可以提前采取预防措施。
然而,仅仅知道用户是否是我们的目标用户是不够的。
我们还需要知道它的意图。
例如,同样的目标用户:60%的订单可能与90%的订单可能性不同,这对我们的价值肯定不同。
考虑到精细操作,这两个用户需要采取不同的操作策略。
逻辑回归算法可以更好地满足我们的需求,同时对用户进行分类,了解他属于某一类的信心。
逻辑回归(Logistic Regression)解决二分类(0 or 1)问题的机器学习方法用于估计事物的可能性。
例如,用户购买商品的可能性、患者患疾病的可能性、用户点击广告的可能性等。
这一次,我们将介绍逻辑回归算法的实际应用,以挖掘旅游产品的用户下单意向为需求。
一、需求背景 根据现有用户的订单情况,预测新用户的订单可能性。
二、特征圈定 首先,我们应该根据经验影响用户订单的特征。
我们可以将相关特征分为一般特征和业务特征。
一般特征是指无论分析什么场景场景的特征。
因为这个分析的场景是:从以下几个方面可以考虑用户租车出行工具的可能性。
通用特征: 性别 年龄 所在地 经济水平 业务特征: 对于汽车租赁产品,用户租赁的目的是每天上下班,节假日出行。
因此,他的业务特点可以是: 公司-家的通勤距离 非驾驶出行时通勤时间长 节假日出行,可提炼的特点: 出行频次 出行距离 此外,我们还需要考虑另一个特点:APP用户行为。
三、获取特征数据 聪明的女人没有米饭很难做饭,做数据挖掘的前提必须是有足够的数据源,数据获取可以分为自己和外部采集两类。
对于大多数一般特征,我们经常允许用户通过注册、身份认证等渠道主动提供。
通过短信分析可以获得经济水平特征。
如果用户没有授权短信权限,用户的经济水平也可以通过居住区的平均房价进行估算。
用户社区通过夜间GPS定位判断,房价可以通过爬虫获得。
在业务特征中APP可通过用户行为APP埋点、用户访问路径:注册-登录-主页-车辆列表页面-车辆详细信息页面-预订页面-支付页面等。
通勤距离、假日旅行等数据可以从第三方购买。
移动联通通信公司通常可以通过信号基站获取用户的数据。
四、建立基模 在我们圈定了经验推测的特征数据后,我们可以进行建模。
虽然上述特征都是由我们的经验获得的,但并不一定会影响用户的订单。
即使它是相关的,它的相关性也将分为369,特征和特征之间可能有一定的相关性,所有这些问题,我们需要相应地处理。
但这些都没有影响,我们首先用所有的特征构建一个基本的模型,得到最原始的拟合,作为我们后续不断调整的参考组。
五、特色工程 1. 数据标准化 许多算法对特征的数量级很敏感,逻辑回归也不例外。
因此,我们最好将数据集中的特征转换为相同的数量大纲,以消除不同数量大纲对算法的负面影响。
我们称这个过程为数据标准化。
事实上,即使原始数据的量纲已经相同,多一步标准化也不会产生负面影响。
在scikit-learn常用的标准化方法有: 均值标准差标准化(StandardScaler) 标准化最小最大值(MinMaxScaler) 2. 去除多重共线性 在多线性回归中,自变量和应变量应该有线性关系,但如果自变量之间有线性关系,我们称之为多线性。
多线性共享会导致权重的不稳定,甚至拟合权重与相关系数相反。
然而,多重共线性追求模型的拟合优度如果我们只追求模型的拟合优度而不考虑权重系数的大小,我们就不能处理多重共线性。
我们通常使用方差膨胀系数(VIF)检测多线性回归中的多线性共性。
若变量之间存在多线性共性,则得到VIF值会更高,当VIF当值大于10时,就意味着有严重的多重共线性。
VIF我们可以直接调用计算python的statsmodels.stats.outliers_influence 包里的variance_inflationfactor方法。
3. RFECV特征选择法 在建立模型时,特征越多越好。
有些特征可能不会提高模型的质量。
我们可以直接删除这些特征,因此特征选择是建模中非常重要的环节。
选择特征的方法有很多。
这次我们介绍一下RFECV方法。
RFECV分为两部分: RFE:消除递归特征以评级特征的重要性 CV:交叉验证,特征评级后,通过交叉验证获得最佳数量的特征 具体流程如下: RFE阶段: 初始特征集(如果之前的操作删除了特征,最新特征是初始特征集)作为所有可用特征 利用当前特征进行建模,然后计算每个特征的重要性 删除最不重要的(或多个特征),更新特征集 跳转到步骤2,直到完成所有特征的重要性评级 CV阶段: 根据RFE阶段确定的特征重要性,依次选择不同数量的特征 交叉验证所选特征 确定平均分最高的特征数量,完成特征选择 在上述多步清洗操作过程中,我们可以看到新模型的拟合优度。
有时的步骤越多,拟合优度就越好。
我们可以根据实际需要选择合适的拟合优度模型,估计未下订单的用户,以获得最终订单的可能性。
特别说明:本网站的主要目的是收集与互联网运营相关的干货知识,为运营伙伴提供便利。
本网站收集的公共内容来自互联网或用户的贡献,这并不意味着本网站同意其观点,也不对网站内容的真实性负责。
如有侵权行为,请联系网站管理员删除,。