加入收藏 | 设为首页 | 会员中心 | 我要投稿 大连站长网 (https://www.0411zz.cn/)- 科技、建站、经验、云计算、5G、大数据,站长网!
当前位置: 首页 > 大数据 > 正文

【PPT+实录】携程酒店研发部BI经理潘鹏举:机器学习在OTA酒店服

发布时间:2021-05-14 23:04:33 所属栏目:大数据 来源:网络整理
导读:副标题#e# 【本文系互联网技术联盟(ITA1024)原创首发,转载或节选内容前需获授权(授权后一周以后可以转载),且必须在正文前注明:本文转自互联网技术联盟(ITA1024)技术分享实录,微信公众号:ita1024k】 潘鹏举 携程 酒店研发BI经理 互联网技术联盟 IT

如果你的模型已经通过了初步的目标,可能会开始开发上线的流程,会开发API,开发完之后校验数据对不对,然后再放在线上空跑,空跑是指模型已经在线上嵌入了,会配置一个开关,开关开启控制模型对现有流程不影响,记log,通过log分析这个模型在线上的真实效果,主要目的是做风控。空跑之后上线,做模型监控,这是一整套的流程。

? ?

对于工具,主要是用R和python,会有好几个部署有R和Python的服务器,在这上面训练模型。


【PPT+实录】携程酒店研发部BI经理潘鹏举:机器学习在OTA酒店服

这是Feature设计的例子,有房预测分不同的维度,其实主要是加了不同维度的先验概率,不同时刻预订可确认率是不一样的,白天可确认是比较高的,到了晚上确认就比较差。

???

酒店维度。

??

紧张度维度,紧张度的定义是,酒店有50个房子,有40个关闭掉了,只剩下20%的房间,那么这个房间的紧张度是80%。

???

房型维度跟酒店维度差不多,颗粒度不一样,房型维度主要刻画库存的实际消耗情况。

???

【PPT+实录】携程酒店研发部BI经理潘鹏举:机器学习在OTA酒店服


模型训练的经验总结。

???

在模型训练里面特征工程、准备数据花很多时间。这列了一些常用的方法:

???

  • 缺失值预测,对缺失值用一个模型进行预测,填补缺失值。对重要变量的缺失值做预测,它可以提升模型的效果。

  • ? 百分比变换,规避分母出现0的影响。这边列了一个小技巧,A除以B,B是0,就会出现NA、NAN异常值,会在分母里加一个很小的数字,比如加0.000几,这样就不会出现NA、NAN等异常数值,训练模型会比较方便。对于类别变量列了三种常用处理方法。


  • OneHotEncode。

  • WOE在风控上用得比较多,可以训练处目标变量和预测变量之间的权重是多少。相比较OneHotEncode,WOE只有一个变量结果。

  • Impactcoding,跟WOE思路是一样的,只是变换公式不太一样。

???

【PPT+实录】携程酒店研发部BI经理潘鹏举:机器学习在OTA酒店服

数据挖掘、机器学习都会提到归一化。


在这边的业务模型中比较少用到归一化,归一化就是把量当作了一些scale,会用最大最小值,如果放在线上,需要把最大最小值存储下来。最主要的问题,可能线下训练数据最大最小值差距是比较明显,会导致出现预测偏差。另外目前使用的集成机器学习对量纲不敏感。

???

【PPT+实录】携程酒店研发部BI经理潘鹏举:机器学习在OTA酒店服

衍生新变量。

??

  • Entropy转换,用了它对模型的效果进行提升。思路针对room对多个变量的不确定性进行衡量。

  • GBDT衍生新变量。思路,在每个观察值在节点上的结果作feature。

  • SVD++衍生新变量,用这个方式发现featuer,隐含的因子用它来学习,有一个模型里面用到。

???

【PPT+实录】携程酒店研发部BI经理潘鹏举:机器学习在OTA酒店服

把训练是分为两倍,50%做第一层,就是T1,左边叫第一层模型。把这个东西feature训练出第二层模型,用最终的模型预测test结果。


有些人训练很少自己分training和test,把它的结果直接提交,看提交结果后的如何。

???

训练模型,一般都会留一个test集合,在线下训练模型的时候,可能会尝试很多种模型,要对比出模型是否有差异,就可以用同一个test去预测一下,这样就比较方便对比出不同模型之间的差异。

???

(编辑:大连站长网)

【声明】本站内容均来自网络,其相关言论仅代表作者个人观点,不代表本站立场。若无意侵犯到您的权利,请及时与联系站长删除相关内容!