数据挖掘:基于机器学习方法的POI品类推荐算法

2023-06-23 21:13:58 来源: 清一色财经

在美团商家数据中心(MDC),有超过100w的已校准审核的POI数据(我们一般将商家标示为POI,POI基础信息包括:门店名称、品类、电话、地址、坐标等)。如何使用这些已校准的POI数据,挖掘出有价值的信息,本文进行了一些尝试:利用机器学习方法,自动标注缺失品类的POI数据。例如,门店名称为“好再来牛肉拉面馆”的POI将自动标注“小吃”品类。

前言


【资料图】

在美团商家数据中心(MDC),有超过100w的已校准审核的POI数据(我们一般将商家标示为POI,POI基础信息包括:门店名称、品类、电话、地址、坐标等)。如何使用这些已校准的POI数据,挖掘出有价值的信息,本文进行了一些尝试:利用机器学习方法,自动标注缺失品类的POI数据。例如,门店名称为“好再来牛肉拉面馆”的POI将自动标注“小吃”品类。

机器学习解决问题的一般过程:

本文将按照:1)特征表示;2)特征选择;3)基于Naive Bayes分类模型;4)分类预测,四个部分顺序展开。

特征表示

我们需要先将实际问题转换成计算机可识别的形式。对于POI而言,反应出POI品类的一个重要特征是POI门店名称,那么问题转换成了根据POI门店名称判别POI品类。POI名称字段属于文本特征,传统的文本表示方法是基于向量空间模型(VSM模型)[1]:

空间向量模型需要一个“字典”,这个字典可以在样本中产生,也可以从外部导入。上图中的字典就是[好, 宾馆, 海底, 拉面, 冰雪, ……. ,馆]。我们对已校准的POI,先利用Lucene的中文分词工具SmartCn[2]对POI名称做预分词处理,提取特征词,作为原始粗糙字典集合。

有了字典后便可以量化地表示出某个文本。先定义一个与字典长度相同的向量,向量中的每个位置对应字典中的相应位置的单词。然后遍历这个文本,对应文本中的出现某个单词,在向量中的对应位置,填入“某个值”(即特征词的权重,包括BOOL权重,词频权重,TFIDF权重)。考虑到一般的POI名称都属于短文本,本文采用BOOL权重。

在产生粗糙字典集合时,我们还统计了校准POI中,每个品类(type_id),以及特征词(term)在品类(type_id)出现的次数(文档频率)。分别写入到表category_frequency和term_category_frequency,表的部分结果如下:

category_frequency表:

term_category_frequency表:

分别记:

这些统计量,将在后续的计算中发挥它们的作用。

特征选择

现在,我们得到了一个“预输入字典”:包括了所有已校准POI名称字段的特征词,这些特征词比如:“88”、“11”, “3”、“auyi”、“中心”、“中国”、“酒店”、“自助餐”、“拉面”等。直观感觉,“88”、“11”, “3”、“auyi”、“中国”这些词对判断品类并没有多大帮助,但“酒店”、“自助餐”、“拉面”对判断一个POI的品类却可能起到非常重要作用。

那么问题来了,如何挑选出有利于模型预测的特征呢?这就涉及到了特征选择。特征选择方法可以分成基于领域知识的规则方法和基于统计学习方法。本文使用统计机器学习方法,辅助规则方法的特征选择算法,挑选有利于判断POI品类的特征词。

基于统计学习的特征选择算法

基于统计学习的特征选择算法,大体可以分成两种:

1.基于相关性度量(信息论相关)

2.特征空间表示(典型的如PCA)

文本特征经常采用的基于信息增益方法(IG)特征选择方法[3]。某个特征的信息增益是指,已知该特征条件下,整个系统的信息量的前后变化。如果前后信息量变化越大,那么可以认为该特征起到的作用也就越大。那么,如何定义信息量呢?一般采用熵的概念来衡量一个系统的信息量:

当我们已知该特征时,从数学的角度来说就是已知了该特征的分布,系统的信息量可以由条件熵来描述:

该特征的信息增益定义为:

信息增益得分衡量了该特征的重要性。假设我们有四个样本,样本的特征词包括“火锅”、“米粉”、“馆”,我们采用信息增益判断不同特征对于决策影响:

米粉(A)火锅(B)馆(C)品类
110火锅
011火锅
100小吃
101小吃

整个系统的最原始信息熵为:

分别计算每个特征的条件熵:

利用整个系统的信息熵减去条件熵,得到每个特征的信息增益得分排名(“火锅”(1) > “米粉”(0.31) > “馆”(0)) ,按照得分由高到低挑选需要的特征词。

本文采用IG特征选择方法,选择得分排名靠前的N个特征词(Top 30%)。我们抽取排名前20的特征词:[酒店, 宾馆, 火锅, 摄影, 眼镜, 美容, 咖啡, ktv, 造型, 汽车, 餐厅, 蛋糕, 儿童, 美发, 商务, 旅行社, 婚纱, 会所, 影城, 烤肉]。这些特征词明显与品类属性相关联具有较强相关性,我们将其称之为品类词。

基于领域知识的特征选择方法

基于规则的特征选择算法,利用领域知识选择特征。目前很少单独使用基于规则的特征选择算法,往往结合统计学习的特征选择算法,辅助挑选特征。

本文需要解决的是POI名称字段短文本的自动分类问题,POI名称字段一般符合这样的规则,POI名称 = 名称核心词 + 品类词。名称核心词对于实际的品类预测作用不大,有时反而出现”过度学习“起到负面作用。例如”好利来牛肉拉面馆“, ”好利来“是它的名称核心词,在用学习算法时学到的很有可能是一个”蛋糕“品类(”好利来“和”蛋糕“品类的关联性非常强,得到错误的预测结论)。

本文使用该规则在挑选特征时做了一个trick:利用特征选择得到的特征词(绝大部分是品类词),对POI名称字段分词,丢弃前面部分(主要是名称核心词),保留剩余部分。这种trick从目前的评测结果看有5%左右准确率提升,缺点是会降低了算法覆盖度。

分类模型

建模

完成了特征表示、特征选择后,下一步就是训练分类模型了。机器学习分类模型可以分成两种:1)生成式模型;2)判别式模型。可以简单认为,两者区别生成式模型直接对样本的联合概率分布进行建模:

生成式模型的难点在于如何去估计类概率密度分布p(x|y)。本文采用的朴素贝叶斯模型,其"Naive"在对类概率密度函数简化上,它假设了条件独立:

根据对p(x|y)不同建模形式,Naive Bayes模型主要分成:Muti-variate Bernoulli Model (多项伯努利模型)和Multinomial event model(多项事件模型)[4]。一次伯努利事件相当于一次投硬币事件(0,1两种可能),一次多项事件则相当于投色子(1到6多种可能)。我们结合传统的文本分类解释这两类模型:

多项伯努利模型已知类别的条件下,多项伯努利对应样本生X成过程:遍历字典中的每个单词(t1,t2…t|V|),判断这个词是否在样本中出现。每次遍历都是一次伯努利实验,|V|次遍历:

其中1(condition)为条件函数,该函数表示当条件成立是等于1,不成立时等于0;|V|则表示字典的长度。

多项事件模型

已知类别的条件下,多项事件模型假设样本的产生过程:对文本中第k个位置的单词,从字典中选择一个单词,每个位置k产生单词对应于一次多项事件。样本X=(w1,w2…ws)的类概率密度:

采用向量空间模型表示样本时,上式转成:

其中N(ti,X) 表示特征词i在样本X出现的次数。

参数估计

好啦,一大堆无聊公式的折磨后,我们终于要见到胜利的曙光:模型参数预估。一般的方法有***似然估计、***后验概率估计等。本文使用的是多项伯努利模型,我们直接给出多项伯努利模型参数估计结论:

还记得特征表示一节中统计的term_category_frequency和category_frequency两张表吗?此时,就要发挥它的作用了!我们,只需要查询这两张表,就可以完成参数的估计了,是不是很happy? 过程虽然有点曲折,但是结果是美好的~ 具体参数意义可以参见特征表示一节。

接下来的coding的可能需要关注的两个点:

参数平滑 在计算类概率密度p(X | Cj)时,如果在类Cj下没有出现特征ti ,p(ti | Cj)=0,类概率密度连乘也将会等于0,额,对于一个样本如果在某条件下某个特征没有出现,便认为她产生的可能等于零,这样的结论实在是过武断,解决方法是加1平滑: 其中,|C|表示样本的类别数据。

小数溢出 在计算类概率密度时多个条件概率(小数)连乘,会存在着超过计算机能够表示的最小数可能,为避免小数溢出问题,一般将类概率密度计算转成成对数累和的形式。 另外,如果在计算p(ti | Cj)时过小,取对数后将会得到一个负无穷的值,需要对p(ti | Cj)截断处理:小于某个阈值(如1E-6)时,采用该阈值替代。

算法预测

本节将结合前面三节内容,给出算法具体的计算预测过程。为简化问题,我们假设字典为:[拉面,七天,牛肉,馆],并且只有火锅和快餐两个品类,两类样本的数量均为8个。以“好 利 来 牛肉 拉面 馆为例”:

对测试样本做中文分词,判断”牛肉“属于品类词,丢弃品类词”牛肉“前面的部分,并提取样本的特征词集合得到:[牛肉 拉面 馆]根据字典,建立向量空间模型:x = [1, 0, 1, 1]利用Naive Bayes模型分类预测,我们给出火锅和快餐两类样本的term_category_frequency统计:
特征词\品类火锅(C1)快餐(C2)
拉面05
七天20
牛肉42
21

样本属于快餐的概率高于属于火锅概率4倍,预测样本属于快餐置信度明显高于火锅概率。

算法随机抽取2000条未校准的POI数据进行评测,算法的评测指标有两个:覆盖度和准确率。覆盖度是指算法可预测的样本数量在整个测试样本集中的比例。由于采用特征选择后,一些POI名称因不包含特征词集合而无法预测,算法的评测的覆盖度为84%。算法的准确率是指,可预测正确样本在整个测试样本集中的比例,算法评测的正确率为91%。

总结

机器学习解决问题最关键的一步是找准问题:这种问题能否用机器学习算法解决?是否存在其他更简单的方法?简单的如字符串匹配,利用正则就可以简单解决,才机器学习方法反而很麻烦,得不偿失。如果能机器学习算法,如何去表示这个机器学习问题,如何抽取特征?又可能归类哪类机器模式(分类、聚类、回归?)找准问题后,可以先尝试一些开源的机器学习工具,验证算法的有效性。如果有必要,自己实现一些机器算法,也可以借鉴一些开源机器学习算法实现。

标签:

数据挖掘:基于机器学习方法的POI品类推荐算法

在美团商家数据中心(MDC),有超过100w的已校准审核的POI数据(我们一

06-23 21:13:58

超神学院观看顺序是什么 超神学院观看顺序|讯息

1、超神学院,1 2 3季看完,看黑甲。2、黑甲现在就一季,是讲第三季(

06-23 20:08:09

原创组图|游客三亚乐享端午假期

新海南客户端、南海网6月23日消息(记者沙晓峰)连日来,在海南三亚,

06-23 19:10:16

北京动物园发布提示 部分动物将减少外放时间-热点评

【北京动物园发布提示部分动物将减少外放时间】6月23日下午,北京动物

06-23 18:08:55

费德勒亮相哈雷赛,自曝每天会看3次比分,仍密切关注网坛 今日要闻

“这是我(自退役以来)第一次重返巡回赛,所以感觉有点奇怪,但这是一

06-23 17:14:29

88式机枪图片 机枪图片

1、德国MG18机枪,口径13 2x95mm,马克沁重机枪的放大版 楼上,你们放的是

06-23 16:54:40

天天快资讯丨国际志愿者日是什么活动_国际志愿者日是什么时候

1、第40届联合国大会通过决议,从现在起,每年的国际促进经济和社会发

06-23 15:51:17

家有购物官网(家有购物管理系统) 天天热点

您好,现在汉格来为大家解答以上的问题。家有购物官网,家有购物管理系

06-23 15:05:16

环球热议:新华保险理赔案例|一念之差险退保,97万理赔金渡难关

在人生道路上,疾病和意外总是让人不可预期,当疾病和意外来临的时候,

06-23 13:58:33

荣耀X50i微信如何关闭自启动_世界最新

要说最近哪款手机最为火爆,那非荣耀X50i莫属了,这款手机拥有很强大的

06-23 12:58:40

天天新动态:i5处理器哪个型号好2020(i5处理器哪个型号好)

来为大家解答以上的问题。i5处理器哪个型号好2020,i5处理器哪个型号好

06-23 11:46:13

全球今日报丨广西:做深做实农村集体“三资”监督管理

据中央纪委国家监委网站报导,广西壮族自治区平果市纪委监委在日常监督

06-23 10:56:58

热文:赵惠文王赵何(赵惠文王)

惠文王赵何,赵惠文王这个问题很多朋友还不知道,来为大家解答以上的问

06-23 10:06:14

考察泰坦尼克号的5名乘员已全部死亡

美国海岸警卫队最新消息,此前在考察“泰坦尼克”号邮轮残骸途中失踪的

06-23 09:35:48

金力永磁回购注销1.4万股限制性股票 天天简讯

金力永磁(06680)公布,公司本次回购注销的限制性股票涉及4人,回购注

06-23 08:53:49

美国海岸警卫队确认发现失联潜水器外部结构残骸 搜索将继续进行

当地时间22日下午,美国海岸警卫队就“泰坦”号失联潜水器的搜救情况举

06-23 08:00:52

落叶满空山作者 落叶满空山作者简介

hello大家好,我是城乡经济网小晟来为大家解答以上问题,落叶满空山作

06-23 07:16:37

红蝎子3之妖惑人心片段(红蝎子3之妖惑人心全集)

您好,现在汉格来为大家解答以上的问题。红蝎子3之妖惑人心片段,红蝎子

06-23 06:03:47

打开网页速度慢怎么办_打开网页速度慢

网页打开很慢怎么办?有时候,当本地网速太慢,多台电脑共享互联网,或

06-23 04:00:14

雷诺手表怎么样是名牌吗_雷诺手表怎么样 当前热门

1、你拿雷诺和卡西欧比,就跟拿奔驰和夏利比较是一样的。2、雷诺是瑞士

06-23 01:19:48

焦点热文:洛克王国宠物编号在哪里看_洛克王国宠物编号

1、楼上牛(⊙o⊙)啊!!!!!。本文到此分享完毕,希望对你有所帮助。

06-22 22:54:42

说唱跟嘻哈有什么区别_嘻哈和说唱有什么区别|快看点

1、嘻哈是一种文化、一种态度,包括街舞、涂鸦、说唱、DJ四种主要表达

06-22 21:54:58

【当前热闻】英雄联盟杰斯出装s11_英雄联盟杰斯出装

杰斯的出装推荐选择:魔切,残暴转黑切,轻语。九头蛇或饮血,减CD鞋,

06-22 20:48:17

民调显示:超半数受访者认为美国政府体系不健全

民调显示:超半数受访者认为美国政府体系不健全

06-22 19:58:41

世界热头条丨辽宁省进入投资黄金期 固定资产投资居全国第一梯队

中新网沈阳6月22日电(李晛)据辽宁省发改委6月22日消息,辽宁省当前进入

06-22 19:04:19

世界头条:长安汽车推出智能手表钥匙 支持一键点火/上锁等功能

易车讯近日,长安汽车官方发布了一款智能手表钥匙。该产品支持智能控车

06-22 18:18:45

焦点热议:22岁用什么护肤品好一点_22岁用什么护肤品好

1、22岁适合补水和养护的那种护肤品,二十几岁的年龄这个时候的皮肤底

06-22 17:12:19

“房屋三不挂,留下子孙富”,家里哪些画不能挂,有道理吗? 天天动态

“衣食住行”是我们每个人都离不开的,当然相对于“住”来说,穿衣、吃

06-22 15:54:49

Woj:凯尔特人不想继续等待 因此踢掉快船 独自与奇才谈判

Woj:凯尔特人不想继续等待因此踢掉快船独自与奇才谈判,奇才,快船队,wo

06-22 14:59:34

记者:格雷罗抵达医院接受拜仁的体检

直播吧6月22日讯据德国媒体《图片报》记者NicoLinner报道,格雷罗抵达

06-22 14:05:42

世界快资讯丨鳙鱼是什么鱼_鳙

1、鱅拼音:yōng 简体字:鳙部首:鱼部外笔画:11总笔画:22《康熙字典》

06-22 12:53:05

全系降价2万元,本田CR-V e:PHEV或大卖?-世界微动态

文|凌清、刘帅图|车宇世界、网络温馨提示:车宇世界,只做最真实的车评

06-22 12:15:04

端午氛围浓

21日,端午前日,哈尔滨市节日气氛浓郁。大街小巷,满是挂起来的彩色葫

06-22 11:06:45

八字财坏印代表什么 八字财坏印怎么化解-环球即时

生活中的人自然都希望自己有一个好的财富命运,不用花太多的努力就可以

06-22 10:36:22

合肥财会网 合肥市财政局会计网官网|全球热资讯

t1 “合肥财会网”,一个集财税资讯及服务于一体的财经社区,总部位

06-22 09:49:13

双阳区举办学子杯龙舟赛

6月21日,长春市双阳区首届学子杯“清凉夏日·粽情竞渡”活动精彩上演

06-22 08:58:36

恒顺醋业:6月21日融资买入245.73万元,融资融券余额2.94亿元

6月21日,恒顺醋业(600305)融资买入245 73万元,融资偿还228 32万元

06-22 08:47:41

世界资讯:2023年06月22日(20至30公斤)仔猪价格行情走势

2023年06月22日(20至30公斤)仔猪价格行情走势报价,单位:元 公斤江苏

06-22 07:36:09

全球石油需求结构加速调整 环球热门

全球石油需求结构加速调整

06-22 06:43:34

蔚来手机即将发布:主打高端 无广告

近日,蔚来宣布其推出的第一款智能手机N2301已经拿到工信部无线电核准

06-22 05:49:22

每日速讯:社区团店「嘉家团」今年开100家,将产地直发进行到底!

买菜这件事,前有社区团购,现在,是社区团店的未来。在社区团购赛道里

06-22 04:11:22

二手书网上书店哪个好一点_二手书网上书店哪个好-世界报资讯

1、那你可以去淘宝里面搜索下二手书店,应该是可以搜索到很多家店铺的

06-22 01:18:53

美联储鲍威尔:预计职位空缺与失业人口的比率将下降 世界通讯

6月21日电,美联储鲍威尔表示,预计职位空缺与失业人口的比率将下降;

06-21 23:00:48

2023年6月21日正癸醇价格最新行情预测|世界热议

中国报告大厅2023年6月21日正癸醇价格最新走势监测显示:上海蓝嫣化妆

06-21 21:58:34

环球讯息:北京挂牌大兴西红门、顺义新城2宗宅地,总起始价近70亿

北京挂牌大兴西红门、顺义新城2宗宅地,总起始价近70亿,顺义,现房,起始

06-21 21:05:27

陆天明“中国三部曲”系列推出新作《沿途》-环球速看料

80岁老作家陆天明的最新长篇小说《沿途》,近日由人民文学出版社出版。

06-21 20:32:49

提供生活“一站式”服务、以产业带动就业 河南淅川多举措写好易地搬迁“后半篇文章” 天天快看

中国青年网南阳6月20日电淅川县上集镇光明社区是河南省南阳市最大的易

06-21 19:58:53

振荡器突爆利好,3只龙头直线涨停,概念股名单来了

AI题材股大面积回撤。端午节前最后一个交易日,A股主要指数均出现下跌

06-21 19:23:24

观看泰坦尼克号残骸的潜水器失联,氧气将耗尽!或已失去动力|天天快播报

南都记者从美国海岸警卫队了解到,海洋之门探险(OceanGateExpeditions

06-21 18:57:05

浙江启动防汛Ⅳ级应急响应 梅雨季进入强降水集中期 世界快讯

中新网杭州6月21日电(郭其钰)6月21日是夏至节气第一天,南方地区迎来新

06-21 18:04:42

超神学院观看顺序是什么 超神学院观看顺序|讯息
原创组图|游客三亚乐享端午假期
北京动物园发布提示 部分动物将减少外放时间-热点评
费德勒亮相哈雷赛,自曝每天会看3次比分,仍密切关注网坛 今日要闻
88式机枪图片 机枪图片
天天快资讯丨国际志愿者日是什么活动_国际志愿者日是什么时候
家有购物官网(家有购物管理系统) 天天热点
环球热议:新华保险理赔案例|一念之差险退保,97万理赔金渡难关
荣耀X50i微信如何关闭自启动_世界最新
天天新动态:i5处理器哪个型号好2020(i5处理器哪个型号好)
全球今日报丨广西:做深做实农村集体“三资”监督管理
热文:赵惠文王赵何(赵惠文王)
考察泰坦尼克号的5名乘员已全部死亡
金力永磁回购注销1.4万股限制性股票 天天简讯
美国海岸警卫队确认发现失联潜水器外部结构残骸 搜索将继续进行
落叶满空山作者 落叶满空山作者简介
红蝎子3之妖惑人心片段(红蝎子3之妖惑人心全集)
打开网页速度慢怎么办_打开网页速度慢
雷诺手表怎么样是名牌吗_雷诺手表怎么样 当前热门
焦点热文:洛克王国宠物编号在哪里看_洛克王国宠物编号
说唱跟嘻哈有什么区别_嘻哈和说唱有什么区别|快看点
【当前热闻】英雄联盟杰斯出装s11_英雄联盟杰斯出装
民调显示:超半数受访者认为美国政府体系不健全
世界热头条丨辽宁省进入投资黄金期 固定资产投资居全国第一梯队
世界头条:长安汽车推出智能手表钥匙 支持一键点火/上锁等功能
焦点热议:22岁用什么护肤品好一点_22岁用什么护肤品好
“房屋三不挂,留下子孙富”,家里哪些画不能挂,有道理吗? 天天动态
Woj:凯尔特人不想继续等待 因此踢掉快船 独自与奇才谈判
记者:格雷罗抵达医院接受拜仁的体检
世界快资讯丨鳙鱼是什么鱼_鳙
全系降价2万元,本田CR-V e:PHEV或大卖?-世界微动态
端午氛围浓
八字财坏印代表什么 八字财坏印怎么化解-环球即时
合肥财会网 合肥市财政局会计网官网|全球热资讯
双阳区举办学子杯龙舟赛
恒顺醋业:6月21日融资买入245.73万元,融资融券余额2.94亿元
世界资讯:2023年06月22日(20至30公斤)仔猪价格行情走势
全球石油需求结构加速调整 环球热门
蔚来手机即将发布:主打高端 无广告
每日速讯:社区团店「嘉家团」今年开100家,将产地直发进行到底!
二手书网上书店哪个好一点_二手书网上书店哪个好-世界报资讯
美联储鲍威尔:预计职位空缺与失业人口的比率将下降 世界通讯
2023年6月21日正癸醇价格最新行情预测|世界热议
环球讯息:北京挂牌大兴西红门、顺义新城2宗宅地,总起始价近70亿
陆天明“中国三部曲”系列推出新作《沿途》-环球速看料
提供生活“一站式”服务、以产业带动就业 河南淅川多举措写好易地搬迁“后半篇文章” 天天快看
振荡器突爆利好,3只龙头直线涨停,概念股名单来了
观看泰坦尼克号残骸的潜水器失联,氧气将耗尽!或已失去动力|天天快播报
浙江启动防汛Ⅳ级应急响应 梅雨季进入强降水集中期 世界快讯
怎样修复和子女的关系
X 广告
资讯
X 广告

Copyright ©  2015-2022 亚洲畜牧网版权所有  备案号:京ICP备2021034106号-51   联系邮箱:5 516 538 @qq.com