随着数字时代的到来,信息的种类和内容都在不断增长,为了在海量数据中寻找到用户所需要的信息,推荐技术已经广泛应用于各个领域,例如搜索引擎、电子商务、社交网络、新闻门户等。个性化推荐是根据用户的兴趣特点和购买行为,向用户推荐用户感兴趣的信息和商品。它更是建立在海量数据挖掘基础上的一种高级商务智能平台,以帮助电子商务网站为其顾客购物提供完全个性化的决策支持和信息服务。在社交网络蓬勃发展以及海量信息个性化需求的驱动下,社会推荐系统研究已取得一定进展。
对于中国来说,人口基数大,社交平台和网络用户众多,电商平台交易额巨大,网络用户对于个性化推荐的要求正在不断提高,对于想要盈利的电商来说,这正是一个不可错过的契机。然而电商往往只是通过内部的数据分析,由用户以往的浏览历史探寻他们可能会喜爱的商品,而没有将具有相互作用的网络结合起来。通过用户在别的网站的记录探究他们可能感兴趣的商品,从而直接为他们推荐。简而言之,多维数据的整合分析是目前个性化推荐中缺少的。
一、社交平台数据采集指标的确定
本文通过研究主流社交平台微博和微信中对用户兴趣影响最大的因素,从而挖掘出用户在这些社交平台上的行为所表现出的兴趣。另一方面,我们挖掘出相同用户在电商平台所表现出的购物倾向,通过k-means聚类分析计算所属类别是否具有较强的一致性,从而研究用户在这两个平台的兴趣是否有所联系,以此来为电商平台提高其个性化推荐的精准度和多元性提供可行途径,以增强其个性化推荐的有效性。
(一)问卷调查
本文首先设计了一份在线调查问卷,调查人群首先定位为在校大学生。共计收到178份有效问卷。参与调查的人数为178人,其中男性75人,女性103人。根据我们设置的问题,从以下几个切入点进行分析,以明确未来具体研究方向。
1.受微博影响购买商品的用户是否也会受微信影响购买商品。利用SPSS对两组数据进行相关性分析,得到微博与微信的显著性值0.000178,但Pearson相关系数为0.413。结果表明它们之间有低相关度,即受微博影响而网购的人不一定会受微信影响;反之同理。
2.微信对购物的影响及选择不同方式的人数。通过调查,大约18%的受调查者会因为朋友在微信朋友圈发的某件产品而产生兴趣并去电商平台浏览购买,而96%的受调查会因为浏览到微信公众号中感兴趣的产品而在电商平台浏览购买。上述数据说明微信公众号的推荐对于网购的影响十分显著,而朋友圈朋友推荐的影响一般。
3.微博对购物的影响及选择不同方式的人数。通过调查问题:“若您关注的商品官博、微博名人、微博好友或微博热搜和推广更新了新的产品,您会考虑购买吗?”我们发现受调查者基本都会对这四个渠道而获得的产品信息感兴趣并去浏览购买,且多数人会把名人微博(包括推荐微博内容和照片上看到的)的商品作为优先考虑对象。
根据问卷结果,我们发现微博等社交平台用户普遍认为他们在社交平台上留下的痕迹(关注、文字等)能在一定程度上反映他们对于购买物品的偏好。
(二)建立回归模型
从问卷中总结出影响用户购物兴趣的四个因素,即官方微博产品发布、微博关注名人、微博好友推荐、热搜商品。对这四个因素和购物兴趣做相关性检验,我们得到微博关注名人与用户购物兴趣的相关性最大。接着,我们对这四个因素进行多元logistic回归,结果如下:
显著性水平小于0.05,说明模型拟合良好。又通过似然比检验,发现T8(好友在微博上的推荐)和T9(出现在热搜上的商品)对人们购买的影响不显著。
接着,剔除T8,T9,对T6(官方微博产品发布)和T7(微博关注名人)进行回归。发现T7(微博关注名人)对用户购物影响最大。
二、社交平台与电商平台数据采集与分析
(一)社交平台数据采集与用户兴趣分析
1.数据采集。根据微博用户普及度广泛、信息公开度较高的特点,我们以微博为主要切入点研究社交平台用户的购买倾向。首先,本文对微博用户关注人的数据爬取是基于微博上正常、活跃用户(即其账号性质为非马甲号,非营销号,非公众号,非僵尸号,微博更新平率稳定且均匀,其关注人能基本代表其兴趣倾向的微博用户)中随机抽取200位作为样本,分别对其前100名关注人进行数据爬取。该方法保证了数据来源的真实性、可分析性以及研究结果的可靠性。
鉴于人们的购物兴趣受微博名人的影响性最大,我们对微博名人堂的娱乐、财经、科技数码、人文艺术、游戏动漫、传媒新闻、公益政务、生活、体育、时尚等十几大类,数十小类进行加黄V用户(即微博官方认证用户)进行数据爬取汇总将这十几大类合并为十类进行信息匹配。
2.兴趣分析。用matlab对这200个样本进行信息匹配,通过各类名人在这200个样本中所占比重和重合度来分析微博用户的兴趣分析。由匹配结果人们对不同类别的名人存在明显的偏好,关注最多的方向为其兴趣所在。如表4所示是前10名用户的关注人在每一类分类下对应的关注用户数目,表格中的数字表示用户i在各个类别的关注人个数。
(二)电商平台数据采集与用户兴趣分析
随机选出的微博用户中的50位,获得他们的同意后,得到他们的淘宝购买记录,并对他们半年内的购买记录进行数据采集,得到他们在娱乐、财经、科技数码、人文艺术、游戏动漫、传媒新闻、公益政务、生活、体育、时尚这十类上的购买数据分布。
(三)兴趣分布匹配度检验
1.K-means聚类。我们首先应用k-means聚类分析法将用户对于微博淘宝分别进行聚类,即将兴趣较为相似的人划分为一类。通过对阈值进行调整,我们最后将用户在淘宝和微博上分别分为5类。
根据用户在微博上的关注人的分布不同,我们将参与实验的50位用户进行聚类分析,得到了每个人所属的类别,并且得到了相应的分类数据,如用户1,10,11,17等属于聚类类别1,类别1包含的小类别有娱乐、人文艺术、公益服务、生活、时尚;用户34、37、44属于聚类类别2,即说明他们对娱乐、数码科技、生活、时尚感兴趣;用户4、18、26、42等属于聚类类别3,说明他们感兴趣的方向在人文艺术、游戏动漫、生活和体育;用户15、16、39属于聚类类别4,这个类别包含了人文艺术、传媒、公益政务;用户5、9、22、29等属于聚类类别5,说明他们对娱乐、生活、时尚感兴趣。
对于相同用户的淘宝购物,我们同样做了k-means聚类,同样获得了这50位用户所属的聚类类别以及相应的感兴趣的方向。
2.列联表相关性分析。为了检验用户在微博上表现出的兴趣与他们在淘宝上表现出的购物兴趣是否具有相关性与一致性,通过列联表分析和精确P值检验。通过Fisher精确检验,得到p值小于0.05,说明用户在微博和淘宝上的分类不具有独立性,即说明两者相互影响,相互作用。接着,求出微博分类和淘宝分类的相关系数为0.42186,说明在现实条件下,他们二者有明显的相关性。
通过对应每个聚类类别下的包含类别,我们能够画出如下的社交网络平台和电子商务平台的数据对应图。如图1所示,能发现如下规律:在微博平台关注娱乐类别的用户通常在淘宝等电子商务平台会倾向于购买娱乐、游戏动漫、生活、时尚类的产品;在微博等社交平台关注财经类的用户倾向于购买传媒、财经类的产品等。
三、结论
本文从社交平台和电商平台的关系出发,首先通过问卷调查,并结合爬虫爬取的数据得到两平台间信息有一定的相关性,即社交平台用户普遍认为他们在社交平台上留下的痕迹(关注、文字等)能在一定程度上反映其对于购买商品的偏好。以官博、好友、名人、热搜推广作为用户在微博上的兴趣参考因素,将关注人种类作为自变量,购买欲望作为因变量,进行logistic回归,得到回归方程。通过回归方程的参数,我们发现用户在微博上的关注人对用户的购物欲望影响最大。接着爬取微博用户的关注人,并与微博本身数据库中的名人数据进行匹配,得出用户的关注人分布,从而反映出用户的兴趣。通过k-means聚类的方法得到的类别对应图,即说明淘宝等电商平台在进行购物的个性化推荐时,可以参考用户在微博等社交平台上的数据,从而优化个性化推荐,使得个性化推荐系统更加完善和准确。
参考文献:
[1]朱郁筱,吕琳媛.推荐系统评价指标综述[J].电子科技大学学报,2012(02):163-175
[2]余珺.社交网络与电子商务结合的理论及实践研究[D].华中师范大学,2015
[3]梁润庭(RuntingLeung).面向微博用户的兴趣识别算法的研究与实现[D].西南交通大学,2015
[4]宋巍,张宇,谢毓彬,刘挺,李生,都云程.基于微博分类的用户兴趣识别[J].智能计算机与应用,2013(04):80-83
[5]许波,张结魁,周军.基于行为分析的用户兴趣建模[J].情报杂志,2009(06):166-169
[6]李璐瑶.基于微博平台的用户兴趣模型研究与分析[A].中国统计教育学会.2015年(第四届)全国大学生统计建模大赛论文[C].中国统计教育学会,2015:26
(作者单位:上海财经大学统计与管理学院上海200433)
[作者简介:董昕(1995—),女,上海财经大学统计与管理学院,主要研究方向:商务统计;邱悦(1996—),女,上海财经大学统计与管理学院,主要研究方向:商务统计;王乃加(1995—),女,上海财经大学统计与管理学院,主要研究方向:金融统计。]