登录

  • 登录
  • 忘记密码?点击找回

注册

  • 获取手机验证码 60
  • 注册

找回密码

  • 获取手机验证码60
  • 找回
毕业论文网 > 外文翻译 > 经济学类 > 电子商务 > 正文

移动互联网的用户行为分析外文翻译资料

 2023-01-11 10:01  

移动互联网的用户行为分析

摘要:这些年手机互联网发展迅速,到在中国的部分细节只有一些内容被出版。这些论文使用WAP高速去学习手机互联网用户行为。首先,我们的目的是测试日常点击区别于由皮尔森相关系数的新方法。第二,我们介绍许多方法去描述在用户和网站分布的异常性,并且发现在用户点击分布服从20/80规则。然而,点击了网站分布服从幂律和10/90规则,在网站点击次数分布相比传统互联网更具有异质性。并且更加具有强的联系而这在传统的互联网中是不能发现的。最后,在不同时期的异质性通过基尼系数很好的表述。

关键字:移动互联网,用户行为,点击;异常性,WAP网关日志

  1. 介绍

“移动互联网”,是指从移动设备接入因特网,诸如智能手机或通过集成的能力,或通过一个独立的设备(例如它利用如WAP网关的笔记本电脑代理技术优化在无线域和万维网之间提高联系)[1,2]。中国的移动互联网人口在2010年上半年,已经看到了18.6%的爆发式增长共计2.77亿,在六月底,占总数的65.9%中国市民,根据中国互联网络信息中心发布的报告(CNNIC)[3]。从CNNIC后来的报告[4]表明,在12月底移动互联网用户已经达到303亿。然而,至今在移动互联网的用户行为的信息却很少。

分析用户的行为,关键是要客观地把握人们的在线活动和生活习惯(即导航模式,花在浏览页面时间,页面重新审视频率,网站重温频率和点击分布),这对于提供服务商制定和完善他们的网络营销策略是很有价值的,并为网络运营商来优化网络设置,提高网络服务质量。此外,分析WAP网关的日志日期,WAP网关系统的设计和优化有更重要的意义。因此,获得关于用户的活动的见解和探索的隐藏属性,以使所观察到的行为是有必要。

最早的努力已经使用的浏览器日志,Web服务器[5,6]的日志,搜索引擎的服务器[7],由路由器[8,9]或数据包所生成的网络流量数据从收集在互联网上发送的日志,通过Ethereal抓包工具[10] WAP网关来分析用户的行为。通过使用从各种来源的迹线,布雷斯劳等。 [11]发现并Web请求遵循齐普夫状分布与0.64和0.83的指数,在10/90规则并不适用于网络访问;而齐普夫状分布并请求频率不定性到Web服务器不好,没有一个Web服务器协助以最热门的网页和流行的网页几乎均匀地分布在热们Web服务器。几年后,Krashakov等人[12]发现并网站的排名分布很好拟合的改性齐普夫定律与指数rasymp;1,而且他们建议网站普及可以是因特网的一个通用性。由位于美国印第安纳大学,马克等人发现的点击专门的FreeBSD服务器收集数据。[13]发现所做的请求,可以很好拟合幂法每个Web服务器的数量的分布;用户的数量来每个Web服务器的分布是公拟合幂定律,这意味着做网站的流行的必要性基本上无界,没有任何集中趋势。恒丽杨等人。[14]提出了若干指标,发现了一个新的互联网应用名为WMC用户行为,论文指标包括几种类型的点击流的行为规则、用户细分,回来的可能性,登录时间和的寻求时间之间的关系。

在本文中,我们使用中国电信的WAP网关的日志数据去研究,研究移动互联网用户的点击行为。首先,我们来分析每天的点击分布规律由相关Pearson相关系数均值。下一步,我们通过累积分布函数(CDF)和基尼系数分析的点击的用户之间的分布的特性。最后,我们通过幂法分析了CDF和基尼系数在网站中的点击分布特征。

本文的贡献可以概括如下:(1)通过对皮尔逊相关系数对测量每天的点击分布的相似性提出了的新方法,并且发现在移动互联网环境下的每日累计点击规则。(2)介绍各种手段(:如,CDF,基尼系数,幂法,20/80法则,和10/90法则)来描述点击的异质性分布的两个用户和网站。(3)发觉了一些未在传统互联网中的未发现的新现象。(4)提交由吉尼系数测量在不同时间的异质性的方法。

论文的其余部分的结构如下。第2节介绍的数据集和数据预处理。第3节每日点击分析了聚集分布。第4节分析的点击用户中的分布。第5章分析了点击网站中的分布。最后,我们总结了论文。

  1. 数据描述

原始数据是属于中国电信WAP网关的WAP网关的日志。这些WAP网关日志记录的移动互联网用户的在线活动,从2010年4月5日至2010年4月11日的所有一周的信息,包括时间,主叫号码,目标域,URL,客户端IP地址,用户代理等。在这些日志中,有17316616线涵盖了82709用户,5411948网址,以及38967网站。数据集中的用户由主叫号码区分和网站是由目标域区分。虽然搜索方法消除了做一个移动终端不仅仅是一个最初的用户的合成条件,一些用户更换他们的移动终端,以及一个网站具有几个结构域,这些病例很少在数据收集期间。

WAP网关日志的每个记录包含请求和响应信息。因此,日志的记录的数量表示的请求的数量。根据[15],在网页中大致有许多的主观,这是从HTML和WML页周围的单独的单元。如果我们点击一个网页时,浏览器会发出多个请求来获取嵌入式图像,特别是当该网页包含很多小图标或广告横幅。为了避免这种不匹配,我们只保留其中检索文本文件(例如,HTML,WML,PDF,PS)的请求。这会影响总记录的46.70%,和WAP网关的日志最终覆盖82662用户,4488905网址,网站和28569,这是基础,所有的描述和分析做了如下。

  1. 每天的点击区分

在这一部分,我们分析了在移动互联网中整个用户的聚合,用户的每天点击行为。

首先,我们分配的点击了一个星期在图1中聚合的情节通过计数在每三分钟的WAP网关日志的记录的数目。这里是一个异常用户点击谁家分别于周三(Apr.7)和周四(Apr.8)达到108949次和108462次,这可以从曲线的特有荆棘峰如图“过滤出异常用户之前”1可见。如此庞大的点击次数显然不是人工搬运。过滤出与此相关的异常的用户的记录后,作为比较,将聚集的点击分布示于图1中。

图1展示跟随着人类的生活日程和代表着用户的行为活动,在一天和一周的各种点击。每天的点击趋势是相似的,其中上升,积极的是在上午7:00和凌晨1:00次日早晨之间,而保持在低水平,并处于非活动状态黎明前。此外,每天有几个峰的点击。发生定期8:30至11:30,13:00和15:00之间21:30和23:30之间,和在白天的峰值并不明显的周末。总体情况下,原因合成点击峰是复杂的。其中一个重要因素是互联网应急,以寻求打破新闻和重要的仪式。但是紧急的情况并不是每天都在发生,根据我们的推断,合成点击峰的主要原因是没有人在值班或赶路回家或睡前的时候,可以通过移动终端连接到互联网上。在他们不能用电脑访问互联网。只是因为移动终端的特征,增加了用户上网冲浪的机会。

图片一

图1直观显示了每日的点击倾向的相似性,但又是如何相似?皮尔逊系数相关联引入以测量聚集分布每日的点击相似度。它是测试两个变量X和Y之间的相关性,给一个价值r在正1和负1之间,如果0lt;rlt;1,Y增长并且下降作为X;如果-1lt;rlt;0,Y提升作为X下降;值为1意味着做了一个线性方程介绍关系,所有的数据点躺在一条线,其中Y为增加X增加。-1价值暗示着所有的数据点趴在一条线,其中Y为X减小增加。0的价值意味着变量之间没有线性关系[16]。被计算出的皮尔逊相关系数r为如下:

点击次数聚集每两天分布在一个星期的皮尔逊相关系数表示于表1中

表格1:Person相关系数

很明显,在表1的值是在0.82〜0.95的范围内,在平均为0.87,这表明确实每日的点击倾向是相似的。进一步,除了星期一周一(四月五号)和周日(四月十号)之间的值,平日间非常接近1,这表明人们的上网习惯是在一定程度上是非常相似的。这种移动互联网每天的点击分布规律的相似性在在今后的工作,是显著进一步研究的移动互联网用户行为。

4、在用户的点击分布

表1不仅可以揭示用户点击聚集行为,但点击用户之间的分配可以涵盖更精细的粒度。这部分点击的特征用户之间通过DASS周计算每个用户的点击数量。

有82661用户生成8988629点击。不同的用户贡献的各种点击值的最大、最小和平均数分别为86449,1,109。我们在表1中所示用户点击显示集群个人。

表格2. 个别用户点击的簇

它是直接观察用户的点击来自表2的分布很明显,谁产生小于50的点击用户占近80%的整体用户,但他们只产生总点击7.64%。虽然在1000点击的用户中只占近2.2%,整个的用户,并产生超过一半的总点击次数。这表明了广大用户的产生确实只有少数的点击,而极少数的用户能产生了大量的点击,并在调查的点击次数在用户的极端异质性。这表明了广大用户的产生确实只有少数的点击,而极少数的用户产生了大量的点击,在调查下的点击次数已经是用户极致的异质性。除了它需要大约20%的用户对约占92%的总点击次数。换句话说,20/80规则幸好适用于用户点击,证明确实用户点击的数量已经具有集中性和异质性。用户点击的相应的累积分布函数(CDF)被示于图2中

图二、用户点击的CDF

为了深入研究用户点击的异质性,引入基尼系数。基尼系数[17]是由意大利统计学家科拉多基尼开发统计分散的度量。它是常用的收入或财富的不平等的措施。取值范围从0到1,0对应完全平等,然而较高的基尼系数显示更多的分配不均,完成相应的不平等。作为一项规则,如果基尼系数高于0.4,它表明分配不均。当它高于0.5,则表示分布具有很大的不等式。虽然基尼系数在经济学中应用是最流行的,它可以在理论上对科学研究的任何领域,被应用做分配。在本文中,我们采用基尼系数来衡量用户点击不同的时间异质性程度。

计算的基尼系数是每三分钟通过采用在[18]被绘制在图中引入图3的方法。显然,大多数基尼系数高于0.5,甚至其中一些超过0.65,这意味着极端的异质性。同时,仍然有一些的基尼系数低于0.45,这意味着轻微的异质性。它通常发生在上午8:00和上午10:00平日之间。通过比较图1和图3中,我们发现这份极端的异质性,联密关系到点击剧变和用户数量,并且这些都反映了用户的点击使用习惯。

用户点击图3.基尼系数

5、在网站中的点击分布

这部分介绍了深入分析,在网站一周中的点击分布,希望能找到一些字符或有关点击网站中的分布。根据数据显示,通过82661用户分别产生的点数8988629,28379,2763654分别遵循幂法,拥有少于10次点击的网站约占66%的网站,拥有少于100次点击的网站占了近90%,而网站拥有超过10,000的点击数只占0.6%。这表明绝大多数网站都吸引只需点击几下,而极少数的网站吸引点击量,也就是说,点击在网站分布中是极不均匀的。怎样幂法分布?异类性又是如何体现的?下面,我们将回答这些问题。

5.1、点击了网站的分布遵循幂法

早期的许多研究已经研究了幂法去连接传统的互联网,并且有不同的结论。Breslau等人发现了ZIPF-like模型分配不请求频率表征对Web服务器,Krashakov等人发现网站的分布等级是稳定的。由改性齐普夫定律用的逼近指数rasymp;1。Mark等人发现要求每个Web服务器的数量分布可以很好拟合指数幂法,对每一个web服务器进行与幂法的恰当匹配,r的值大约是1.75。这里有可能有很多的各种各样的原因包括抵制的后果,包括他们的数据不同的事实。更多的结论是能力法律的形式,在[11]涉及到fnof;=Omega;/rordf;在[12中涉及到fnof;=b/(c r)ordf;并且在[13]中涉及到P[Xgt;x]asymp;x.在移动互联网中,什么是我们可以总结的?在这部分的细节中我们是可以详细说明的。

为了看到网站的点击幂法分布,(P[Xgt;x]~x)图4的一个星期我们绘制网站的累计百分比与Adobe X与X点击点击。关系接近线性对数,制造了能力法,通过最小二乘算法,坡值k是0.71,这是比1.75的值在[13]小。从某种程度上来讲,在移动互联网比传统互联网更加具有异类性。

因此我们也需要研究网站的齐普夫分布,并且我们也发现alpha;是基本接近1.91.也许alpha;的最大影响在于请求主办网站的浓度。较大的alpha;增加的累积概率可能做了其中之一最高r的网站点击, 这意味着更多的请求集中在几个热门网站。由alpha;=1.91gt;1时,我们可以安全的得出结论,网站的点击是需要强大的关注的。

由于浓度为Web和Web缓存设计要求的多播/广播方案广泛影响,我们检查请求的网站的累积分布。图5示出的网站的点击顶部r%的累积概率。如图所示显然,该网站的前1%的约占72.5%,可见通过WAP网关的总点击量,该网站的前1%的约占72.5%,可见通过WAP网关的总点击量,另一方面,10/90规则显然适用于网站的访问。强烈的浓度和网站的点击在移动互联网的异质性是从另外一个角度证明。

图4网站的点击幂律分布 图5网站的点击CDF

5.2、网站的点击基尼系数

为了看到在不同的时间网站的点击异质性程度,图6显示出了网站的吉尼系数点击算出每三十分钟为一个星期。很明显,每日基尼系数的倾向是类似于图1中所示的每日点击倾向。点击网站中的分布是在工作时间异质性,在家的路上,在睡觉之前,当在最大的集点击是; 而网站的点击异质性最低是黎明之前,当总点击最小。

图6、网站的点击基尼系数

  1. 总结

在论文中,我们研究的基础是,从中国电信的WAP网关的实际数据,移动互联网用户点击行为。我们的分析结果显示,有三种常规高峰时间段和低谷时间段在日常凝聚的点击; 点击之间聚集分布中的每一天的Pearson相关系数在一个星期都在0.8

剩余内容已隐藏,支付完成后下载完整资料


英语原文共 8 页,剩余内容已隐藏,支付完成后下载完整资料


资料编号:[287311],资料为PDF文档或Word文档,PDF文档可免费转换为Word

您需要先支付 30元 才能查看全部内容!立即支付

企业微信

Copyright © 2010-2022 毕业论文网 站点地图