100%
阅读:1896回复:2
开机速度排名与正态分布
本帖最后由 01471550 于 2011-11-9 21:21 编辑
电脑装了某开机助手插件,每次开机时都会看到类似的提示:您的电脑开机花了55秒,击败了全国61%的电脑。于是就想到2个问题:其一,它怎么能知道开机速度?其二,它是怎么排名次的? 第一个问题好办:因为我自愿安装了此类插件,人家也已经在安装软件时征求了你的意见了。按现有网络技术发展,网络服务器可以轻而易举获知许多信息,区区小小的开机速度,更是没有任何技术难点,尽管这也算是个人的一点小小隐私,但人家只是给你自己看,并作为一个淹没在海量数据库中的小小的统计抽样,没有向外泄露。你要担心隐私外泄,就把那个软件卸载了呗。也可以把那个开机小助手关闭,或者在开机时间小助手设置时将那个“我愿意参加开机时间调查”的那个勾取消即可(参见) 第二个关于排名次的问题,我认为只要略微使用统计工具,即可迎刃而解,但所谓战胜全国百分之多少的电脑,只是一个宣传噱头,因为这只能是一个统计分析结果,而绝不是真正的全国排名(当然以上仅仅是猜测)。做到这一点,大约可以分成以下几步: 1.收集数据建立数据库:网络服务器既然可以获知你的开机速度,同样可以获得安装此插件的所有用户的开机速度,这些数据都可以放在它的一个专门的数据库内。这样的数据库还是实时更新的。 2.抽取样本:抽取全部数据并没有太大意义,只需要从数据库里随机抽取包含你的开机时间在内的一部分样本。 3.计算平均值与标准差:根据以上抽样,计算样本的平均值与标准差。这是计算机的本行专业,几乎不费吹灰之力。 4.使用正态分布确定百分比地位:开机速度快慢,特快的和特慢的都是少数,中间占多数,它的分布服从中间高两头低的正态分布,我们可以通过计算和查表获知某一开机速度在统计样本中的百分比地位,其本质和步骤,就和学校考试中的标准分,或者工业生产中的工程能力指数是一样的。 5.计算分析: 假设在第3步中求得平均开机时间μ=60秒 , 开机时间标准差σ=17秒,你的开机时间是X=65秒,按下列公式折合你的开机标准时间z: z=(X-μ)/ σ 计算得:z=(65-60)/17=0.2941,其直观的几何意义表现在下面这张相应的正态分布图的曲线下面积上,X=65,相对应的就是图中红色区域:
图片:4.jpg 图1. μ=60, σ=17,X=65的示意图
【上图使用Excel中正态分布密度函数NORMDIST(x,μ,σ,FALSE)作图】
根据数理统计知识得知:整个正态分布曲线下面积为1,红色区域曲线下面积可以通过z=0.2941,查标准正态分布表(任何一本数理统计教材的附录或上网搜索都可查到),如下。 标准正态分布表(下表为其中一部分) 图片:3.gif 据z=0.2941,查上述标准正态分布表可得知,红色区域曲线下面积为0.6141,而整个曲线下面积为1,可知比65秒小的数据占整体的61.41%,也就是说开机速度快于65秒的占61.41%,这不是我们要的,我们要的是我所战胜的,应该是比我慢的,显然你的开机速度战胜的只有1-61.41%=38.59%≈39%。于是告知你,你的电脑开机速度战胜了全国39%的电脑。 如果你的开机速度快于平均开机速度,比如55秒,根据z=(55-60)/17=-0.2941,为负值,其示意图如下图: 图片:2.gif 图2. μ=60, σ=17,x=55的示意图
图片:1.jpg 数理统计知识告诉我们,根据正态分布曲线的对称性查表,得知红色区域面积为38.59%,即开机比我快的占38.59%,1-38.59%=61.41%,于是你的电脑开机速度战胜了61.41%的电脑。 以上过程,学过数理统计的应该很熟,至于计算、查表、判定,这是计算机的基本功能,它做这么几步是不费吹灰之力的。由于此类插件是中文版的,在国内安装量很大,于是乎,我被告知,你的开机速度战胜了全国61%的电脑。 对于这个问题要注意几点,首先要看到人家始终在说战胜了百分之多少,不说具体第几名,这就是告诉你,这只是一个统计分析,不是绝对名次排列;二是想一想,不安装该软件的电脑它无法获取开机速度,那么这个所谓全国也只是一个虚拟的范围;三是要理解人家提示你开机快慢的目的就是让你使用它的软件优化开机速度,推广使用它的软件。有些事就不要钻牛角尖了,怕隐私外泄,就卸载。 本文出处:http://blog.stnn.cc/oldshu/Efp_Bl_1004954030.aspx |
|
|
沙发#
发布于:2011-11-09 23:09
.............牵扯到高数了吧~晕倒不懂
|
|
|
板凳#
发布于:2011-11-10 21:50
|
|
|