‘壹’ 分层抽样的算法步骤
分层抽样 1、知识与技能:
(1)正确理解分层抽样的概念;
(2)掌握分层抽样的一般步骤;
(3)区分简单随机抽样、系统抽样和分层抽样,并选择适当正确的方法 进行抽样。
2、过程与方法:通过对现实生活中实际问题进行分层抽样,感知应用数学 知识解决实际问题的方法。
3、情感态度与价值观:通过对统计学知识的研究,感知数学知识中“估计 与“精确”性的矛盾统一,培养学生的辩证唯物主义的世界观与价值观。
4、重点与难点:正确理解分层抽样的定义,灵活应用分层抽样抽取样本, 并恰当的选择三种抽样方法解决现实生活中的抽样问题。
教学设想: 教学设想 【创设情景】 假设某地区有高中生 2400 人,初中生 10900 人,小学生 11000 人,此地 教育部门为了了解本地区中小学的近视情况及其形成原因,要从本地区的 小学生中抽取 1%的学生进行调查,你认为应当怎样抽取样本? 【探究新知 探究新知】 探究新知 一、分层抽样的定义。 一般地,在抽样时,将总体分成互不交叉的层,然后按照一定的比例, 从各层独立地抽取一定数量的个体,将各层取出的个体合在一起作为样本, 这种抽样的方法叫分层抽样。 说明】 【说明】分层抽样又称类型抽样,应用分层抽样应遵循以下要求:
(1)分层:将相似的个体归人一类,即为一层,分层要求每层的各个个体 互不交叉,即遵循不重复、不遗漏的原则。
(2)分层抽样为保证每个个体等可能入样,需遵循在各层中进行简单随机 抽样,每层样本数量与每层个体数量的比与这层个体数量与总体容量 的比相等。 二、分层抽样的步骤: (1)分层:按某种特征将总体分成若干部分。
(2)按比例确定每层抽取个体的个数。
(3)各层分别按简单随机抽样的方法抽取。
(4)综合每层抽样,组成样本。
【说明】 (1)分层需遵循不重复、不遗漏的原则。
(2)抽取比例由每层个体占总体的比例确定。
(3)各层抽样按简单随机抽样进行。
探究交流:
(1)分层抽样又称类型抽样,即将相似的个体归入一类(层) ,然后每层抽 取若干个体构成样本,所以分层抽样为保证每个个体等可能入样,必 ( ) 须进行A、每层等可能抽样 B、每层不等可能抽样 C、所有层按同一抽样比等可能抽样
(2)如果采用分层抽样,从个体数为 N 的总体中抽取一个容量为 n 样本,那么每个个体被抽到的可能性为 ( ) A. N 1 B. n 1 C. N n D. N n
点拨: 点拨: (1)保证每个个体等可能入样是简单随机抽样、系统抽样、分层抽 共同的特征,为了保证这一点,分层时用同一抽样比是必不可少 的,故此选 C。
(2)根据每个个体都等可能入样,所以其可能性本容量与总体容量 比,故此题选 C。
知识点 2 简单随机抽样、系统抽样、分层抽样的比较 适 用 类 别 共同点 各自特点 联 系 范 围
(1)抽样过程中每 总体个 简 单 从总体中逐个抽取 个个体被抽到 数较少 随 机 的可能性相等 将总体均分成几部 抽 样 在起始部分 总体个
(2)每次抽出个体 分, 按预先制定的规 样时采用简 数较多 后不再将它放 则在各部分抽取 随机抽样 系 统 回,即不放回 抽 样 总体由 抽样 分层抽样时采 差异明 将总体分成几层, 用简单随机抽 显的几 分 层 分层进行抽取 样或系统抽样 部分组 抽 样 成 【例选精析】 例选精析】
例1、 某高中共有 900 人,其中高一年级 300 人,高二年级 200 人,高三年级 400 人,现采用分层抽样抽取容量为 45 的样本,那么高一、高二、高三各 年级抽取的人数分别为 A.15,5,25 B.15,15,15 C.10,5,30 D15,10,20 分析]因为 300:200:400=3:2:4,于是将 45 分成 3:2:4 的三部分。设 [分析 分析 三部分各抽取的个体数分别为 3x,2x,4x,由 3x+2x+4x=45,得 x=5,故 高一、高二、高三各年级抽取的人数分别为 15,10,20,故选 D。
例 2:一个地区共有 5 个乡镇,人口 3 万人,其中人口比例为 3:2:5:2:3, 从 3 万人中抽取一个 300 人的样本,分析某种疾病的发病率,已知这种疾 病与不同的地理位置及水土有关, 问应采取什么样的方法?并写出具体过 程。
[分析 分析]采用分层抽样的方法。 分析 解:因为疾病与地理位置和水土均有关系,所以不同乡镇的发病情况差异明 显,因而采用分层抽样的方法,具体过程如下:
(1)将 3 万人分为 5 层,其中一个乡镇为一层。
(2)按照样本容量的比例随机抽取各乡镇应抽取的样本。 300×3/15=60 (人) 300×2/15=100 , (人) 300×2/15=40 , (人) 300×2/15=60 , (人) ,因此各乡镇抽取人数分别为 60 人、40 人、100 人、40 人、60 人。 (3)将 300 人组到一起,即得到一个样本。
‘贰’ 简单抽样怎么算
(n-1)/n*(n-2)/(n-1)*1/(n-2)=1/n 没错啊
请注意、第二次抽的时候、总数是n-1,即没抽中概率=1-1/n-1=(n-2)/(n-1)
‘叁’ AQL抽样标准是怎么算的
AQL值是各公司依客户要求、产品特性等决定的。抽样检验里面分抽样水平和判定水平二种通常产品抽样水平:外观检验是用一般水平Ⅱ,尺寸抽样是用物殊水平S-4。至于产品可靠性测试的抽样则更是依产品而定。
通过AQL2.5/4.0抽查检验表(GB2828-87)得出的。
说明:Ac——Accept(合格判定数);Re——Rcject(不合格判定数)例:订单数是3000件,按照AQL2.5标准抽查125件,次品数≤7就PASS(通过)。
次品数≥8就FAIL(不合格)订单数为7件,按AQL2.5标准抽查5件,无次品就PASS,有一件次品都FAIL;如果按照AQL4.0标准则只抽查3件,无次品就PASS。
验货抽检
批量范围、检查水平、AQL值决定抽样的数量和合格与不合格产品的数量。服装质量检查采用一次抽样方案,服装批量的合格质量水平(AQL)为2.5,检查水平为一般检查水平,检查的严格度为正常检查。
正常检查一次抽样方案(AQL-2.5) AQL是----ACCEPTANCE QUALITY LIMIT 的简称,是一个国际标准, 1 ) AC=Acceptable number =使用箭头下面的第一个数值 =使用箭头上面的第一数值抽样数量是以一般检验II级检验水平来进行的。
以上内容参考:网络-aql
‘肆’ 什么是吉布斯采样算法
几个可以学习gibbs sampling的方法
1,读Bishop的Pattern Recognition and Machine Learning,讲的很清楚,但是我记得好像没有例子。
2,读artificial Intelligence,2、3版,都有。但是我没读过。
3,最方便的,查wiki,这个说的最清楚。
这里通俗点的解释一下。首先,什么是sampling。sampling就是以一定的概率分布,看发生什么事件。举一个例子。甲只能E:吃饭、学习、打球,时间T:上午、下午、晚上,天气W:晴朗、刮风、下雨。现在要一个sample,这个sample可以是:打球+下午+晴朗。。。
问题是我们不知道p(E,T,W),或者说,不知道三件事的联合分布。当然,如果知道的话,就没有必要用gibbs sampling了。但是,我们知道三件事的conditional distribution。也就是说,p(E|T,W),p(T|E,W),p(W|E,T)。现在要做的就是通过这三个已知的条件分布,再用gibbs sampling的方法,得到joint distribution。
具体方法。首先随便初始化一个组合,i.e. 学习+晚上+刮风,然后依条件概率改变其中的一个变量。具体说,假设我们知道晚上+刮风,我们给E生成一个变量,比如,学习-》吃饭。我们再依条件概率改下一个变量,根据学习+刮风,把晚上变成上午。类似地,把刮风变成刮风(当然可以变成相同的变量)。这样学习+晚上+刮风-》吃饭+上午+刮风。
同样的方法,得到一个序列,每个单元包含三个变量,也就是一个马尔可夫链。然后跳过初始的一定数量的单元(比如100个),然后隔一定的数量取一个单元(比如隔20个取1个)。这样sample到的单元,是逼近联合分布的。
我也是刚wiki到的,可能不完全正确,欢迎讨论:
[email protected]
‘伍’ 抽样样本选择的方法是
抽样调查的一般程序:抽样调查是由五个步骤组成的工作过程。 1、确定调查总体:即明确调查的全部对象及其范围。这是抽样调查的前提和基础。 2、抽样框架的确定和个体编号:抽样框架这是提供抽样所用被调查对象的详细名单。在没有现成名单的情况下,可由调查人员自己编制。个体编号:即对调查总体中的个体进行编号。 3、选择调查样本:需首先确定抽样的技术(随机抽样还是非随机抽样),要确定具体的抽样方法(如分层抽样还是分群抽样)还要确定样本的数量。在上述问题确定后,按预定的要求选择调查的样本。 4、实施调查:对选定的样本运用不同的调查方法逐个进行调查,从而取得第一手资料。 5、测算结果:这是抽样调查的最后一个步骤,也是抽样调查的目的的所在。指用样本指标推断总体指标的结果。具体方法包括百分比推算法和平均推算法等。
‘陆’ 采样频率是怎么计算出来的
采样点数的多少与要求多大的频率分辨率有关,例如:机器转速3000r/min=50Hz,如果要分析的故障频率估计在8倍频以下,要求谱图上频率分辨率ΔF=1 Hz ,则采样频率和采样点数设置为:
最高分析频率Fm=8·50Hz=400Hz;
采样频率Fs=2.56·Fm=2.56 ·400Hz=1024Hz;
采样点数N=2.56·(Fm/ΔF)=2.56·(400Hz/1Hz)=1024
(6)抽样算法扩展阅读:
采样频率只能用于周期性采样的采样器,对于非周期性采样的采样器没有规则限制。
采样频率必须大于被采样信号带宽的两倍,另外一种等同的说法是奈奎斯特定律必须大于被采样信号的带宽。如果信号的带宽是100Hz,那么为了避免混叠现象采样频率必须大于200Hz。换句话说就是采样频率必须至少是信号中最大频率分量频率的两倍,否则就不能从信号采样中恢复原始信号。
‘柒’ 请通俗的介绍一下“抽样误差”是怎么算出来的
抽样误差是指由于随机抽样的偶然周素使样本各单位的结构对总体各单位结构的代表性差别,而引起的抽样指标和全及指标之间的绝对离差。如抽样平均数与总体平均数的绝对离差,抽样成数与总体成数的绝对离差等等。
必须指出,抽样误差是抽样所特有的误差。凡进行抽样就一定会产生抽样误差,这种误差虽然是不可避免的,但可以控制,所以又称为可控制误差。抽样误差与另外两种误差不同。一种是调查误差,即在调查过程中,由于观察测量、登记、计算上的差错所引起的误差:另一种是系统偏误,即由于违反随机原则,有意地选择较好或较差单位进行调查,造成样本代表性不足所引起的误差。这两种误差是可以防止和避免的。
影响抽样误差大小的因素主要有:
(1)总体单位的标志值的差异程度。 差异程度愈大则抽样误差愈大,反之则愈小。
(2)样本单位数的多少。 在其他条件相同的情况下,样本单位数愈多,则抽样误差愈小。
(3)抽样方法。 抽样方法不同,抽样误差也不相同。一般说,重复抽样比不重复抽样,误差要大些。
(4)抽样调查的组织形式。 抽样调查的组织形式不同,其抽样误差也不相同,而且同一组织形式的合理程度也会影响抽样误差。
‘捌’ 采样,量化,编码之间三者之间有什么关系
音频?
采样是指用每隔一定时间的信号样值序列来代替原来在时间上连续的信号,也就是在时间上将模拟信号离散化.量化是用有限个幅度值近似原来连续变化的幅度值,把模拟信号的连续幅度变为有限数量的有一定间隔的离散值.编码则是按照一定的规律,把量化后的值用二进制数字表示.
把模拟信号转换成数字信号的过程称为模/数转换,它主要包括:
采样:在时间轴上对信号数字化;
量化:在幅度轴上对信号数字化;
编码:按一定格式记录采样和量化后的数字数据。
采样频率
采样频率是指一秒钟内采样的次数。奈奎斯特(Harry
Nyquist)采样理论:如果对某一模拟信号进行采样,则采样后可还原的最高信号频率只有采样频率的一半,或者说只要采样频率高于输入信号最高频率的两倍,就能从采样信号系列重构原始信号。
根据该采样理论,CD激光唱盘采样频率为44KHz,可记录的最高音频为22KHz,这样的音质与原始声音相差无几,也就是我们常说的超级高保真音质(Super
High
Fidelity-HiFi)。采样的三个标准频率分别为:44.1KHz,22.05KHz和11.025KHz。
量化位数
量化位是对模拟音频信号的幅度轴进行数字化,它决定了模拟信号数字化以后的动态范围。由于计算机按字节运算,一般的量化位数为8位和16位。量化位越高,信号的动态范围越大,数字化后的音频信号就越可能接近原始信号,但所需要的存贮空间也越大。
量化位
等份
动态范围(dB)
应用
8
256
48-50
数字电话
16
65536
96-100
CD-DA
声道数
有单声道和双声道之分。双声道又称为立体声,在硬件中要占两条线路,音质、音色好,但立体声数字化后所占空间比单声道多一倍。
编码算法
编码的作用一是采用一定的格式来记录数字数据,二是采用一定的算法来压缩数字数据。压缩编码的基本指标之一就是压缩比:
压缩比通常小于1。压缩算法包括有损压缩和无损压缩;有损压缩指解压后数据不能完全复原,要丢失一部分信息。压缩比越小,丢掉的信息越多、信号还原后失真越大。根据不同的应用,可以选用不同的压缩编码算法,如PCM,ADPC,MP3,RA等等。
数据率=采样频率(Hz)×量化位数(bit)×声道数(bit/s)
‘玖’ 如何用公式算出抽样的可信度有多高。
用算出批量法再以总数除以部分的这种的算法,会有一些偏差。但是偏差并不大。如果你需要的不是非常非常准确的数字,那这样算就可以了。
‘拾’ 抽样样本计算方法
那么对有N个个体的总体,所抽取的样本容量到底该有多大?根据统计学的研究,这与要求的误差把握(概率)有关.
以一个实际问题来说明,设上文所提到的某地区15岁学生共有N人,设这N人中近视眼比例为a,a未知,待估计.而我们抽出的样本容量为n,样本中近视眼的比例为p,把p作为a的估计值,两者之间是有误差的.
在统计学中有专门的根据误差要求计算样本容量的公式,举几例如下:
(1)如果希望有95%的把握,使得误差|p-a|<0.15,那么只要取样本容量为
(2)如果希望有95%的把握,使得误差|p-a|<0.1,那么可以取样本容量为
(3)同样地,如果希望有95%的把握,使得误差|p-a|<0.05,那么要取
综上可知:
(1)随着误差|p-a|的减小,样本容量n必须增加.这说明,要提高估计的精确性,必须增加样本容量.在N=50并要求有95%的把握时,两者的关系如下表所示.
|p-q|<0.15
|p-a|<0.1
|p-a|<0.05
n
24
34
45
(2)随着总体中个体个数的增加,样本容量n也随之增加,但n的增加比N的增加要慢得多,无正比例关系.例如在要求误差|p-a|<0.05时,两者的关系如下表所示.
N
50
100
200
500
1000
2000
3000
4000
5000
n
45
80
132
218
278
323
341
351
357
它告诉我们,在保证估计达到一定的精确性的前提下,在总体中个体个数很多时,并不需要很大的样本容量.这是抽样调查之所以行之有效的原因之一.