概率抽样

宁华强1浏览：32

照是抽阳光子，总体它不抽样棒吧，也不是末端抽样棒大。比如文理科，那就需要分类处理用于平行的，抑制性的自重体。当然也有分等级的时候，也只人际关系，比如说是垂直的序列关系，也叫成来看。举其例子，CGSS的分成有，要把中国大陆的个体按照居住地属性必须有样本的城市抽选。至于哪些城市必须要有样本，哪些需要通过抽样决定是否有样本，大家可以到CGSS的抽样方案来看看中的抽样单位我们先不管。

那么到底怎么分层呢？我有一个简单以我自己的研究为例，以CELPS为例，通过百度搜索，大家也能找到C F P S分成依据的是研究补贴的主要CPS。研究主题是家庭是个体生命历程的载体，要的是代表性家庭户抽样目标就是获得大陆家庭的样本。家户因素呢？依据同质性原理，据相似社会经济地位的家庭户，家庭环境就停止抽样。要考虑家庭户的指定抽样策略有两个依据是可退了。因此呢，我们区分了大省样本可以在审计做推论，小沈样本只能在我希望在国家层面做推论。就不需要考虑是否可以在地区层面做推论。放好成了，怎么在各层去分配啊？样本量的分配有两种，基本的分，就是让各层的样本量与要素的规模成比例，需要保证不同规模的要素都有样。

如果某个要素群体规模很大，按照比例的这个产生浪费，这时候就可以减少这个群体的样本量。这样自然就形成了不等比例的抽样，抽样效率和减少误差的有效产生了两个子抽样。框数化的层是什么？我们区分了大层的大省城中，我们又区分了两层，甘肃，荷兰，广东各为一个抽样，但遵循相同的抽样方法。大神州还有上海，上海为一个独立的抽样口下，这五个省是客，有四个省的抽样策略是一样，另外的二十个省市资治却是一个抽样。光第二层次的分层，以二次的小省，二十个省级行政区按照人均社会经济指标降序排列，在每一个也是按照人均GDP指标降序排列之内呢？这区分三个城区，县级市和县县。在每一个城内呢，按照区，县级，市，县的损失降序排列，保证城市属性越强的两项属性的分层。抽到的样本线区就是我们的P S U。初级抽样。大多阶段混合抽样中，我们会讲到这个概念。

按照如此分层抽取到的P S U，既有发达的，也有不发，既有城市也有限人多的地区，有样本，区域也有样本，这样的车辆是有智慧的。调查数据也表明，C F P S自信。如果总体有极大的抑制性出现，穷人代表富人，富人代表抽样方法的熟悉，我们从简单大要素在研究变量上的一直机性。在我们可以采用简单水机抽烟系统抽样，如果可以分群，这样，如果总体规模比较大，总体大且与不同特征群体的规模关。那么至少要采用两个大总体，要素的抑制性也比较大。

且观研究变量在要素中呈现分层抽样，把具有相似特征的群体上面的这些如果都是非常理想加复杂的情况。如果遇到收集数据的范围非常很大，要素的抑制性分布也很复杂，那么上述任何一种方法都不足以抽样问题。以CGSS为例，是样本家庭中年满八岁或以上的个体对吗？假设研究希望一次直接抽到个体，需要什么样的？需要编制一份有十八岁会议富人口的抽样框一个差不多有不可能的，最近两次千万级别的误差，想编制这样的一个人口，在这样的需求面前我们怎么办？综合运用已经学习过的抽样方法S。以C G SS为例，先找容易界定的边界，容易操作的可以编制抽。我们知道中国的人口绝大多数都是以家庭为居住，那直接操作家庭可以吗？家庭疏理的太多了，中国大陆有4亿多个家庭，还是带大。现在知道家庭总是聚集为社区的，那直接操作社区可以吗？也不可以，大陆的社区也有百万之多，还是太多到社区守乡镇或者街道的管理。乡镇或街道呢，又受曲火的县的管理。区和县呢，就是省市，数量就差不多了，就可以操作了。最容易操作的层面开始编制下一个层段，一个抽样框，逐阶段的推进，直到抽到要素层级的阶段。

总体要素的意志性不同。准确地说，因此呢，在多阶段抽样的每个阶段采用也不一定相同。还是以CG S2010年的调查为例，CGSS一阶段抽样采用了分层抽样，抽样之前区分了两类总体，一类称之为必选车，一类呢？为到作为初级抽样单位，可以细化抽样框，使得样本点相对分散，有利于粗而导致样板有偏。对于抽检层呢？区县级，市县的数量角度，以其作为初级车辆单位比较合适。用话来说，作为必选层的发达的城镇抑制性较强，需要让样本不相对分散，以取得对抑制性的。因为抽选成的不发达城镇乡村同质性大于抑制性，可以采用要素规模更更大的区县作为初级车。要第二阶段抽到了春区，采用P S抽样。第三阶段抽到了加护简单随机抽样，末端抽样，抽到抽样。

这就是CGS S2010年的抽样方案中的啊。抽样单位列表在CGSS的抽样方案中是有瑕疵的，我们就不详细讨论了，尽管不同阶段采用了不同的，还是希望通过统计加权上能更好的代表总体降低。五仓过是多阶段混合抽样，我们一定会遇到，刚才就已经遇到过了，在多阶段抽样中，每2U是不一样的。为此呢，在同行一阶段抽样的单位叫做初级抽样单位。多阶段抽样的第一阶段抽样，通常要求抽样对象的数量是这一阶段的三倍或以上。否则呢，就需要降低抽样单位的成绩。举例子，CPS，2010年的抽样C F P S。

2010年车辆也区分到两类，种是可以独立在省级层次经营，第二类总体是只可以在中国大陆层面小省总体。这里我们以大省总体针对大省抽样的P S U是县区这样一个层级区相处一线抽样设计师大省呢。要抽十六个曲线养的，因此理论上抽样框至少应该有四十八个曲线。当时上海市总共只有十八个区县。为此呢，我们不得不降低抽样层级到街道一级，街道的数量就多了。

同样，C F P S的概率抽样方法，上海单位在一个抽样对象有有限的抽样框中到底抽多少个P S？这个阶段的抽样还是服务于默样的，要让要素成绩的样本在上具有代表性，对吗？因此，这个阶段这样的抽样主要考虑的是要素沉积，样本抑制性的因素，如初级抽样框中对要素抑制需要的P S U九多。同时呢，还需要考虑的因费用，大家要注意多抽一个偏有限的经费条件下，如果抑制性程度加大，就要尽量多做PS。我的经验是，如果书记抽样框为中国的区县单位，PSU的数量与县级单位的比例。现在还有2900个县级单位希望代表中国大陆，这最少要小车五十八个P S U，像C F P S C G S S的P S U就一百六十四个区县。相当于理论值的三倍。主要是希望能够我们再看次一级的抽样单位，世界首销单位S S U范围很大，通常会多于两个第二次抽样，那么用于第二次抽样对一项就是刺激测样单位为什么要抽两次。有两个影响因素。第一，规以CFPS的大胜总体为例，设计上四个村居。

为什么只抽四个村居就够了，是因为抽取P S U的时候，已经把基本因素考虑过了。在PSU类，基本上只有城乡之间存在差异，四个也就够了。除此以外，还有费用问题，在一个县域范围内的调查费用样本在地理位置上很分散，非常耗费资源的。这样呢，每一个大省抽取十六层，四共六十四个S S U。上海是一个独立的城，还记得吗？大省之间具有可比性，保证上海的SSU也上海的PSU就被设计为了上下二，强调的是覆盖内部抑制性。

在上海，每个P S U只抽两个32*2等于64总的S S U的数量。这样与其他大臣一致。在抽样时间中，还有具体的问题，比如有些村区的规模很大，有些村区保证SSU的可比性。在制作抽样框的时候，过大的村区要拆分，对过小的村区呢？具有可比性，刺激抽样单位也有样本规模的问题。这样需要考虑的因素是考虑抑制性的程度，当然也要考虑费用。还要考虑的是，接近于末端抽样，越需要考虑实体调查个县。比如北京市产品区是一个批，把SSU覆盖产品区的，所有到乡镇旅行的费用就非常高。经验上一个P S U至少要抽两个，一过多，最多也就二十个。

二十个SSU的时候，就意味着要上不同的二十个点，成本会非常高。以CFPS为例，考虑到曲线内的执行，我们就抽了四个S S U，上海两个次级抽养单位，最后一级末端车辆单位USU，三级抽样单位，四级抽样单位啊。试看有没有需要。如果有需要，其抽样原则和端抽样是指抽到调查对象，抽到要素的那个，就说C FPSS。末端抽样就是在村居内凑到家庭户。CGSS就不一样。CGSS呢，是在样本户中抽到，个人是抽到地市级所有的高中毕业班。经验上来讲，末端车辆通常采用减来易行的抽用方法，因为大多数情往下，末端车辆通常不是由操作人员去凑。有时候呢，还会以数据的在时间上有一定的紧迫性，比如说像CGS调查员去抽取的。

一般来讲，与上一层级的抽样比较，末端抽样框的对象有。为什么要采用多阶段的混合抽样呢？主要是希望在便利性，代表性上达成一个还是代表性问题，利用多个阶在实现代表性。回顾一下抽样的核心就是希望用尽量少的样本，尽量准确，精确的来理合。总经验上来讲，不管在哪个阶段算抽多少样本，怎么抽，依据的还还是第一的概率原则。每个即便是抽样，是把多个阶段的备要考虑到运用已有的信息进行投资判断，这个是非常重要的。阶段的划分和要经济性以及对抑制性的覆盖性大的要多抽，同自性大的要初阶段。混合抽样实际上是对各种方法的应用。关于多阶段抽样，就讲到用样本估计总体总是会有误差的。

抽样活动产生的误差是唯一的误差来源吗？在所有误差来源中，抽样误差又会想啊。为此，我们首先要知道用样本对时会遇到哪些误差来源。从经验中我们发现，如果确定用车一开始就会有误差来源。如果按照研究工作的持续来排练是由研究者带来的误差。论假设不好，概念界定不清，样本要求不明确，既会系统性误差，也会为随机误差的产生提供机会。第二个来源呢？在设计阶段，由设计者带来测量工具选择不对，实施策略选择，抽样设计也有问题，同样也会造成系统误差，会为随机误差的产生提供条件。第三个来源，在抽氧阶段由抽氧员带来的误差。假设前面的所有工作做的都很好，等抽样框的这些不明确，抽样过程监管也不明确，就有可能产生随性误差。

第四个阶段，在访问阶段，有访问员补偿假设前面的一切工作都做作弊作假，轻易的接受误差，应答误差，甚至系统误差。由受访者带来的不差。假设前面的所有工作都受访者拒绝访问，或者呢，没有随意作答，回忆误差也会造成随机误差，应答误差六个来源在数据心理阶段。由数据管理者带来的误差。数据的管理者编制的数据录入编码有问题，清理程序有问题，管理层去也有问题，也就有可能会进气，既可能产生随机误差，也可第七个来源在数据分析阶段还是假设前面的工作都做得非常好。

不当模型建构不当，对于数据有误，也会造成研究误差。总之，任何一个环节误差前一个阶段带来的误差，后面的所有阶段产生消极影响。这社会调查与研究的每一个阶段与环，都需要各类人员的密切合作与沟。在上述七个阶段中，涉及到调查活动的三个阶段，也就是设计阶段，抽样阶段。这三个阶段涉及到的误差主要有，第一与抽样设计和抽样活动。第二，抽样性误差就是抽样活动造成。

三，应答性误差只访问阶段产生了误差。第四呢？测量性误差只测量测量工具产生的误差。我们主要讨论与抽样设计和抽样活动有关误差。一类叫覆盖性误差，主要药纸因抽样框制作不当带来。如果抽样窗与研究总体不一致，就会产生误差。比如，CGSS假定CDSS使用电话号码作为方，就会出现覆盖性误差。既会出产生的误差，比如有些人没有电话，从阳光忽略太穷的，太富的都话。

或者呢，有电话却不在，电话不现覆盖过度所产生的误差，比如过度代表即使让抽阳框正确的反应呢？研究抽样活动不可避免的也会带来误差一个补偿，比如忽略样本特征额。假设我们对高中毕业生采用加付抽样方法，高中毕业生的学校所产生的物差要大的是由变量特征带来的。其实都有自己的抽样误差。当我们讲抽样误差的时候，到底什么呢？指的是主要变量的抽样误差均值用均值的标准物来代表误差，当然也有可能用相对误差来表示，比如说君子的变异，相对误差的一种。至于君子的变异，算进入抽样专门课程，你们在这里知道就行了。除了抽样阶段的误差，访问阶段的误差也会误差，尤其是印台性的误差。应答指的是受访者针对访，是社会调查与研究要收集的数据。受访者对整个访问，无论是问卷还访谈，都不给予回答。这就是样本。

单人无印的，只无法从样本得到任何应答。比如说受访人拒访不上，这一类的误差就是样本性的误差。还有一类受访者接受了访问，可能对某些访题不提问应答。看起来这样的误差属于存误差，实际上不一定也可以被是抽样误差的一种。比如某些访题到稀有应答，在抽样设计中需要予以考虑。除了应答性误差以外以外，还有测量性误差。由于抽样误差关联不大，我们只需要知道测量误差。误差是由测量工具造成的误差或者过程带来误差就可以了。对，测量误差在车辆工具的时候已经有详细讨论呢，这里就不重复。

在抽样阶段，甚至还要考虑到访问，是吧？要通过抽样，尽可能的降低物质误差。四类误差的每一类都有降低误差的方法，比如说抽样框，尽可能的把抽样框制备的准确一些不差。比如说抽样，如果尽量的让抽样过程一些，也能减少误差。综合运用减少误差的方法。最后就不擦抽氧，不擦就讲到少。误差来源和误差我们也知道了，在社会调查这种研究，误差指的是具体变量样本值推论到总体值时刻差距。那么误差怎么计算呢？保轮误差计算之前我重复一遍，所有不差最后都会反应在样本与总体之间的差距上。这样的差距呢？为此，在统计上专门有用来表达这些差距差，军方误差，还有比如说样本均值，样本方差，样本标准物标准差，总体均值，总体方。注意，这些统计量指的是具体变量的统计量，要比较的也是具体变量的统计量。

不要忘记了，如果我们把抽样方法也当做，那么误差的来源只有两类，一类呢，是工具的误差，一类是既有工。如果我们按照某一抽样方案反复抽样，也希望与代沟参数进行比，他们之间的离差就可能是抽样方案造成的误差。我们差BELLS用离差表示。这样在抽样的逻辑中讲过，同一个抽样方案，反复抽样中，我把每一次的偏差记下来就够样本估计量的分布这里算的不是统计量的分布。就是偏差。

可是如果有各种方案就会有，还会有人为因素的影响，这个时候就既有偏差，又有误差。我们统称住L，用军方误差来表示。至于为什么要用离差，为什么要用军方误差？社会科学由抽样活动导致的样本随机性所造成的样本与总体统计量之间的差异。样误差在抽样中呢？抽样误差是一个一般单型的概念，包含着不同的统计量化变量，变异性的分布差不是用样本的随机性带来的。车两框误差，测量误差，访问误差等等。这些误差呢，被统称为非抽样误差，关注的重点是抽烟误差。知道统计量是用来刻画变量变异性。

了解各种统计量的含义之下，我们先介绍与一参数值。参数值专门用来刻画总体某个变状态，比如总体均值，方差，总体比例。总体比率最常用到的是总体均值相差和总体比例。比例与比是指总量为E P与Q的资关系。比率呢？要求占比只相对混合。二，估计量估计量专门用来刻画样本某个量。同级值估计量在不同的场合有不同常见的估计量，比如说样本方差，样本比例。这样大家就要有一个概念，只要是讲参数值，指的就是对总体的刻画。如果讲估计量呢，指的就是对。

在讨论中，我们一再强调刻画的是变异性的分布，那么在一般意义上，如何概括变异性的分布了？最常见的的话是对集中趋势和离散趋势的。在抽样的逻辑中，讨论收入分布时候的形，增加，样本估计量的平均值越化，变量变异性集中趋势的就是精子分布越集中。统治性也就越强，反之，抑制性也就越强。均值代表要素的统治性程度或者意志性程度。这里给出的是总体均值的计算方法。这个公司呢，应该容易理解，X八代表均值，人代表总体要素数。

I呢？代表一个具体的要素，把总体要素的变异值加重。崔岩就是总体君子，样本君子的计算方法一样，为了避免小样本条件下样本量对样本在除法的分母部分工厂还要用样本量减去一不是仅仅知道了君子。并不能全面了解状态。我们还需要了解其抑制性，也就是离散趋势，进而检验中趋势是不是真实的，以及有多双叉来刻画。当知道了君子以后，每对要素的变量值与均值之间都有一个关系值。在样本中呢？观察值与差又叫离差，这个关系值要么相等，要么大于小于。如果用要素变量值减区域变量均值可能得到的三类零，正数，负数。如果把这些结果加总，关系值的政府属性就会搅乱真正的关系属性，方就得到了每个要素与君子之间关系值的评加。总在除以总体要素N要素值与均值之间差距的平方。

房车表达要素在某个变量上与总体之间距离的程度。当然，方差越大，离散程度也就越大，方差越小了。同样，我们也可以计算样本方差，那方才开放就是每个要素与总体均值之间的。当然，在刻画样本估计量分布的时候说，四分位差，截值，均值，方差和标准差是最重要的。抽样而言，重要的是样本估计方差又称之为估计量方差，统计量方差在车辆的逻辑中我们提供。那么这个方差到底是什么意思呢？两岁，四岁和六岁。现在假设从中有放回的随机抽取样本，他们两个个体，也就是样本容量等于二。假设应抽了九次，就得到了九组二二二四，二六，四，2444666264和六六。

其实这是讲话，自己的单抽样不会这么抽，三个抽两个，同时又是一个极好的例子，很容易告告诉我们方家从哪里来。如果我们按照实践来，三十个人实践上是相符了，方舱的说明全复查了。我们用这个例子希望让大家知道房道从哪里来就好了。这边是一样的，我一共抽了九组，是样本君子，大家看君子的差异有多大？十四如果选两个是主要的，看能估计量放大假设第一个选择四组，那么他们的方块就是0.6667。如果选这四组呢，这一组的话2.6667，这里知道内部的差异有多大了。用这个例种，我们希望说明君子与方差，差异性，抑制性是非常重要的。误差计算还涉及到其他估计量也就够了。误差计算就讲了，从简单随机抽样开始，同学们可能不管采用哪种抽样方法，在哪一层抽样阶段抽样到底要抽多少样吗？不是，坦率的说，在我的消费当中，这个问题是在讨论抽样设计和抽样想方法的时候被问到的。

最但也不是可以捡到。对初学者而言，大家做类似于这样一类大型的调查，抽样设计机会不多，是因为这一类的调查要花很多的钱。各方投资方要把这笔钱给你，心里可能不为。初学者开始接触，大多数是比抽样。即使如此，我们还是要理解无论还是小规模总体的抽样总是一个问题。还记得我们在讨论简本收入的估计，样本量的大小直接影响到估计误差，对吗？那么是不是样本量越大，误差就越而不一定？我们考虑的同样还要考虑同次性，还要考虑我们资源。因此，与样本量相关的因素叫对样本量大小的确定。除了要素在研究变量上的抑制性外，主要受到以下因素的影响，因素是对估计精度的要求以及估计精度的影响。

计金度的要求来自两方面，一是所采用的飞去方法，一是对呃误差假设所有的操作都没有。比如说，我做淘宝店主，研究的时候，发了6万份问卷，只回收到了2%的应答，这事儿听起来就不大靠谱。可幸运的是，淘宝店融资性很高的，总体如果一直稍高一些，调查也就失败了。通常，小规模总体样本量的大小对估计误差的影响比较大，会倾向于让样本要大一些。大规模的总体呢？样不样的不大，通常会运用多种方法，尽量采用合理。

第三个影响因素是应答率。应答率的多少想到获得数据样本的多少，进而影响到抽样效率。订单率高，通常就会采用合理的一呢，通常要增大样的量用资源的多少。可用资源多，为了保险，通常会对样板量做保守估计百之亿元。在这些条件约束下，到底抽多少样本才能使得代表性好，有经济呢？我们先依据单水机抽样来看，假设停止且可接受的误差水平位而法。那么君子的自信区间就是这样的。

在这个公司里，X大会走天均值，这值是标准的增大自信度的临界值，又叫可靠性系数。可以查正态分布表。之所以用二分之耳法，是假设误差为双边分布，所以可能是正向分布，也可能是负向分布。CGMA为总体标准物N呢？为样本，用可接受的误差水平的标准正态乘以后边除德的结果就是可收的误差值，也就是抽样误差。在这样的条件下，简单随机抽样的样是这样的，其中我们知道分子有两个个数，一个呢是可接受的误差水平，双边这次的平方一个呢是总体方差。又叫总体均方差，分母呢就是五差了平方。如果不是总体均值，那么抽阳物色就是这样的。烟本这样呢，就是这样的。我强调一遍，SRS是最差的抽样方法，当然也是最简单的抽样方法，也是其他抽样方法计算样的基础。

在遇到复杂车辆的时候，会在简单水机车辆的基础上，还要考虑设计效应的影响，样本量就等于的效应呈上简单水机抽样条件下。记住这个就行了，待会儿再讲。设计效应要进一步考虑应答率的影响，预测的样除上应大律抽到了面本量要大，又叫扩大缩压。到底抽多少样本是一个既经济又准确的，这样吗？从前面的讨论中我们了解到，总体方差，允许误差，可靠性系数都会影响到对药。伤残越大，需要的样买量就越大。反自亦然，路餐越小，需要的样本量就越大大反之，意然，可靠性系数越大，需要的样大，反思也易。这样，到底抽多少样本量，就不是一个简单的客大规模的社会调查与研究而言，不是一个，而是很多个。如果同资性强，样本点小，也可以举一个例子，在做谁在开网店的研究时，这二本印达样本。所以我这里讲的是印达样本。

除了印单亚美以外，我还从200万个合约，6万个店家。如果仅仅是2%的印贷，6万个店家的数据呢，估计起来有信心呢。如果内部的一大，那就需要做复查的考量。对于小规模的研究而言，一般经验上样板量最小的为三十个接上，如果N大于30，就被称想样本量。需求大小的还有一个因素，就是从效率。在等误差要求的条件下，车样效率越高，样本量需求反之，如果车辆效率越低呢？那么什么是抽样效率呢？抽样效率指样本量条件下两种抽样方案的抽样方差之比。假设有A抽样方案和方案，如果A方案比B方估计量方差大，那么就认为案的抽样效率高，抽样效率的评价是比较得来的，不过如果估计量是有偏，估计就会遇到问题，这个时候叫偏差因素，不能用刚才来比较，而需要用军方物来比较。在复查抽样中与样本量有关的设计效应因素。

在讲复杂抽样样的量的时候，设计效应指的是某种抽样设计的质量方差与等量样本无回放减水晶抽氧方差的比值分子是某种车样方案的估计量方差。就是简单水机抽样估计量的方差。经验上设计效应在二左右，就道的说，如果是二，表示用现在的车呀，方案抽两个样本，等于运用简单随机抽要方案抽一个样子。有同学说，那是不是还不如简单水滴抽样啊？方案在复杂条件下根本就没有办法应用，到底哪个好，哪个差？更何况这里还将车辆效率纳入考量。这一节的内容相当的丰富，同学们需要花一定的时间来消化，建议同学们给自己一些耐心。一使用等概率原理的概率一般有多种方法，其中简单是基础，同时也是底线。

在这个基础上还有系统抽样，这些都是一次性抽样或者末拿抽样，通常要使用于规模层，代率抽样方法，或者分成抽样方法，或者呢多阶段的混合抽样方法，这些方法抽样之前的办法。多阶段抽样通常混合了不同类型的概率抽样方法，抽样用量的估计，总体时的物产，尽量的降低油抽样带来的误差，需要在可用用资源与期待结果之间进行策略性的安排。怎么抽样本量是抽样的一个重要考影响样本量的因素要是总体的抑制性程度，误差和可靠性系数，抽样效率，设计效应，还有印大律确实对亚格良问题有兴趣。可以参考做社会调查中样本容量的概率。抽样这一节就讲到这里，谢谢大家。从抽样开始，我们一直在强调样本概率抽样，就是基于其中有一个很强的假设，就是研究变量的变异线。

在满足随机性原则的条件下，随机性条件失明

发布时间：2024-01-24 16:40:55