见微知著,尺定方圆——CFPS抽样方法丨CFPS的前世今生(二)

发表于 讨论求助 2021-04-19 09:50:08

点击上方,轻松关注

作为一项全国性、 综合性的追踪调查项目,合理的抽样方法是保持数据代表性的关键。本期“CFPS的前世今生”系列文章,继续推出第二篇“见微知著,尺定方圆”,介绍CFPS的抽样方法。

1

样本覆盖大江南北


CFPS的样本覆盖中国除香港、澳门、台湾、新疆、青海、内蒙古、宁夏和海南之外的25个省/市/自治区的人口。这25个省/市/自治区的人口约占全国总人口(不含港、澳、台)的95%,因此,CFPS的样本可以视为一个全国代表性样本。

CFPS样本来源区

CFPS最初目标样本规模为16000户,其中,有8000户从上海、辽宁、河南、甘肃、广东五个独立子样本框(称为“大省”)过度抽样(oversampling)得到,每个“大省”1600户。另有8000户则从其他20个省份共同构成的一个独立子样本框(称为“小省”)抽取。5个“大省”的子样本具有地区自代表性,可以进行省级推断以及地区间比较。5个“大省”样本框在二次抽样后,与“小省”样本框共同构成具全国代表性的总样本框。



2

内隐分层与三阶段抽样


CFPS 样本是一个采用内隐分层(implicit stratification)方法抽取的多阶段等概率样本(multi-stage probability sample),每个子样本框的样本都通过三个阶段抽取得到。第一阶段样本(PSU)为行政性区/县,第二阶段样本(SSU)为行政性村/居委会,第三阶段(末端)样本(TSU)为家庭户。CFPS前两个阶段的抽样使用官方的行政区划资料,第三阶段则使用地图地址法构建末端抽样框,并采用随机起点的循环等距抽样方式抽取样本家户。考虑到每个地区的应答率,2010年的实际操作参考了2008年和2009年预调查所得的预估应答率,采用按应答率比例扩大样本规模的方法,依据系统抽样原则共抽取了19986个居住地址,以保证获得预计的有效样本家户数量。


3

纸笔作图,搞定末端抽样


为了得到一个完整覆盖样本村/居所有住户的末端抽样框,提高末端抽样的精度,在末端抽样之前,CFPS通过纸笔作图的方式,对样本村/居的地图进行了实地绘制,包含边界、交通、水系、地理标志、建筑物等多方面的信息。 


绘图工作正式开始于 2009 年 12 月,至 2010 年 6 月结束,共获得了 649 个村居的纸笔绘制地图、村居基本情况统计表及村居住户列表清单。为了保证绘图质量,我们同时采用不同手段进行多次核查,通过绘图员再次核对、督导与部门主管审查、村居抽查等多种方式确保地图的准确性。具体的绘图方法与核查标准可参见《中国家庭追踪调查2010年基线调查末端抽样框制作(CFPS-2)》。


抽样组在对绘图资料进行整理,对一户多宅、一宅多户、地址类型无法确认等特殊问题进行处理后,便开始进行第三阶段的末端抽样。


4

抽样城乡不分家


值得一提的是,考虑到官方对于农村与城市的划分已难以反映中国快速城市化的现实,CFPS抽样没有再采用将农村与城市分开抽样的传统方式,而是将中国社会作为一个整体进行抽样。我们在社区层面收集了样本社区是属于居委会还是村委会的信息,在家庭层面收集了家庭从事农业生产与非农经营的信息,在个人层面收集了个人的户籍信息以及个人从事农业工作与非农工作的信息。用户可以通过这些实际情况来判定样本的农村/城市属性,而不单纯依赖于行政区划。


5

CFPS样本质量


根据CFPS 2010年基线调查再抽样数据以及2010年全国人口普查汇总数据,我们从0岁到100岁以上,以每5岁为一个年龄组,分别统计了各年龄组男性和女性人数在总人口(或总人数)中的比例(见图中标注的数字)。


CFPS2010年基线调查 性别-年龄金字塔


2010年全国人口普查 性别-年龄金字塔


比较发现,在个人样本的年龄、性别分布结构上,CFPS 2010个人样本与2010年全国第六次人口普查的结果很相似,均在20-24岁、40-44岁年龄组人数较多,在高龄组和低龄组人数较少,CFPS的样本具有全国代表性。



更多关于抽样的具体设计方法与实施方式,可参见《中国家庭追踪调查2010年抽样设计(CFPS-1)》、《中国家庭追踪调查2010年基线调查末端抽样框制作(CFPS-2)》。

dai

xu



中国家庭追踪调查

(CFPS)

地址:北京市颐和园路5号北京大学理科5号楼

中国社会科学调查中心

网站:http://www.isss.pku.edu.cn/cfps

邮箱 :  isss.cfps@pku.edu.cn

点击“阅读原文”
发表
26906人 签到看排名