文献回顾与论文写作:数据来源
课程大纲
本讲座将涵盖以下核心主题,帮助您为研究项目寻找和评估合适的数据。
- 数据来源的种类与概览
- 研究问题驱动的数据选择
- 从宽泛主题到具体研究问题时的数据考量
- 数据处理在现代研究中的普遍性与重要性
劳动经济学中的数据使用趋势
为了解数据在实证研究中的演变,我们可以观察顶级期刊的发表趋势。
图 1: 《劳动经济学杂志》(Journal of Labor Economics)1983-2012 年发表论文的数据使用情况。
图片来源: Hallock (2013)
主要趋势观察
- 多数据源整合: 在一个研究项目中使用多种数据源的趋势日益增强。
- 原创性数据: 使用作者自行收集或整理的独特数据集的趋势愈发明显。
- 国际化视角: 使用非美国数据集的研究也呈上升趋势。
思考:是否必须拥有“花哨”的数据才能做出好项目?
答案是否定的。 关键在于数据是否能精准、有效地回答你的研究问题,而不是数据本身的稀有性。
数据来源分类
研究数据可以从多个维度进行分类,常见的来源包括:
- 个人/家庭层面 (Individual/households)
- 企业层面 (Firms)
- 区域层面 (Regional)
- 国家层面 (Country)
- 历史数据 (Historical)
- 大数据 (Big Data)
(I) 个人与家庭层面的数据
这类数据关注个体和家庭单位的行为、特征和决策,是微观经济学研究的基石。
可研究的现象
- 人口动态: 生育率/死亡率 (Fertility/mortality)
- 教育: 幼儿园、义务教育、大学、研究生教育 (Education)
- 劳动力市场: 劳动参与、就业、收入 (Employment/Earnings/Income)
- 流动性: 国内迁移与国际迁移 (Mobility)
- 金融行为: 消费/储蓄/投资 (Consumption/Saving/Investment)
- 时间利用: 家务、睡眠、工作、休闲等 (Time-use pattern)
- 主观福祉: 幸福感、观点、态度 (Subjective well-being/opinions)
- 家庭: 婚姻 (Marriage)
- 社会参与: 志愿工作、捐赠等 (Social activities)
- 退休: 退休后再就业 (Retirement)
- 健康: 健康状况与行为 (Health)
主要的中国微观调查数据库
以下是中国研究中常用的一些大型、公开的个人/家庭层面微观数据库。
1. 中国家庭收入项目 (CHIP)
- 全称: China Household Income Project (CHIP)
- 可用年份: 1988, 1995, 2002, 2007 (2008), 2013, 2018 年的数据已公开。CHIP 2023 已于 2024 年启动。
- 简介: 由中外收入分配领域专家设计,国家统计局协助调查。其抽样框与国家统计局的城乡住户调查系统保持一致,分为城镇、农村样本,2002年后增加了外来务工人员样本。
- 数据中心: 北京师范大学中国居民收入分配调查数据库
核心内容
CHIP 的核心是家庭收入与支出。 * 家庭成员人口学信息 * 户籍状况、居住条件 * 教育、健康 * 成人就业细节、工时、工资性与经营性工作状况 * 家庭收入、资产、支出等财务信息 * 主要成员的父母、子女、兄弟姐妹信息 * 特定年份还包含拆迁、退休、借贷、土地经营等专题模块
应用案例:
- Yang, Dennis Tao. 2005. “Determinants of schooling returns during transition: Evidence from Chinese cities.” Journal of Comparative Economics 33:244–264.
- 其他研究方向:贫困率测算、农村高中入学率决定因素、收入/工资不平等、农民工问题等。
2. 中国综合社会调查 (CGSS)
- 全称: Chinese General Social Survey (CGSS)
- 可用年份: 2003, 2005, 2006, 2008, 2010, 2011, 2012, 2013, 2015, 2017, 2018, 2021, 2023 年的数据已公开。
- 简介: 旨在系统、全面地收集中国民众的行为、态度以及日常生活与工作信息,反映中国人的行为与认知模式,并捕捉社会变迁的趋势。
- 数据中心: 中国综合社会调查 (CGSS)
核心内容
CGSS 更侧重于社会学议题,尤其关注主观福祉与社会态度。下表展示了部分年份的问卷模块:
年份 | 问卷模块 |
---|---|
2003 | 家庭,迁移,社会网络与社会交往,教育经历,职业经历,劳动力市场,评价与认同,态度与行为 |
2005 | 家庭,心理健康,经济态度与行为评价,社区生活与治理,农村治理 |
2008 | 家庭,教育及工作史,性格与态度,社会交往及求职,社会不平等(ISSP),全球化(EASS) |
2010 | 核心模块,阶级意识,社会分层,收入与消费,宗教,环境(ISSP),健康(EASS) |
2012 | 核心模块,社会公益与慈善,主观幸福感,文化消融,家庭与性别角色(ISSP),社会网络与社会资本(EASS) |
2013 | 核心模块,2003回顾,社会道德,公共服务满意度 |
应用案例:
- Chen, Xi, and Suqin Ge. 2018. “Social norms and female labor force participation in urban China.” Journal of Comparative Economics, 46:966-987.
- 其他研究方向:家庭储蓄率、迁移、文化规范的实证支持等。
3. 中国人口普查微观数据 (Census)
- 可用年份: 1982, 1990, 2000 年普查的 1% 抽样数据可通过 IPUMS 获取。2010年普查及2005、2015年小普查数据可在特定平台申请。
- 简介: 提供全国范围内最权威、覆盖最广的人口学基础数据,是研究宏观人口结构、迁移、教育等议题的利器。
- 数据中心: Integrated Public Use Microdata Series (IPUMS)
应用案例:
- 使用 2000 年普查数据: Chen, Yi and Yi Zhao. 2022. “The timing of first marriage and subsequent life outcomes: Evidence from a natural experiment.” Journal of Comparative Economics, 50:713-731.
- 结合普查与企业数据: Imbert, Clement, Marlon Seror, Yifan Zhang, and Yanos Zylbergerg. 2022. “Migrants and Firms: Evidence from China.” American Economic Review, 112(6): 1885-1914.
- 使用 2005 小普查与 2010 年普查数据: Jin, Zhangfeng and Junsen Zhang. 2022. “Access to Local Citizenship and Internal Migration in a Developing Country: Evidence from a Hukou Reform in China.” Journal of Comparative Economics, available online.
4. 中国健康与营养调查 (CHNS)
- 全称: China Health and Nutrition Survey (CHNS)
- 可用年份: 1989, 1991, 1993, 1997, 2000, 2004, 2006, 2009, 2011, 2015, 2018 年的数据已公开。
- 简介: 旨在检验国家和地方政府实施的健康、营养和计划生育政策的效果,并观察中国社会经济转型对其人口健康和营养状况的影响。
- 数据中心: University of North Carolina at Chapel Hill
核心内容
CHNS 专注于健康与营养。 * 健康状况的代际不平等 * 家庭收入与儿童健康 * 老年人健康结果 * 健康保险需求 * 健康领域的性别差异 * 吸烟与健康 * 教育回报率 * 收入不平等
应用案例:
- Zhang, Jing and Lixin Colin Xu. 2016. “The long-run effects of treated water on education: The rural drinking water program in China.” Journal of Development Economics, 122:1-15.
5. 中国和印尼农民工研究项目 (RUMiC/RUMiCI)
- 全称: Rural-Urban Migration in China and Indonesia (RUMiCI / RUMiC)
- 可用年份: RUMiCI (2008-2009) 数据可在 IZA IDSC 申请下载。RUMiC (2016-2018) 数据可向暨南大学申请。
- 简介: 中国目前唯一的大型城乡流动人口数据追踪调查项目,为研究流动人口的决策、风险态度和家庭动态提供了宝贵数据。
- 数据中心:
应用案例:
- Dustmann, Christian, Francesco Fasani, Xin Meng, and Luigi Minale. 2020. “Risk Attitudes and Household Migration Decisions.” Journal of Human Resources, available online.
- Wang, Chunchao, Chenglei Zhang, Jinlan Ni, Haifeng Zhang, and Junsen Zhang. 2019. “Family migration in China: Do migrant children affect parental settlement intention?” Journal of Comparative Economics, 47:416-428.
6. 中国流动人口动态监测调查 (CMDS)
- 全称: China Migrants Dynamic Survey (CMDS)
- 可用年份: 2009 – 2018 (自 2011 年起覆盖全国31个省级单位)。
- 简介: 由国家卫健委组织的大型流动人口横截面调查项目。调查对象为在流入地居住一个月以上、非本区(县、市)户口且年龄在15周岁及以上的流动人口。
- 数据中心: 国家卫生健康委流动人口数据平台 (注意:2023年已暂停数据申请)
应用案例:
- Zou, Jing and Xiaojun Deng. 2022. “Housing tenure choice and socio-economic integration of migrants in rising cities of China.” China Economic Review, 74:101830.
7. 中国健康与养老追踪调查 (CHARLS)
- 全称: China Health and Retirement Longitudinal Survey (CHARLS)
- 可用年份: 2011 (基线), 2013, 2014, 2015, 2018, 2020 年的追访数据已公开。
- 简介: 旨在收集一套代表中国45岁及以上中老年人家庭和个人的高质量微观数据,用于分析老龄化问题。
- 数据中心: CHARLS 官方网站
核心内容
CHARLS 关注中老年群体的健康、养老及相关经济社会问题。 * 子女迁移决策与对老人的支持 * 老年人居住安排 * 社区效应对老年人健康的影响
应用案例:
- Cui, Hanxiao, James P. Smith, and Yaohui Zhao. 2020. “Early-life deprivation and health outcomes in adulthood: Evidence from childhood hunger episodes of middle-aged and elderly Chinese.” Journal of Development Economics, 143:102417.
8. 中国老年人健康长寿影响因素调查 (CLHLS)
- 全称: The Chinese Longitudinal Healthy Longevity Survey (CLHLS)
- 可用年份: 1998 – 2018 年的多期追踪数据。
- 简介: 覆盖全国23个省区市的老年人追踪调查,调查对象为65岁及以上老年人和35-64岁成年子女。
- 数据中心: 北京大学开放研究数据平台
应用案例:
- Cheng, Lingguo, Hong Liu, Ye Zhang, and Zhong Zhao. 2018. “The health implications of social pensions: Evidence from China’s new rural pension scheme.” Journal of Comparative Economics, 46:53-77.
9. 中国家庭追踪调查 (CFPS)
- 全称: China Family Panel Studies (CFPS)
- 可用年份: 2010 (基线), 2012, 2014, 2016, 2018, 2020 年的追访数据已公开。
- 简介: 一项全国性、大规模、多学科的社会跟踪调查项目,重点关注中国居民的经济与非经济福祉,涵盖经济活动、教育成就、家庭关系、人口迁移和健康等众多研究主题。
- 数据中心:
应用案例:
- 结合 CFPS 与县级数据: Chen Yi, Sheng Jiang, Li-An Zhou. 2020. “Estimating returns to education in urban China: Evidence from a natural experiment in schooling reform.” Journal of Comparative Economics, 48:218-233.
10. 中国家庭金融调查 (CHFS)
- 全称: China Household Finance Survey (CHFS)
- 可用年份: 2011, 2013, 2015, 2017, 2019, (2021, 2023) 年的数据已公开。
- 简介: 数据聚焦于家庭财富,特别是金融资产与负债、住房资产、经营性资产,以及家庭收支、保险等方面。
- 数据中心: 西南财经大学中国家庭金融调查与研究中心
应用案例:
- Liang, Pinghan, and Shiqi Guo. 2015. “Social interaction, Internet access and stock market participation—An empirical study in China.” Journal of Comparative Economics, 43(4): 883-901.
11. 中国劳动力动态调查 (CLDS)
- 全称: China Labor-force Dynamic Survey (CLDS)
- 可用年份: 2012 (基线), 2014, 2016, (2018, 2020) 年的数据已公开。
- 简介: CLDS 样本覆盖中国29个省市,具有全国及东中西部、广东省和珠三角的代表性,是研究劳动力议题的重要数据。
- 数据中心: 中山大学社会科学调查中心
应用案例:
- 使用面板数据: Zhang, Zhijian and Xueyuan Wang. 2022. “Birthplace diversity and private giving: Evidence from China.” China Economic Review, 74:101827.
- 使用混合横截面数据: 林文声、王志刚和王美阳,2018,“农地确权、要素配置与农业生产效率——基于中国劳动力动态调查的实证分析”,《中国农村经济》,8:64-82。
12. 中国教育追踪调查 (CEPS)
- 全称: China Education Panel Survey (CEPS)
- 可用年份: 2013-2014 (基线) 及后续追访数据 (2014-15, 2015-16, 2017-18)。
- 简介: 以2013-2014学年的初一和初三两个同期群为起点,在全国随机抽取约2万名学生进行长期追踪,整个调查周期长达30年。
- 数据中心: 中国人民大学中国调查与数据中心 (NSRC)
应用案例:
- Gong, Jie, Yi Lu, and Hong Song. 2018. “The Effect of Teacher Gender on Students’ Academic and Noncognitive Outcomes.” Journal of Labor Economics, 36(3): 743-778.
微观数据结构总结
重复截面 (Repeated Cross Section) | 面板 (Panel) |
---|---|
CHIP | CHNS |
CGSS (部分可构成面板) | RUMiC |
Census | CHARLS |
CHFS | CLHLS |
CMDS | CFPS |
CLDS |
主要国际微观数据库
- IPUMS (Integrated Public Use Microdata Series):
- IPUMS 免费提供世界各地的普查和调查数据,并对数据进行了跨时间和空间的整合,是进行国际比较研究的宝贵资源。
- IPUMS International
(II) 企业层面的数据
企业层面的数据可以帮助我们理解企业行为、产业动态以及宏观政策对微观主体的影响。
可研究的现象
- 私营部门的兴起
- 企业进入、退出与成长
- 生产率差异与收敛
- 金融危机对企业绩效的影响
- 加入WTO与企业生产率
- 企业创新
- 企业社会责任/捐赠
- 外商直接投资 (FDI) 的溢出效应
主要的中国企业微观数据库
中国工业企业数据库
- 全称: “全部国有及规模以上非国有工业企业数据库”
- 可用年份: 1996-2007, 2008-2013
- 简介: 这是研究中国制造业最核心、最常用的数据库之一。
- 重要变量:
- 行业与地理识别码
- 企业所有制类型
- 资产、负债、存货、应收账款
- 产出、出口、利润、投入、税收
- 研发 (R&D)
- 就业人数 (2004年包含按教育程度分类的男女员工数)
应用案例:
- 结合城市数据: 王文春和荣昭,2014,“房价上涨对工业企业创新的抑制影响研究”,《经济学(季刊)》, 13(2): 465-490.
- 结合普查数据: Imbert, Clement, Marlon Seror, Yifan Zhang, and Yanos Zylberberg. 2022. “Migrants and Firms: Evidence from China.” American Economic Review, 112(6): 1885–1914.
其他企业相关数据资源
- 中国海关进出口统计数据 (China Custom Data): 2000-2010, 2007-2015
- 中国专利数据库 (Patent data): 1985-2016
- 中国工商注册企业数据库 (Registration information): 1986-2021
- 经济普查数据库 (Economic Census): 2004, 2008
- 中国制造业排污整合数据库 (China industrial environmental database): 1998-2014
数据合并的潜力
将工业企业数据与其他数据合并,可以拓展研究边界: * 与海关数据合并: 研究国际贸易行为。 * 与专利数据合并: 研究企业创新活动。 * 与 CSMAR 数据合并: 研究公司金融问题。
中国企业创新创业调查 (ESIEC)
- 简介: 以2010至2017年期间注册的中国民营和外资企业及其创建者为调查对象,围绕企业家的创业史和企业的创建过程、经营状况、创新等问题展开调查。
- 数据中心: 北京大学开放研究数据平台
中国小微企业调查 (CMES)
- 简介: 2015年启动的全国性小微企业大型抽样调查,主要调查对象为全国具有独立法人资格的小型企业、微型企业和家庭作坊式企业。
- 数据中心: 可向西南财经大学中国家庭金融调查与研究中心申请。
主要的国际企业层面数据库
- 世界银行企业调查 (World Bank Enterprise Surveys):
- 自2002年以来,提供了来自155个国家、19.5万家企业的经济数据。
- 涵盖融资渠道、性别、腐败、基础设施、创新、竞争等广泛的营商环境主题。
- 需注册后获取数据:Enterprise Surveys Data
(III) 区域与政府层面的数据
这类数据通常来自官方统计年鉴,适用于研究地区差异、政府政策评估等宏观和中观层面的问题。
可研究的现象
- 政府预算盈余/赤字
- 区域间基础设施投资
- 政府规制/政策
- 区域经济增长
- 地区间腐败差异
研究案例与数据来源
-
问题: 地方政府的预算赤字是否推高了中国的房价? (Wu et al. 2014)
- 数据: 《中国房地产统计年鉴》、《中国国土资源年鉴》、《中国区域经济统计年鉴》、《中国统计年鉴》。
-
问题: 是什么决定了中央政府基础设施投资的区域分配? (Zheng et al. 2013)
- 数据: 《中国统计年鉴》(1996–2009)。
-
问题: 公立医院的政事分开如何影响医疗供给? (Pan et al. 2013)
- 数据: 山东省和江苏省17个和13个城市2003-2008年的面板数据,来自《山东省年鉴》和《江苏省年鉴》。
-
问题: 腐败的成因是什么? (Dong and Togler 2013)
- 数据: 省级面板数据 (1998-2007),腐败衡量指标来自《中国检察年鉴》。
关键的中国统计年鉴资源
- CNKI 中国知网: 中国经济与社会发展统计数据库
- 省级年鉴: 《福建统计年鉴》、《山东省年鉴》等。
- 国家级年鉴:
- 《中国统计年鉴》
- 《中国县市社会统计年鉴》
- 《中国人口和就业统计年鉴》
- 《中国劳动统计年鉴》
- 《中国城市年鉴》
- 以及更多...
主要的国际区域层面数据库
- OECD Statistics: stats.oecd.org
- U.S. Census Bureau: usa.gov/census-data
- 美国政府开放数据网站: data.gov
(IV) 国际与国家层面的数据
这些数据用于跨国比较研究,分析全球趋势和国家间的差异。
可研究的现象
- 经济增长
- 能源消耗
- 债务
- 贸易
- 科技
- 气候变化与环境
- 投资与金融
- 自然灾害/冲突/战争
主要的国家层面数据来源
所有以下数据源均可免费访问
Penn World Tables (PWT)
- 简介: 覆盖182个国家/地区,时间跨度为1950-2019年。是跨国比较GDP和生产率的权威数据。
- 链接: PWT Website
World Development Indicators (WDI)
- 简介: 世界银行发布,覆盖超过150个国家,时间从1960年至今。包含从农业到科技等800多个指标。
- 链接: World Bank Data
World Urbanization Prospects
- 简介: 联合国发布,提供自1950年以来各国按城乡划分的人口数据。
- 链接: UN Population Division
Economic Policy Uncertainty Index (EPU)
- 简介: 由 Baker, Bloom, Davis 等学者构建,基于报纸覆盖频率来衡量经济政策不确定性。
- 链接: policyuncertainty.com
World Values Survey (WVS)
- 简介: 始于1981年,是全球最大的非商业性、跨国、时间序列的关于人类信仰和价值观的实证调查。
- 链接: worldvaluessurvey.org
其他独特数据库
- Global Terrorism Database (GTD): 记录1970-2020年全球恐怖主义事件。
- Global Innovation Index (GII): 衡量国家创新生态系统。
- 图书馆资源: CEIC 全球经济数据库和中国经济数据库。
新兴数据源
历史数据
- 图书馆资源: 爱如生数字产品(如中国基本古籍库、中国方志库等)为历史研究提供了丰富的文本资料。
卫星数据
根据 Donaldson and Storeygard (2016, JEP) 的论述,计算机科学、工程学和地理学的革命性发展,极大地改变了经济学家使用数据的方式。廉价的高分辨率卫星图像已成为经济学研究的有力工具。
- 近期发展领域:
- 夜间灯光 (Night lights)
- 降水、风速、洪水等气候数据
- 地形、作物选择、森林覆盖
- 城市发展、建筑类型、道路
- 污染、海滩质量
- 数据平台示例:
- 夜间灯光: Earthdata (NASA)
- 农业经济: Global Agro-Ecological Zones (GAEZ)
大数据
大数据涵盖从低频到高频,从结构化到非结构化的各类数据。
- 结构化数据: 来自数字平台的数据,例如 Uber 数据可用于研究零工经济中的性别工资差距。
- 非结构化数据 (文本分析):
> “各种政府工作报告与政策文件、各类新闻报道、社交媒体平台的各种评论等都是文本数据”
>
> ——洪永淼和汪寿阳 (2021),《管理世界》
- 应用案例:
- 经济政策不确定性指数 (EPU) 的构建。
- 《经济研究》2021年文章:利用上市公司年报文本分析研究大数据应用对企业市场价值的影响。
- 应用案例:
总结
数据服务于你的研究问题 (Data serves to answer your RQ)。
数据类型 | 特点 |
---|---|
传统低频数据 | 结构化,来源稳定,如调查数据、统计年鉴。 |
卫星数据 | 高频,空间覆盖广,可与传统数据结合。 |
大数据 | 高频、多样,包含文本、图像等非结构化数据。 |
最后的建议
当今的研究者并不缺乏数据。关键在于确定一个好的研究主题,然后找到并使用最合适的数据源来回答你的问题。