Skip to content

文献回顾与论文写作:数据来源

课程大纲

本讲座将涵盖以下核心主题,帮助您为研究项目寻找和评估合适的数据。

  • 数据来源的种类与概览
  • 研究问题驱动的数据选择
  • 从宽泛主题到具体研究问题时的数据考量
  • 数据处理在现代研究中的普遍性与重要性

劳动经济学中的数据使用趋势

为了解数据在实证研究中的演变,我们可以观察顶级期刊的发表趋势。

图 1: 《劳动经济学杂志》(Journal of Labor Economics)1983-2012 年发表论文的数据使用情况。

图片来源: Hallock (2013)

主要趋势观察

  • 多数据源整合: 在一个研究项目中使用多种数据源的趋势日益增强。
  • 原创性数据: 使用作者自行收集或整理的独特数据集的趋势愈发明显。
  • 国际化视角: 使用非美国数据集的研究也呈上升趋势。

思考:是否必须拥有“花哨”的数据才能做出好项目?

答案是否定的。 关键在于数据是否能精准、有效地回答你的研究问题,而不是数据本身的稀有性。

数据来源分类

研究数据可以从多个维度进行分类,常见的来源包括:

  • 个人/家庭层面 (Individual/households)
  • 企业层面 (Firms)
  • 区域层面 (Regional)
  • 国家层面 (Country)
  • 历史数据 (Historical)
  • 大数据 (Big Data)

(I) 个人与家庭层面的数据

这类数据关注个体和家庭单位的行为、特征和决策,是微观经济学研究的基石。

可研究的现象

  • 人口动态: 生育率/死亡率 (Fertility/mortality)
  • 教育: 幼儿园、义务教育、大学、研究生教育 (Education)
  • 劳动力市场: 劳动参与、就业、收入 (Employment/Earnings/Income)
  • 流动性: 国内迁移与国际迁移 (Mobility)
  • 金融行为: 消费/储蓄/投资 (Consumption/Saving/Investment)
  • 时间利用: 家务、睡眠、工作、休闲等 (Time-use pattern)
  • 主观福祉: 幸福感、观点、态度 (Subjective well-being/opinions)
  • 家庭: 婚姻 (Marriage)
  • 社会参与: 志愿工作、捐赠等 (Social activities)
  • 退休: 退休后再就业 (Retirement)
  • 健康: 健康状况与行为 (Health)

主要的中国微观调查数据库

以下是中国研究中常用的一些大型、公开的个人/家庭层面微观数据库。

1. 中国家庭收入项目 (CHIP)

  • 全称: China Household Income Project (CHIP)
  • 可用年份: 1988, 1995, 2002, 2007 (2008), 2013, 2018 年的数据已公开。CHIP 2023 已于 2024 年启动。
  • 简介: 由中外收入分配领域专家设计,国家统计局协助调查。其抽样框与国家统计局的城乡住户调查系统保持一致,分为城镇、农村样本,2002年后增加了外来务工人员样本。
  • 数据中心: 北京师范大学中国居民收入分配调查数据库

核心内容

CHIP 的核心是家庭收入支出。 * 家庭成员人口学信息 * 户籍状况、居住条件 * 教育、健康 * 成人就业细节、工时、工资性与经营性工作状况 * 家庭收入、资产、支出等财务信息 * 主要成员的父母、子女、兄弟姐妹信息 * 特定年份还包含拆迁、退休、借贷、土地经营等专题模块

应用案例:

  • Yang, Dennis Tao. 2005. “Determinants of schooling returns during transition: Evidence from Chinese cities.” Journal of Comparative Economics 33:244–264.
  • 其他研究方向:贫困率测算、农村高中入学率决定因素、收入/工资不平等、农民工问题等。

2. 中国综合社会调查 (CGSS)

  • 全称: Chinese General Social Survey (CGSS)
  • 可用年份: 2003, 2005, 2006, 2008, 2010, 2011, 2012, 2013, 2015, 2017, 2018, 2021, 2023 年的数据已公开。
  • 简介: 旨在系统、全面地收集中国民众的行为、态度以及日常生活与工作信息,反映中国人的行为与认知模式,并捕捉社会变迁的趋势。
  • 数据中心: 中国综合社会调查 (CGSS)

核心内容

CGSS 更侧重于社会学议题,尤其关注主观福祉社会态度。下表展示了部分年份的问卷模块:

年份 问卷模块
2003 家庭,迁移,社会网络与社会交往,教育经历,职业经历,劳动力市场,评价与认同,态度与行为
2005 家庭,心理健康,经济态度与行为评价,社区生活与治理,农村治理
2008 家庭,教育及工作史,性格与态度,社会交往及求职,社会不平等(ISSP),全球化(EASS)
2010 核心模块,阶级意识,社会分层,收入与消费,宗教,环境(ISSP),健康(EASS)
2012 核心模块,社会公益与慈善,主观幸福感,文化消融,家庭与性别角色(ISSP),社会网络与社会资本(EASS)
2013 核心模块,2003回顾,社会道德,公共服务满意度

应用案例:

  • Chen, Xi, and Suqin Ge. 2018. “Social norms and female labor force participation in urban China.” Journal of Comparative Economics, 46:966-987.
  • 其他研究方向:家庭储蓄率、迁移、文化规范的实证支持等。

3. 中国人口普查微观数据 (Census)

  • 可用年份: 1982, 1990, 2000 年普查的 1% 抽样数据可通过 IPUMS 获取。2010年普查及2005、2015年小普查数据可在特定平台申请。
  • 简介: 提供全国范围内最权威、覆盖最广的人口学基础数据,是研究宏观人口结构、迁移、教育等议题的利器。
  • 数据中心: Integrated Public Use Microdata Series (IPUMS)

应用案例:

  • 使用 2000 年普查数据: Chen, Yi and Yi Zhao. 2022. “The timing of first marriage and subsequent life outcomes: Evidence from a natural experiment.” Journal of Comparative Economics, 50:713-731.
  • 结合普查与企业数据: Imbert, Clement, Marlon Seror, Yifan Zhang, and Yanos Zylbergerg. 2022. “Migrants and Firms: Evidence from China.” American Economic Review, 112(6): 1885-1914.
  • 使用 2005 小普查与 2010 年普查数据: Jin, Zhangfeng and Junsen Zhang. 2022. “Access to Local Citizenship and Internal Migration in a Developing Country: Evidence from a Hukou Reform in China.” Journal of Comparative Economics, available online.

4. 中国健康与营养调查 (CHNS)

  • 全称: China Health and Nutrition Survey (CHNS)
  • 可用年份: 1989, 1991, 1993, 1997, 2000, 2004, 2006, 2009, 2011, 2015, 2018 年的数据已公开。
  • 简介: 旨在检验国家和地方政府实施的健康、营养和计划生育政策的效果,并观察中国社会经济转型对其人口健康和营养状况的影响。
  • 数据中心: University of North Carolina at Chapel Hill

核心内容

CHNS 专注于健康营养。 * 健康状况的代际不平等 * 家庭收入与儿童健康 * 老年人健康结果 * 健康保险需求 * 健康领域的性别差异 * 吸烟与健康 * 教育回报率 * 收入不平等

应用案例:

  • Zhang, Jing and Lixin Colin Xu. 2016. “The long-run effects of treated water on education: The rural drinking water program in China.” Journal of Development Economics, 122:1-15.

5. 中国和印尼农民工研究项目 (RUMiC/RUMiCI)

  • 全称: Rural-Urban Migration in China and Indonesia (RUMiCI / RUMiC)
  • 可用年份: RUMiCI (2008-2009) 数据可在 IZA IDSC 申请下载。RUMiC (2016-2018) 数据可向暨南大学申请。
  • 简介: 中国目前唯一的大型城乡流动人口数据追踪调查项目,为研究流动人口的决策、风险态度和家庭动态提供了宝贵数据。
  • 数据中心:

应用案例:

  • Dustmann, Christian, Francesco Fasani, Xin Meng, and Luigi Minale. 2020. “Risk Attitudes and Household Migration Decisions.” Journal of Human Resources, available online.
  • Wang, Chunchao, Chenglei Zhang, Jinlan Ni, Haifeng Zhang, and Junsen Zhang. 2019. “Family migration in China: Do migrant children affect parental settlement intention?” Journal of Comparative Economics, 47:416-428.

6. 中国流动人口动态监测调查 (CMDS)

  • 全称: China Migrants Dynamic Survey (CMDS)
  • 可用年份: 2009 – 2018 (自 2011 年起覆盖全国31个省级单位)。
  • 简介: 由国家卫健委组织的大型流动人口横截面调查项目。调查对象为在流入地居住一个月以上、非本区(县、市)户口且年龄在15周岁及以上的流动人口。
  • 数据中心: 国家卫生健康委流动人口数据平台 (注意:2023年已暂停数据申请)

应用案例:

  • Zou, Jing and Xiaojun Deng. 2022. “Housing tenure choice and socio-economic integration of migrants in rising cities of China.” China Economic Review, 74:101830.

7. 中国健康与养老追踪调查 (CHARLS)

  • 全称: China Health and Retirement Longitudinal Survey (CHARLS)
  • 可用年份: 2011 (基线), 2013, 2014, 2015, 2018, 2020 年的追访数据已公开。
  • 简介: 旨在收集一套代表中国45岁及以上中老年人家庭和个人的高质量微观数据,用于分析老龄化问题。
  • 数据中心: CHARLS 官方网站

核心内容

CHARLS 关注中老年群体的健康、养老及相关经济社会问题。 * 子女迁移决策与对老人的支持 * 老年人居住安排 * 社区效应对老年人健康的影响

应用案例:

  • Cui, Hanxiao, James P. Smith, and Yaohui Zhao. 2020. “Early-life deprivation and health outcomes in adulthood: Evidence from childhood hunger episodes of middle-aged and elderly Chinese.” Journal of Development Economics, 143:102417.

8. 中国老年人健康长寿影响因素调查 (CLHLS)

  • 全称: The Chinese Longitudinal Healthy Longevity Survey (CLHLS)
  • 可用年份: 1998 – 2018 年的多期追踪数据。
  • 简介: 覆盖全国23个省区市的老年人追踪调查,调查对象为65岁及以上老年人和35-64岁成年子女。
  • 数据中心: 北京大学开放研究数据平台

应用案例:

  • Cheng, Lingguo, Hong Liu, Ye Zhang, and Zhong Zhao. 2018. “The health implications of social pensions: Evidence from China’s new rural pension scheme.” Journal of Comparative Economics, 46:53-77.

9. 中国家庭追踪调查 (CFPS)

  • 全称: China Family Panel Studies (CFPS)
  • 可用年份: 2010 (基线), 2012, 2014, 2016, 2018, 2020 年的追访数据已公开。
  • 简介: 一项全国性、大规模、多学科的社会跟踪调查项目,重点关注中国居民的经济与非经济福祉,涵盖经济活动、教育成就、家庭关系、人口迁移和健康等众多研究主题。
  • 数据中心:

应用案例:

  • 结合 CFPS 与县级数据: Chen Yi, Sheng Jiang, Li-An Zhou. 2020. “Estimating returns to education in urban China: Evidence from a natural experiment in schooling reform.” Journal of Comparative Economics, 48:218-233.

10. 中国家庭金融调查 (CHFS)

  • 全称: China Household Finance Survey (CHFS)
  • 可用年份: 2011, 2013, 2015, 2017, 2019, (2021, 2023) 年的数据已公开。
  • 简介: 数据聚焦于家庭财富,特别是金融资产与负债、住房资产、经营性资产,以及家庭收支、保险等方面。
  • 数据中心: 西南财经大学中国家庭金融调查与研究中心

应用案例:

  • Liang, Pinghan, and Shiqi Guo. 2015. “Social interaction, Internet access and stock market participation—An empirical study in China.” Journal of Comparative Economics, 43(4): 883-901.

11. 中国劳动力动态调查 (CLDS)

  • 全称: China Labor-force Dynamic Survey (CLDS)
  • 可用年份: 2012 (基线), 2014, 2016, (2018, 2020) 年的数据已公开。
  • 简介: CLDS 样本覆盖中国29个省市,具有全国及东中西部、广东省和珠三角的代表性,是研究劳动力议题的重要数据。
  • 数据中心: 中山大学社会科学调查中心

应用案例:

  • 使用面板数据: Zhang, Zhijian and Xueyuan Wang. 2022. “Birthplace diversity and private giving: Evidence from China.” China Economic Review, 74:101827.
  • 使用混合横截面数据: 林文声、王志刚和王美阳,2018,“农地确权、要素配置与农业生产效率——基于中国劳动力动态调查的实证分析”,《中国农村经济》,8:64-82。

12. 中国教育追踪调查 (CEPS)

  • 全称: China Education Panel Survey (CEPS)
  • 可用年份: 2013-2014 (基线) 及后续追访数据 (2014-15, 2015-16, 2017-18)。
  • 简介: 以2013-2014学年的初一和初三两个同期群为起点,在全国随机抽取约2万名学生进行长期追踪,整个调查周期长达30年。
  • 数据中心: 中国人民大学中国调查与数据中心 (NSRC)

应用案例:

  • Gong, Jie, Yi Lu, and Hong Song. 2018. “The Effect of Teacher Gender on Students’ Academic and Noncognitive Outcomes.” Journal of Labor Economics, 36(3): 743-778.

微观数据结构总结

重复截面 (Repeated Cross Section) 面板 (Panel)
CHIP CHNS
CGSS (部分可构成面板) RUMiC
Census CHARLS
CHFS CLHLS
CMDS CFPS
CLDS

主要国际微观数据库

  • IPUMS (Integrated Public Use Microdata Series):
    • IPUMS 免费提供世界各地的普查和调查数据,并对数据进行了跨时间和空间的整合,是进行国际比较研究的宝贵资源。
    • IPUMS International

(II) 企业层面的数据

企业层面的数据可以帮助我们理解企业行为、产业动态以及宏观政策对微观主体的影响。

可研究的现象

  • 私营部门的兴起
  • 企业进入、退出与成长
  • 生产率差异与收敛
  • 金融危机对企业绩效的影响
  • 加入WTO与企业生产率
  • 企业创新
  • 企业社会责任/捐赠
  • 外商直接投资 (FDI) 的溢出效应

主要的中国企业微观数据库

中国工业企业数据库

  • 全称: “全部国有及规模以上非国有工业企业数据库”
  • 可用年份: 1996-2007, 2008-2013
  • 简介: 这是研究中国制造业最核心、最常用的数据库之一。
  • 重要变量:
    • 行业与地理识别码
    • 企业所有制类型
    • 资产、负债、存货、应收账款
    • 产出、出口、利润、投入、税收
    • 研发 (R&D)
    • 就业人数 (2004年包含按教育程度分类的男女员工数)

应用案例:

  • 结合城市数据: 王文春和荣昭,2014,“房价上涨对工业企业创新的抑制影响研究”,《经济学(季刊)》, 13(2): 465-490.
  • 结合普查数据: Imbert, Clement, Marlon Seror, Yifan Zhang, and Yanos Zylberberg. 2022. “Migrants and Firms: Evidence from China.” American Economic Review, 112(6): 1885–1914.

其他企业相关数据资源

  • 中国海关进出口统计数据 (China Custom Data): 2000-2010, 2007-2015
  • 中国专利数据库 (Patent data): 1985-2016
  • 中国工商注册企业数据库 (Registration information): 1986-2021
  • 经济普查数据库 (Economic Census): 2004, 2008
  • 中国制造业排污整合数据库 (China industrial environmental database): 1998-2014

数据合并的潜力

将工业企业数据与其他数据合并,可以拓展研究边界: * 与海关数据合并: 研究国际贸易行为。 * 与专利数据合并: 研究企业创新活动。 * 与 CSMAR 数据合并: 研究公司金融问题。

中国企业创新创业调查 (ESIEC)

  • 简介: 以2010至2017年期间注册的中国民营和外资企业及其创建者为调查对象,围绕企业家的创业史和企业的创建过程、经营状况、创新等问题展开调查。
  • 数据中心: 北京大学开放研究数据平台

中国小微企业调查 (CMES)

  • 简介: 2015年启动的全国性小微企业大型抽样调查,主要调查对象为全国具有独立法人资格的小型企业、微型企业和家庭作坊式企业。
  • 数据中心: 可向西南财经大学中国家庭金融调查与研究中心申请。

主要的国际企业层面数据库

  • 世界银行企业调查 (World Bank Enterprise Surveys):
    • 自2002年以来,提供了来自155个国家、19.5万家企业的经济数据。
    • 涵盖融资渠道、性别、腐败、基础设施、创新、竞争等广泛的营商环境主题。
    • 需注册后获取数据:Enterprise Surveys Data

(III) 区域与政府层面的数据

这类数据通常来自官方统计年鉴,适用于研究地区差异、政府政策评估等宏观和中观层面的问题。

可研究的现象

  • 政府预算盈余/赤字
  • 区域间基础设施投资
  • 政府规制/政策
  • 区域经济增长
  • 地区间腐败差异

研究案例与数据来源

  • 问题: 地方政府的预算赤字是否推高了中国的房价? (Wu et al. 2014)

    • 数据: 《中国房地产统计年鉴》、《中国国土资源年鉴》、《中国区域经济统计年鉴》、《中国统计年鉴》。
  • 问题: 是什么决定了中央政府基础设施投资的区域分配? (Zheng et al. 2013)

    • 数据: 《中国统计年鉴》(1996–2009)。
  • 问题: 公立医院的政事分开如何影响医疗供给? (Pan et al. 2013)

    • 数据: 山东省和江苏省17个和13个城市2003-2008年的面板数据,来自《山东省年鉴》和《江苏省年鉴》。
  • 问题: 腐败的成因是什么? (Dong and Togler 2013)

    • 数据: 省级面板数据 (1998-2007),腐败衡量指标来自《中国检察年鉴》。

关键的中国统计年鉴资源

  • CNKI 中国知网: 中国经济与社会发展统计数据库
  • 省级年鉴: 《福建统计年鉴》、《山东省年鉴》等。
  • 国家级年鉴:
    • 《中国统计年鉴》
    • 《中国县市社会统计年鉴》
    • 《中国人口和就业统计年鉴》
    • 《中国劳动统计年鉴》
    • 《中国城市年鉴》
    • 以及更多...

主要的国际区域层面数据库

(IV) 国际与国家层面的数据

这些数据用于跨国比较研究,分析全球趋势和国家间的差异。

可研究的现象

  • 经济增长
  • 能源消耗
  • 债务
  • 贸易
  • 科技
  • 气候变化与环境
  • 投资与金融
  • 自然灾害/冲突/战争

主要的国家层面数据来源

所有以下数据源均可免费访问

Penn World Tables (PWT)

  • 简介: 覆盖182个国家/地区,时间跨度为1950-2019年。是跨国比较GDP和生产率的权威数据。
  • 链接: PWT Website

World Development Indicators (WDI)

  • 简介: 世界银行发布,覆盖超过150个国家,时间从1960年至今。包含从农业到科技等800多个指标。
  • 链接: World Bank Data

World Urbanization Prospects

  • 简介: 联合国发布,提供自1950年以来各国按城乡划分的人口数据。
  • 链接: UN Population Division

Economic Policy Uncertainty Index (EPU)

  • 简介: 由 Baker, Bloom, Davis 等学者构建,基于报纸覆盖频率来衡量经济政策不确定性。
  • 链接: policyuncertainty.com

World Values Survey (WVS)

  • 简介: 始于1981年,是全球最大的非商业性、跨国、时间序列的关于人类信仰和价值观的实证调查。
  • 链接: worldvaluessurvey.org

其他独特数据库

  • Global Terrorism Database (GTD): 记录1970-2020年全球恐怖主义事件。
  • Global Innovation Index (GII): 衡量国家创新生态系统。
  • 图书馆资源: CEIC 全球经济数据库和中国经济数据库。

新兴数据源

历史数据

  • 图书馆资源: 爱如生数字产品(如中国基本古籍库、中国方志库等)为历史研究提供了丰富的文本资料。

卫星数据

根据 Donaldson and Storeygard (2016, JEP) 的论述,计算机科学、工程学和地理学的革命性发展,极大地改变了经济学家使用数据的方式。廉价的高分辨率卫星图像已成为经济学研究的有力工具。

  • 近期发展领域:
    • 夜间灯光 (Night lights)
    • 降水、风速、洪水等气候数据
    • 地形、作物选择、森林覆盖
    • 城市发展、建筑类型、道路
    • 污染、海滩质量
  • 数据平台示例:

大数据

大数据涵盖从低频到高频,从结构化到非结构化的各类数据。

  • 结构化数据: 来自数字平台的数据,例如 Uber 数据可用于研究零工经济中的性别工资差距。
  • 非结构化数据 (文本分析): > “各种政府工作报告与政策文件、各类新闻报道、社交媒体平台的各种评论等都是文本数据” > > ——洪永淼和汪寿阳 (2021),《管理世界》
    • 应用案例:
      • 经济政策不确定性指数 (EPU) 的构建。
      • 《经济研究》2021年文章:利用上市公司年报文本分析研究大数据应用对企业市场价值的影响。

总结

数据服务于你的研究问题 (Data serves to answer your RQ)。

数据类型 特点
传统低频数据 结构化,来源稳定,如调查数据、统计年鉴。
卫星数据 高频,空间覆盖广,可与传统数据结合。
大数据 高频、多样,包含文本、图像等非结构化数据。

最后的建议

当今的研究者并不缺乏数据。关键在于确定一个好的研究主题,然后找到并使用最合适的数据源来回答你的问题。