正如英国的许多经济统计数据一样 ,很难找到关于不同行业就业人数的准确数据。这是因为很难找到关于单个公司雇佣人数的准确数据。
尽管《2006年公司法》要求每家公司都必须报告平均员工人数,但情况依然如此。我们最近发现,在我们最大的数据集之一(Net Zero)中,只有55.45%的公司报告了员工人数。这对任何试图分析该行业就业区域分布的人来说都是一个重大挑战。
我们总是在处理数据并创建新的模型,在这篇文章中,我们讨论了最近的一项实验以及它告诉我们有关就业数据的信息。
国家统计局 (ONS) 发布不同行业的就业数据。这些数据用于对其他数据集进行基准测试,并经常用于我们工作中的“人机交互”环节。我们最近使用了低碳和可再生能源经济 (LCREE) 调查的 QMI 作为我们净零数据库质量保证流程的一部分。
关于低碳和可再生能源经济调查
英国国家统计局 (ONS) 通过对 24,000 家企业进行抽样调 秘鲁电报号码数据库 查,收集低碳和可再生能源经济领域的就业数据。调查采用跨部门企业登记册 (IDBR) 作为抽样框架。调查设计为分层单阶段随机抽样,目标人群按行业、就业规模和英国所在国家/地区进行分层。
调查的回复率始终保持在80%以上。分层抽样确保样本均衡,尽可能地反映英国经济的整体情况。
然而,该调查也存在局限性。与所有大规模调查一样,最主要的局限性在于数据收集和发布结果之间存在时间差。国家统计局需要12个月的时间来收集数据、编制报告并发布。这意味着就业数据始终存在滞后性。这使得我们很难了解不同行业的就业人数。
数据也经过加权处理,以代表样本之外的企业。为了避免影响集中趋势指标(例如平均值和中位数),我们删除了较高和较低的值。
英国国家统计局 (ONS) 使用“插补技术来估算因无答复而导致的缺失数据值”。他们使用项目无答复插补法(基于其他可用值进行估算)或单位无答复插补法(基于随时间推移的增长进行估算)。
英国国家统计局数据背后的统计数据
调查整个净零排放行业并不可行,因此国家统计局会使用样本数据来推断数据。收集并准备好数据后,他们会选择一个置信区间,并估算该行业其余部分的缺失数据。这个过程简单、成熟且常用。
尽管使用置信区间的逻辑合理,但我们还是对这种推断的不准确性感到有些不满。我们开始尝试一种新方法,看看能否创建一个更完整的数据集。
新方法:MICE、KNN 和最大似然法
我们尝试通过四种不同的统计插补来构建更强大、实时的数据集;
1. 链式方程多重插补法(MICE)
2. K最近邻(KNN)
3.最大似然估计(MLE)
4.中位数插补(MI)。
我们的目标是讲述英国低碳和可再生能源行业就业的区域故事。
在四种方法中,MICE 和 MLE 得出的员工数据最高。MICE 估计英国低碳和可再生能源经济全职雇佣了 169 万人。KNN 估计为 64.1 万人,MI 估计为 47.3 万人。结果不太理想。我们无法使用任何一种方法来构建我们的区域视图,但这绝不是灾难。
我们发现了两件事。
与大公司相比,小公司报告员工数据的可能性较小
通过探索我们的数据,我们发现报告的员工人数的第一四分位数等于 2,第三四分位数等于 21(四分位距为 19),中位数为 6。此外,报告最频繁的三个员工值分别是 2 FTE(8.2%)、1 FTE(7.3%)和 3 FTE(4.8%)。
规模较小的公司主要由活跃的董事组成
我们来看看蓝潮能源 (Blue Tidal Energy)。蓝潮能源尚未公布任何员工人数,但其网站显示其雇佣了三名员工。这三人均为英国公司注册局 (Companies House) 的现任董事。为了验证第二个假设,我们计算了名单中所有全职员工(约 446,000 人)以及所有现任董事(26,011 人)的总和。
然后,我们根据 FTE 数量排除了排名前 20% 的公司,并为所有公司的这个子集计算了完全相同的值。
报告显示,该公司共有3.1万名全职员工和1.08万名在职董事。有趣的是,在第二次审判中,虚假陈述的全职员工比例从惊人的96.44%下降到仅为34.80%。
上述简单验证表明,可以通过填补在职董事人数来填补缺失的员工人数。这样,我们预计员工人数估算的准确率为 65.2%。
基准测试问题
英国官方就业数据显然存在问题。这些数据使得评估不同行业的就业人数变得困难。抽样和发布之间的滞后,加上建模技术,以及我们发现小公司不太可能报告其数据,这些因素意味着应谨慎使用这些数据。虽然估算方法在国家层面可能有效,但区域层面的就业情况更难准确。
数据城创建 实时数据集,并将我们的数据与一系列外部来源进行基准测试,以确保高质量,并让客户放心使用。与工业分析领域的其他公司一样,我们必须努力解决数据过时的问题,并持续建模和测试各种方法,以制定新的行业标准。