财务报表分析系列:机器学习在上市公司财务造假识别中的应用

王程畅 2024-11-20 13:25:07
机构研报 2024-11-20 13:25:07 阅读

  核心观点:财务造假会影响投资者的判断,从而给投资者带来巨大的损失。本文选取了2001 至2022 年间,证监会,上交所以及深交所发布的公告中搜集到发生财务造假的A 股上市公司作为造假样本,共涉及1503 家公司的3959 份年报。从财务指标、公司基本情况和市场指标三个维度入手, 构建了特征变量池。使用了 Logistic 回归、XGBoost 和MLP,3 种机器学习方法,构建上市公司财务造假识别模型。

      其中XGBoost 回归结果最优,XGBoost 结果为准确率76.43%,精确率18.12%,召回率69.63%,特异性76.93%。通过对特征重要度的分析可以发现,非标的审计意见、与财务费用相关的指标、与净利润相关的指标、预付款项等,在现实中如果要判断财务造假,可以从这些特征入手,观察它们是否出现异常。

      财务造假数量增加,虚假记载是最主要的造假动机2001 至2022 年,涉及财务造假的公司达1503 家。财务造假会影响投资者的判断,从而给投资者带来巨大的损失,也给中国资本市场的健康发展蒙上了阴影。财务造假数量呈现增长趋势,虽然近两年有所缓解,但对财务造假的甄别仍然值得关注。经统计,超过90%的财务造假处罚类型均为虚假记载,因此可以围绕利润的形成过程,构建识别的特征。本文选取了2001 至2022 年间,证监会,上交所以及深交所发布的公告中搜集到发生财务造假的A 股上市公司作为造假样本,共涉及1503 家公司的3959 份年报。为了保证模型的可回测性,选取控制样本为当年所有无造假的上市公司。对于连续年度造假的样本,将每一年都视为一个独立的造假样本。

      根据财务指标、公司基本情况和市场指标,构建特征变量池,结合显著性检验筛选,使用多种机器学习算法构建预测模型依据财务造假常见的手段,从财务指标、公司基本情况和市场指标三个维度入手,构建了特征变量池,结合显著性检验进一步筛选。本文使用了 Logistic 回归、XGBoost 和MLP,3 种机器学习方法,构建上市公司财务造假识别模型。不同算法的原理不同,表现相近。结果表明,XGBoost 回归结果最优,XGBoost 结果为准确率76.43%,精确率18.12%,召回率69.63%,特异性76.93%。

      不同机器学习算法中特征重要度均较高的特征是财务造假识别的关键特征

      通过对特征重要度的分析可以发现,在现实中如果要判断财务造假,可以从非标的审计意见、与财务费用相关的指标、与净利润相关的指标、预付款项等特征入手,观察它们是否出现异常。

      风险提示:数据质量风险、机器学习模型风险、依赖风险

声明:
  1. 风险提示:以上内容仅来自互联网,文中内容或观点仅作为原作者或者原网站的观点,不代表本站的任何立场,不构成与本站相关的任何投资建议。在作出任何投资决定前,投资者应根据自身情况考虑投资产品相关的风险因素,并于需要时咨询专业投资顾问意见。本站竭力但不能证实上述内容的真实性、准确性和原创性,对此本站不做任何保证和承诺。
  2. 本站认真尊重知识产权及您的合法权益,如发现本站内容或相关标识侵犯了您的权益,请您与我们联系删除。