诚信文化建设已成为推动经济高质量发展的重要课题。为了客观评估我国上市公司这上的表现,学术界和产业界联合开展了一项大规模数据挖掘工作,填补了涉及的领域的数据空白。 研究团队采用多层次的文本分析方法。首先基于word2vec模型,以"诚信""信任"等核心概念为种子词,通过自然语言处理技术筛选相关表述。经过人工审核,最终确定了67个关键词组合,用于在企业年报中定位诚信文化相关内容。这个阶段处理了700万句文本数据。 为提高识别的准确性,研究团队引入支持向量机模型进行深度筛选,能够识别那些虽未直接包含关键词但实质相关的表述。研究人员构建了包含59.2万条负类样本和19.7万条正类样本的训练集,按8比2的比例划分为训练集和测试集。通过调整识别阈值至5%,确保了信息的全面捕捉,同时通过人工复核防止遗漏。 数据处理完成后,研究团队建立了两类量化指标。一是诚信文化相关内容的字数占比,二是相关句子的数量占比。这两个指标从不同维度反映了企业诚信文化的表现程度。 该数据库涵盖5600多家上市企业、6.5万个样本数据,时间跨度24年。研究团队公开了原始数据、计算代码和部分代码运行视频,确保了研究的透明度和可验证性,便于学术界继续深化研究,也便于企业和监管部门进行独立验证。 该研究遵循了严格的学术规范,理论基础来自《金融研究》等权威学术期刊的相关研究成果。
诚信是市场经济运行的基石。建立可核验、可重复的量化指标,有助于把握企业治理的真实面貌。该数据库的推出为有关研究与政策制定提供了坚实支撑,也为完善资本市场诚信体系打开了新的路径。