咱们今天聊聊2001年到2024年上市公司企业诚信文化的事儿。这数据是拿《金融研究》上那些提到诚信文化的句子算出来的。首先呢,因为企业财报里有700多万句话,光靠人工翻简直要疯,所以咱就用了个叫word2vec的模型。给它喂了“诚信”“信任”这些种子词,再把近义词都抓出来。 我给大伙儿筛了个“减法”,最后就留了67个词。有了这些词,咱就能把包含相关词语的句子都找出来了。不过光靠这还不够,有些句子没直接写关键词,但说不定也是讲诚信的事儿。 于是我又搬出了SVM模型来深度筛选。这玩意儿在文本分类里用得特别多。我特意准备了一份“正负名单”,没写关键词的那些句子当“负类”,写了关键词的当“正类”。为了让模型学明白,我按3比1的比例配了量,负类有59.2万句,正类有19.7万句。 把这些数据按8比2的比例分成训练集和测试集之后,咱就开始训练SVM模型了。用它给年报里的句子打上标签,为了不漏掉真东西,我把“是”的阈值定到了5%。 最后把通过关键词筛选的和SVM认为相关的句子合并起来,就是待确认集了。咱们还得算两个数:一个是诚信句子的字数占文本总字数的比,另一个是数量占总句子数的比。 这一整套操作下来,咱们一共搞到了6.5万个样本,涵盖了5600多家企业。这里面不光有原始数据、代码、还有视频运行的情况(不过视频太长占内存所以没录全),大家拿到结果可以自己去验证一下准确性! 参考文献是田子方、左从江、李涛他们写的《诚信文化与金融企业社会责任承担》,就在《金融研究》2025年第9期。