上市公司诚信文化的句子算出来的

咱们今天聊聊2001年到2024年上市公司企业诚信文化的事儿。这数据是拿《金融研究》上那些提到诚信文化的句子算出来的。首先呢，因为企业财报里有700多万句话，光靠人工翻简直要疯，所以咱就用了个叫word2vec的模型。给它喂了“诚信”“信任”这些种子词，再把近义词都抓出来。我给大伙儿筛了个“减法”，最后就留了67个词。有了这些词，咱就能把包含相关词语的句子都找出来了。不过光靠这还不够，有些句子没直接写关键词，但说不定也是讲诚信的事儿。于是我又搬出了SVM模型来深度筛选。这玩意儿在文本分类里用得特别多。我特意准备了一份“正负名单”，没写关键词的那些句子当“负类”，写了关键词的当“正类”。为了让模型学明白，我按3比1的比例配了量，负类有59.2万句，正类有19.7万句。把这些数据按8比2的比例分成训练集和测试集之后，咱就开始训练SVM模型了。用它给年报里的句子打上标签，为了不漏掉真东西，我把“是”的阈值定到了5%。最后把通过关键词筛选的和SVM认为相关的句子合并起来，就是待确认集了。咱们还得算两个数：一个是诚信句子的字数占文本总字数的比，另一个是数量占总句子数的比。这一整套操作下来，咱们一共搞到了6.5万个样本，涵盖了5600多家企业。这里面不光有原始数据、代码、还有视频运行的情况（不过视频太长占内存所以没录全），大家拿到结果可以自己去验证一下准确性！参考文献是田子方、左从江、李涛他们写的《诚信文化与金融企业社会责任承担》，就在《金融研究》2025年第9期。