美研发开源开源语言模型生成文献综述

中新网北京2月5日电 (记者孙自法)在一份最新发表于《自然》的计算机科学论文中，来自美国华盛顿大学的Akari Asai和Hannaneh Hajishirzi带领的团队展示了他们研发的开源语言模型OpenScholar，这款工具在生成文献综述时的准确性几乎能与人类专家相媲美。这项研究表明，OpenScholar不仅能大幅降低AI常出现的引文幻觉问题，还显著提升了答案的有用性。研究团队把OpenScholar与包含4500万篇最新科研论文的专业数据库以及一个自我评估机制相结合，打造了一个专为科研任务设计的检索增强语言模型。为了给现有的自动化工具打分，他们还专门创建了ScholarQABench基准工具。对比数据显示，OpenScholar在准确性上比GPT4o高6.1%，比PaperQA2高5.5%。在给模型进行实验时发现，GPT4o会在78%到90%的情况下出现引文幻觉，而OpenScholar给出的答案在50%到70%的时间里都比专家提供的注释更有用。虽然OpenScholar后续仍需进一步优化，但它已经具备了协助科学家处理复杂文献综述任务的潜力。论文作者指出，科学文献综述对于支持决策、微调研究过程和引导新发现都非常重要。然而随着发表数量的增长，研究人员很难掌握全部信息。虽然大语言模型可以提供帮助，但却容易出错。为了生成更准确全面的综述内容，研究团队开发了这款OpenScholar。尽管这是一次成功的尝试，但作者也提醒说该AI系统仍有局限性。他们希望通过开源ScholarQABench和OpenScholar来鼓励更多人进行进一步研究和优化。这些成果证明了OpenScholar有望支持和推动进一步的科研工作。