美研发开源开源语言模型生成文献综述

中新网北京2月5日电 (记者 孙自法)在一份最新发表于《自然》的计算机科学论文中,来自美国华盛顿大学的Akari Asai和Hannaneh Hajishirzi带领的团队展示了他们研发的开源语言模型OpenScholar,这款工具在生成文献综述时的准确性几乎能与人类专家相媲美。这项研究表明,OpenScholar不仅能大幅降低AI常出现的引文幻觉问题,还显著提升了答案的有用性。 研究团队把OpenScholar与包含4500万篇最新科研论文的专业数据库以及一个自我评估机制相结合,打造了一个专为科研任务设计的检索增强语言模型。为了给现有的自动化工具打分,他们还专门创建了ScholarQABench基准工具。对比数据显示,OpenScholar在准确性上比GPT4o高6.1%,比PaperQA2高5.5%。 在给模型进行实验时发现,GPT4o会在78%到90%的情况下出现引文幻觉,而OpenScholar给出的答案在50%到70%的时间里都比专家提供的注释更有用。虽然OpenScholar后续仍需进一步优化,但它已经具备了协助科学家处理复杂文献综述任务的潜力。 论文作者指出,科学文献综述对于支持决策、微调研究过程和引导新发现都非常重要。然而随着发表数量的增长,研究人员很难掌握全部信息。虽然大语言模型可以提供帮助,但却容易出错。为了生成更准确全面的综述内容,研究团队开发了这款OpenScholar。 尽管这是一次成功的尝试,但作者也提醒说该AI系统仍有局限性。他们希望通过开源ScholarQABench和OpenScholar来鼓励更多人进行进一步研究和优化。这些成果证明了OpenScholar有望支持和推动进一步的科研工作。