近日,针对大型语言模型(LLM)在海洋领域的应用,我所渔业遥感技术及数字渔业创新团队提出了一种针对垂直领域大型语言模型(LLM)的增强型检索方案——BM-RAGAM(BM25检索增强生成注意力机制)。该方案通过结合关键词匹配和语义关联的混合检索策略,大幅提升了LLM在特定领域的信息检索准确性和生成内容的可解释性。该成果(DOI为10.3390/app142411529)发表在《应用科学》杂志上(Applied Sciences,JCR 1 区)。我所与浙江海洋大学的联合培养研究生陈器为第一作者,周为峰研究员为通讯作者。
大型语言模型在处理特定领域的复杂查询时,常常出现回答不准确甚至误导用户的现象,这种现象被称为“幻觉”。为解决这一问题,研究团队以海洋学中的“锋面”和“涡旋”知识为例,开发了BM-RAGAM方案。BM-RAGAM方案的核心在于在本地部署向量化的知识库的基础之上结合了BM25算法和RAG技术,从而实现高效检索和文本生成。实验表明,BM-RAGAM方案在多个评估指标上显著优于基础模型,不仅减少了幻觉现象,还提高了生成内容的准确性和专业性,特别适合海洋领域的问答系统搭建。BM-RAGAM方案为海洋领域LLM的应用提供了新的思路,未来有望进一步拓展到其他垂直领域。
该研究得到了国家重点研发计划(2023YFD2401303)“基于数据驱动的远洋渔情预报技术与服务系统”和中国水产科学研究院东海研究所基本科研业务费项目(2022ZD0402)的支持。

(渔业遥感与信息技术研究室 周为峰)