12月6日,在中共上海市委金融工作委员会办公室、上海市经济和信息化委员会的指导下,上海市人工智能行业协会和上海金融业联合会联合发布了全国首个以金融业务能力为核心的团体标准——《金融大模型应用评测指南》(以下简称《评测指南》)。同时,上海库帕思科技有限公司也发布了多维度金融大模型评测数据集(2024版)。
作为团体标准单位,上海财经大学统计与数据科学学院和滴水湖高级金融学院联聘的张立文教授领导的金融大语言模型课题组积极参与《评测指南》的起草与修订工作。学校充分发挥统计与数据科学院学院、数据科学与统计研究院、金融学院和滴水湖高级金融学院的学科优势,利用其在金融科技、数据分析、人工智能等领域的深厚积淀,通过跨学科协作,为相关工作提供了强有力的专业支持和智力支撑。这一过程不仅体现了上海财经大学在推动行业标准化和规范化方面的积极作用,也彰显了其在教育、科研与社会服务等多个层面的深度融合与创新驱动作用,为行业发展和技术进步贡献了重要力量。
据悉,《金融大模型应用评测指南》以金融业务为核心,以金融机构模型应用为导向,从模型基础、金融安全与价值对齐、金融风险控制、金融专业认知、金融业务辅助拓展等五个维度,提出了185项指标要求,构建了金融领域大模型的能力测评框架。
在模型基础能力方面,围绕模型的基础理解和推演功能,指南定义了包括文本分类、信息抽取等在内的11项单模态指标要求,以及图文检索、视频问答等在内的6项多模态指标要求。在金融安全与价值对齐能力方面,围绕模型的可靠性、可解释性以及隐私保护,指南设计了包括内容合规、文化价值、伦理价值等在内的9项指标要求。在金融风险控制能力方面,围绕模型在实际应用中的风险防范与控制,指南提出了包括利率风险、汇率风险、舆情风险等在内的19项指标要求。在金融专业认知能力方面,围绕模型的金融基础知识和信息解读,指南归纳了包括会计核算、财务报表编制与分析等在内的23项指标要求。在金融业务辅助拓展能力方面,围绕银行、基金、保险、证券、信托等五个领域,指南提炼了28项业务场景,并涵盖了包括存贷款业务、量化交易等在内的117项指标要求。《金融大模型应用评测指南》还同步细化了相关的评测内容,给出了相关的评测方法与工具,并以附录的形式提供了评测分级标准。
同时,上海人工智能实验室联合上海财经大学、上海库帕思科技有限公司发布了《金融大模型应用评测报告(2024)》(以下简称《报告》)。评测围绕金融行业的核心业务需求及大模型在金融场景中的适配性,结合银行、证券、保险、基金等重点应用场景,对14家机构的20个主流大模型的金融专业能力进行了评测。
结果显示,参评模型在金融安全与价值对齐方面表现优异,这体现了行业对关键合规性和伦理问题的高度重视;而在模型基础能力、金融专业认知,特别是多模态处理能力等方面,参评模型还存在一定短板,尤其是在复杂金融业务场景中的表现亟待提升。按综合总分排名,Anthropic、阶跃星辰/财跃星辰和阿里巴巴的参评模型位列前三。
未来,金融领域评测报告将以每年一至两次的频率发布,旨在为行业提供客观评测结果与方向指引参考,助力金融科技在智能化、专业化、精细化方向上实现进一步突破与发展。
供稿|张立文