一、研究背景与概述

大语言模型(LLM)作为人工智能领域的核心技术,已经从实验室研究快速发展成为具有广泛应用前景的商业化产品。截至2025年,全球范围内已有数百种大模型产品发布,应用场景覆盖了从通用对话到垂直领域专业应用的各个方面。

当前的大模型评测面临着诸多挑战:一方面,不同模型在架构、参数规模、训练数据等方面存在巨大差异,难以用单一指标进行比较;另一方面,随着大模型应用场景的不断扩展,传统的评测方法已经无法满足对特定领域应用效果评估的需求。

本研究报告旨在系统梳理大模型及大模型应用的评测方法,为学术研究、产品选型和应用开发提供全面的评测框架和方法论指导。

二、大模型评测的核心维度与指标体系

2.1 通用大模型评测框架

通用大模型评测需要建立全面的指标体系,涵盖模型的基础能力、专业能力和特定语言特性。上海人工智能实验室大模型开放评测平台司南提出的"以人为本"(Human-Centric Eval)评测体系,围绕解决问题能力、信息质量、交互体验三大核心维度,构建了覆盖多场景、多领域的主观评测体系。

技术层面评测指标
  • 理解能力评测指标:分为单模态维度和多模态维度,单模态维度主要包括文本、图像、音频3个二级维度;多模态维度主要包括图文、文音、图音、图文音4个二级维度。
  • 生成能力评测指标:主要评估模型生成内容的质量,包括流畅性、连贯性、多样性、准确性等多个子指标。
  • 性能效率指标:包括响应时间、吞吐量、资源消耗(如内存使用、CPU/GPU利用率)等。

2.2 特定领域大模型评测框架

特定领域大模型评测需要结合行业特点和应用场景,建立更加专业的评测指标体系。

医疗领域大模型评测

中国中医科学院联合中国信息通信研究院等机构于2025年6月3日发布了国内首部中医药大模型评测团体标准,覆盖场景丰富度、能力支持度、应用成熟度三大能力域,包含中医临床诊疗、中药研究等13个能力子域及30余个能力项。

润医医疗大模型在2025年6月的MedBench评测中表现突出,自测评分达到96.4分、专业评测93.2分。其医学语言理解维度得分高达122.4分,医疗安全与伦理维度得分106.6分。

法律领域大模型评测

LawBench是一个针对中国法律体系设计的深度学习基准,包含了20个任务,从简单的法律知识记忆到复杂的法律知识理解和应用,全方位评估模型的表现。

北大开发的Chatlaw模型在LawBench基准测试中平均得分为60.08,显著高于GPT-4的52.35。在2018年至2022年的法律专业人士统一资格考试中,Chatlaw-MoE模型的平均得分为115分,显著高于GPT-4的104分。

教育领域大模型评测

教育领域的大模型评测主要关注模型在解题能力、教学辅助、个性化学习等方面的表现。九章大模型(MathGPT)在2024年高考数学新课标1卷客观题部分的测评中表现亮眼,8道单选题全部答对,3道多选题答错2道,3道填空题答错1道,正确率达到78.57%。

三、大模型评测的主要方法与技术

3.1 基准测试方法

基准测试是大模型评测的基础方法,通过标准化的测试集和评估指标,对不同模型进行客观比较。

主要基准测试类型
  • 综合性基准测试:如MMLU(Massive Multitask Language Understanding),涵盖了52个不同的学科和四个难度级别,包含13948个多项选择题。
  • 专业性基准测试:如SWE-bench,针对真实软件工程任务,包含2,294个高质量任务实例,涵盖API变更、性能优化、错误修复等。
  • 多轮对话基准测试:评估模型在多轮开放领域对话中的能力,包括基础能力、专业能力和中文特性能力。

3.2 人工评估方法

尽管自动化评测方法发展迅速,人工评估仍然是大模型评测中不可或缺的环节,特别是对于那些需要人类主观判断的任务。

常见人工评估方法
  • 成对比较法:评估者对两个模型的输出进行比较,选择更优的一个。Chatbot Arena采用这种方法让不同大模型进行PK。
  • 等级评分法:评估者根据预定义的评分标准,对模型的输出进行打分,通常采用5分制或7分制。
  • 盲测评估:在评估过程中,评估者不知道被评估模型的身份,以避免主观偏见。

3.3 自动化评估方法

随着大模型技术的发展,自动化评估方法也在不断创新,以提高评测效率和客观性。

主要自动化评估技术
  • 基于大模型的评估:PAI-Judge是一个专门针对评测场景设计的大语言模型,支持单模型评测和双模型竞技两种模式,能够对其他LLM的输出进行自动化评估。
  • 多指标综合评估:Confident AI是2025年领先的LLM评测工具之一,拥有当前最优秀的LLM评测指标支持,并提供了最流畅的工作流程。
  • 模型自我评估:研究人员提出了一种名为"B-score"的新指标,用于检测大语言模型中的偏见,基于模型在单轮对话和多轮对话中对某个答案的选择概率差异计算而来。

3.4 用户调研方法

用户调研是评估大模型实际应用效果和用户体验的重要方法,能够收集到真实场景下的用户反馈。

主要用户调研方法
  • 问卷调查法:通过设计结构化的问卷,收集用户对大模型产品的满意度、使用体验、功能需求等方面的反馈。
  • 用户访谈法:通过与用户进行深入的面对面或远程访谈,了解用户对大模型产品的真实看法和使用体验。
  • A/B测试法:将用户随机分为两组,分别使用不同版本的大模型产品,通过比较两组用户的行为数据和反馈,评估不同模型版本的效果差异。
  • 日志分析法:通过分析用户与大模型交互的日志数据,了解用户的使用习惯、偏好和痛点。

四、不同研究目的下的评测策略

4.1 学术研究目的下的评测策略

学术研究目的下的大模型评测,通常关注模型的基础能力、理论创新和技术突破,需要采用严谨的科学方法和标准化的评测流程。

学术研究评测策略
  • 系统性基准测试:使用多种基准测试工具对模型进行全面评估,以验证模型的有效性和先进性。
  • 消融实验:通过逐步移除模型的某些组件或特性,观察模型性能的变化,从而验证各个组件的贡献和作用。
  • 理论分析:对模型的理论性质进行分析,如泛化能力、表示能力、计算效率等。
  • 可复现性研究:公开模型的训练代码、超参数设置和评测方法,以提高研究的可复现性。

4.2 产品选型目的下的评测策略

产品选型目的下的大模型评测,主要关注模型的实用性、可靠性和性价比,需要结合具体的业务场景和需求进行评估。

产品选型评测策略
  • 场景化测试:针对特定的业务场景,设计专门的测试用例,评估模型在实际应用中的表现。
  • 性能压力测试:评估模型在高并发、大数据量等压力条件下的性能表现,包括响应时间、吞吐量、资源消耗等指标。
  • 成本效益分析:比较不同模型在性能和成本之间的权衡,包括模型授权费用、计算资源成本、运维成本等。
  • 长期稳定性评估:评估模型在长时间运行过程中的稳定性和可靠性,包括性能衰减、错误率变化等指标。

4.3 应用开发目的下的评测策略

应用开发目的下的大模型评测,主要关注模型的可扩展性、可定制性和与现有系统的兼容性,需要从工程实践的角度进行评估。

应用开发评测策略
  • 接口兼容性测试:评估模型API的兼容性和易用性,包括接口文档的完整性、参数设置的灵活性、返回结果的规范性等。
  • 模型微调能力评估:评估模型在特定领域数据上的微调效果和效率,包括微调所需的数据量、计算资源、训练时间以及性能提升幅度等。
  • 部署灵活性评估:评估模型在不同环境和平台上的部署可行性,包括对硬件的要求、软件依赖、部署工具的支持等。
  • 集成开发工具评估:评估模型提供商提供的集成开发工具和资源,如SDK、示例代码、开发文档、技术支持等。

五、大模型应用评测的场景与案例

5.1 通用领域应用评测

通用领域的大模型应用评测主要关注模型在日常对话、内容创作、信息检索等场景中的表现。

主要应用场景
  • 智能助手评测:重点包括自然语言理解能力、多轮对话连贯性、知识回答准确性、任务执行效率等方面。
  • 内容创作评测:包括生成内容的流畅性、创意性、准确性、风格一致性等方面。PAI-Judge在创意文体写作场景下表现优异。
  • 代码生成评测:SWE-bench基准包含2,294个高质量任务实例,涵盖广泛的软件工程问题,如API变更、性能优化、错误修复等。

5.2 医疗健康领域应用评测

医疗健康领域的大模型应用评测需要结合专业医学知识和临床实践,确保模型输出的准确性和安全性。

主要应用场景
  • 辅助诊断评测:评估模型在单轮及多轮对话中收集病情信息的能力,包括相关性、有用性、准确性、帮助性等指标。
  • 健康管理评测:蚂蚁医疗大模型在2025年6月的MedBench评测中表现突出,以98.9分、94.7分再度夺得自测和评测双榜冠军。
  • 药物研发评测:润医医疗大模型团队创新采用基于多智能体的医学数据合成工作流自演进技术,使模型具备医学推理、诊断和表达的高阶能力。

金融法律领域的大模型应用评测需要关注模型在专业知识理解、合规性检查、风险评估等方面的能力。

主要应用场景
  • 金融分析评测:关注市场分析、风险评估、投资建议等方面的能力,PAI-Judge在回答确定性问题场景下表现优异。
  • 法律咨询评测:法律大模型直接调用权威法律数据库,引用条文精准到条款号,支持超链跳转原文验证。
  • 合同审查评测:关注条款识别准确性、风险点检测能力、合规性检查效率等方面,DeepSeek模型能够识别出合同中的关键条款并指出需要修正和补充的条款。

5.4 教育领域应用评测

教育领域的大模型应用评测需要关注模型在知识传授、能力培养、个性化学习等方面的效果。

主要应用场景
  • 智能辅导评测:重点包括解题能力、讲解清晰度、启发引导效果等方面,九章大模型在2024年高考数学测评中正确率达到78.57%。
  • 个性化学习评测:关注学习需求分析准确性、资源推荐相关性、学习效果预测可靠性等。
  • 教育管理评测:关注数据分析能力、趋势预测准确性、决策支持有效性等方面,学校可通过AI预测学生学业表现、课程热度。

七、评测方法应用策略建议

学术研究评测策略
  • 多维度全面评测:使用多种基准测试工具和评测指标,从多个维度全面评估模型的性能。
  • 前沿技术跟踪:密切关注最新的评测技术和标准,及时采用最新的评测方法和工具。
  • 开放评测参与:积极参与公开的大模型评测榜单和竞赛,与其他研究团队进行比较和交流。
  • 评测结果透明化:公开评测方法、数据集和结果,提高研究的可复现性和可信度。
产品选型评测策略
  • 场景匹配优先:根据具体的业务场景和需求,选择最适合的模型,而非盲目追求性能指标最高的模型。
  • 多模型对比测试:对多个候选模型进行对比测试,比较它们在相同任务和数据集上的表现。
  • 实际数据测试:使用实际业务数据对模型进行测试,评估模型在真实场景下的表现。
  • 长期性能监控:在模型部署后,持续监控其性能表现,评估长期稳定性和可靠性。
应用开发评测策略
  • 增量式评测:在应用开发过程中,采用增量式评测方法,逐步验证模型在不同开发阶段的表现。
  • 用户参与评测:邀请最终用户参与评测过程,收集他们对应用的反馈和建议。
  • A/B测试优化:通过A/B测试比较不同模型版本或配置的表现,优化应用性能。
  • 持续集成评测:将评测流程集成到持续集成和部署管道中,确保每次代码变更后模型性能符合预期。

八、结论与展望

大模型评测是一个复杂而重要的研究领域,随着大模型技术的不断发展和应用场景的不断扩展,评测方法也在不断创新和完善。本研究报告系统梳理了大模型及大模型应用评测的核心维度、方法技术、应用场景和发展趋势,为学术研究、产品选型和应用开发提供了全面的评测框架和方法论指导。

评测发展总结
  • 评测体系多元化:从单一的性能指标评估,发展为涵盖技术性能、应用效果、用户体验、伦理合规等多个维度的综合评估体系。
  • 评测方法智能化:自动化评测工具和方法不断涌现,如PAI-Judge、Confident AI等,基于大模型的评测方法也在不断创新。
  • 评测标准规范化:大模型评测标准正在逐步完善,国家标准和各行业领域评测标准的制定标志着大模型评测正在走向规范化和标准化。
  • 评测应用场景化:未来的大模型评测将更加注重场景化和领域特定性,针对不同应用场景和行业领域制定专门的评测方法和标准。

尽管大模型评测已经取得了长足进展,但仍面临许多挑战和机遇。未来的研究应更加关注模型的可解释性、鲁棒性、安全性和伦理合规性等方面的评测,同时探索更加高效、智能的评测方法和技术。随着大模型技术的不断发展和应用场景的不断扩展,评测方法也将持续创新和完善,为大模型技术的健康发展提供有力支持。