人工智能

OpenCompass司南

OpenCompass司南是由上海人工智能实验室研发的面向通用人工智能时代的一站式开源评测体系与开放平台，提供涵盖大模型、科学智能、具身智能、安全、AI计算系统及垂类应用六大领域的全面、客观、中立的评测工具、数据集与榜单，旨在驱动下一代AI评估基础设施建设。

产品简介

大模型评测AI评估开源工具评测榜单科学智能具身智能

产品截图

详细介绍

产品概述

OpenCompass司南是由上海人工智能实验室研发的面向通用人工智能时代的创新开放评测体系。它旨在为大模型的开源方、使用者以及整个AI研究社区提供一个开源、高效、全面的评测开放平台。该平台致力于解决大模型及AI系统能力评估标准不统一、评测维度单一、工具分散等核心问题，通过构建从基准、工具到评测结果的完整闭环，为产、学、研各界提供客观、中立的评测参考，推动AI技术的健康发展与标准化进程。

核心功能与特点

全谱系AI评测：构建了“AI计算系统-通用大模型-科学智能-具身智能-安全-垂类应用领域”六位一体的全景评估范式，覆盖AI技术栈的各个层面。
多维评测榜单：提供包括大语言模型、多模态模型、科学能力等在内的官方自建榜单，从综合得分到细粒度能力维度进行评分与排名，展示当前最先进模型的性能。
一站式开源工具集：提供一系列模块化、可扩展的开源评测工具，包括：
- OpenCompass：大语言模型评测工具，集成海量评测集与主流模型模板。
- VLMEvalKit：多模态大模型评测工具，收录大量模型与数据集。
- SciEvalKit：科学智能评测工具链，评估模型科学通用智能。
- GRUTopia：具身智能仿真评测平台。
- DeepLink：AI计算系统开放计算平台。
- CompassJudger：多合一评判模型，支持打分、对比与报告生成。
丰富的评测集社区：提供如SGI-Bench（科学场景）、MMBench（多模态）、Flames（价值对齐）、VLSBench（视觉安全）等多个权威、创新的基准测试资源，支持社区共建。
垂类领域评测：与顶尖院校和科技企业合作，针对金融、医疗、教育等关键行业发布权威评测数据集与榜单，推动行业大模型的标准化评测。

优势

全面性与权威性：评测体系覆盖从底层硬件、基础模型到上层应用的全栈能力，并由上海人工智能实验室牵头，联合众多顶尖企业与学术机构共同构建，保证了评测的广度与公信力。
开源与开放：核心工具、部分评测集及方法论完全开源，降低了评测门槛，促进了社区协作与技术透明，有利于建立开放的评测生态。
高效与自动化：通过模块化设计的工具链和自动化评判模型，大幅提升了大规模、多模型并行评测的效率。
行业广泛认可：获得了包括阿里巴巴、腾讯、字节跳动、百度、华为、微软等头部科技企业，以及清华大学、北京大学、上海交通大学等顶尖高校的采用与合作，体现了其作为行业基准的广泛影响力。
聚焦前沿与实用性：不仅评测通用能力，还深入科学智能、具身智能、安全可信等前沿领域，并拓展金融、医疗等垂直行业应用，紧密贴合技术发展趋势与实际落地需求。

应用场景

模型研发与迭代：AI公司与研究机构可使用其工具和榜单，客观评估自研模型在不同维度的性能，指导模型优化与技术方向。
模型选型与采购：企业或个人用户在选用大模型时，可参考其全面、中立的榜单排名和细分能力报告，做出更明智的决策。
学术研究：科研人员可利用其开源评测集和框架，进行可复现的对比实验，或基于现有基准开展新的评测维度研究。
行业标准制定：在金融、医疗、教育等特定领域，其发布的垂类评测数据集和结果可为行业建立模型准入与能力评估的参考标准。
AI计算系统评估：云服务商、硬件厂商可通过其AI计算系统评测体系，评估智算中心、AI芯片与服务器的算力、通信及软硬件适配能力。
安全与合规审计：政府机构或企业可使用其安全可信评测，对部署的AI系统进行意识形态、商业风险、越狱攻击防范等方面的能力评估。

讯飞智作

讯飞智作是科大讯飞旗下的一站式AI配音与数字人视频生成平台，提供业界领先的超拟人TTS技术和秒级视频生成服务，广泛应用于教育培训、企业宣传、新闻媒体、自媒体短视频等多种内容创作场景。

通义灵码

通义灵码是由阿里云提供的智能编码助手，基于通义大模型，为开发者提供代码智能生成、研发智能问答、任务自主执行等核心能力，旨在提升研发效率与质量，引领AI原生研发新范式。

夸克PPT

夸克PPT是一款AI驱动的在线演示文稿制作工具，用户可通过输入主题或上传多种格式的文档（如Word、PDF、思维导图等），快速智能生成内容大纲并匹配海量精美模板，极大简化PPT制作流程。

LocalBanana

LocalBanana 是一款免费的 AI 提示词助手与图库平台，旨在帮助用户，特别是初学者，无需学习复杂的提示词工程即可生成高质量 AI 图像。它通过提供海量现成提示词、集成富士胶片模拟风格、支持自然语言输入和一键复制，极大简化了使用 Gemini 等模型进行 AI 艺术创作的流程。