阿里云发布千亿参数大模型通义千问2.0加速追赶GPT-4
在过去的六个月里,统一钱文2.0在性能上取得了巨大的飞跃。 与4月份发布的1.0版本相比,统一钱文2.0在复杂命令理解、文学创作、普通数学、知识记忆、抗幻觉等方面都有所提升。 有显着改善。 目前,统一钱文综合性能已超过GPT-3.5,加速追赶GPT-4。
图:同易钱文2.0综合性能超过GPT-3.5,正在加速赶超GPT-4
在MMLU、C-Eval、GSM8K、HumanEval、MATH等10个主流基准评估集上,统一钱文2.0的整体成绩超越了Meta的Llama-2-70B,与OpenAI的Chat-3.5相比,九胜一负。 相比GPT-4,四胜六负,与GPT-4的差距进一步缩小。
理解中文和英文的能力是大型语言模型的基本功。 在英语任务方面,统一千问2.0在MMLU基准上得分为82.5,仅次于GPT-4。 通过大幅增加参数数量,统一钱文2.0可以更好地理解和处理复杂的语言结构和概念; 中文任务方面,统一问答2.0在C-Eval基准测试中取得最高分,优势明显。 这是因为模型在训练过程中学习了更多的中文语料,进一步增强了其中文理解和表达能力。
在数学推理、代码理解等领域,统一钱文2.0取得了重大进展。 在推理基准测试GSM8K中,同易钱文排名第二,展示了强大的计算和逻辑推理能力; 在HumanEval测试中,同易前文的得分紧随GPT-4和GPT-3.5,主要衡量大规模模型理解和执行代码片段的能力,是大型模型应用于编程辅助等场景的基础和自动代码修复。
图:统一钱文2.0发布
统一钱文更成熟,更容易使用。 统一钱文2.0在指令合规、工具使用、精细化创作等方面进行了技术优化,使其能够更好地融入下游应用场景。 统易大模型官网推出了多模态和插件功能,支持图像输入、文档解析等分段任务。
同时推出了以同艺大模特培训为基础的八大行业模特群。 分别是:统一灵马——智能编码助手、统一智文——AI阅读助手、统一听屋——工作学习AI助手、统一星尘——个性化人物创作平台、统一米点金——智能投研助手、统一小米——智能客服、统一人信- 个人健康助理,统一法瑞 - AI法律顾问。 8大行业模型面向最热门的垂直场景,利用领域数据进行专门训练。 用户可以在官网上直接体验模型功能,开发者可以通过网页嵌入、API/SDK调用等方式将模型能力集成到自己的大型模型应用和服务中。
图:同益大模型家族全面升级,推出8大行业模型组
截至10月,阿里云已与60余家领先行业合作伙伴开展深度合作,推动统一钱文在办公、文旅、电力、政务、医保、交通、制造、金融、软件开发等领域。
周敬仁透露,阿里云计划近期开源统一钱文72B版本。 此前,阿里云已先后开源7B、14B版本模型,累计模型下载量超过100万次。 阿里云将继续支持千行百业的开发者基于统一钱文开源模式进行模型和应用的创新。
图:统一钱文72B将开源
(超过)