中国财经新闻网

您现在的位置是:首页 > 财经科技 > 正文

财经科技

浪潮信息发布“源2.0”基础大模型,全面开源

模型   浪潮   数据   并行   开源  
财经网 2023-12-03财经科技
浪潮信息发布源2.0基础大模型,千亿参数全面开源加速生成式AI产业发展……

翻译”:[{“text”:”\n

11月27日,浪潮信息发布了“Source 2.0”基础模型,并宣布完全开源。source 2.0 基础模型包括 1026 亿、518 亿和 21 亿三个参数尺度的模型,在编程、推理和逻辑方面表现出了先进的能力。\n

\\n目前,大模型技术正在推动生成式人工智能产业的快速发展,基础大模型的关键能力\n

是行业内大模型性能和应用落地能力的核心支撑,但基础大模型的开发在算法、数据、算力等方面也面临诸多挑战。source 2.0 基础模型提出了新的改进方法并改进了其功能。\n

\\n\n

在算法方面,Source 2.0提出并采用了一种新型的注意力算法结构:基于局部滤波的注意力(Localized Filtering-based Attention,LFA)。通过学习相邻词之间的相关性,进而计算全局关联,LFA可以更好地学习自然语言的局部和全局语言特征,更准确、更人性化地理解自然语言的关联语义,提高模型的自然语言表达能力,进而提高模型的准确率。\n

\\n\n

966\n

\\n在数据方面,\n

Source 2.0 利用中英文书籍、百科全书、论文等优质中英文资料,降低互联网语料内容占比,结合高效的数据清洗流程,为大模型训练提供高质量的专业数据集和逻辑推理数据集。为了获取中文数学数据,浪潮信息从2018年到现在,已经清理了约12PB的互联网数据,但只获得了10GB左右的数学数据,投入巨大,收益小。为了更高效地获取相对稀缺的高质量中文数学和代码数据集,Source 2.0采用了基于大模型的数据生产和过滤方法,既保证了数据的多样性,又提高了每个类别的数据质量,获得了一批高质量的数学和代码预训练数据。\n

\\n\n浪潮

信息高级副总裁、AI与HPC产品线总经理刘军认为,在数据方面,浪潮采用的数据源、数据增强和数据质量等合成方法,减少了互联网的公共数据集,增加了百科、书刊等相对高质量的数据,并引入了代码数据和数学数据, 从而增强模型的数学和逻辑能力。\n

\\n\n

967\n

\\n\n

在算力方面,Source 2.0 采用非均匀流并行的方式,综合采用“流水线并行+优化器参数并行+数据并行”的策略,使模型在流水线并行各阶段的内存占用分布更加均衡,避免了内存瓶颈导致的训练效率降低的问题, 大大降低了大模型对芯片间P2P带宽的需求,为硬件差异较大的训练环境提供了一种高性能的训练方法。\n

\\n\n

刘军认为,在生成式AI的驱动下,人工智能算力的技术和应用趋势发生了巨大变化。模式在计算范式变化、产业动能变化和算力服务变化三个方面发生了巨大变化。\n

\\n\n

968\n

\\n\nSource 2.0

作为千亿级基础模型,在行业公开评测中经过了代码生成、数学问题解决、事实答辩等方面的测试,测试结果显示,Source 2.0在多项模型评测中展现出了更高级的能力表现。\n

\\n\n

969\n

\\n\n

Source 2.0 采用全面的开源策略,全系列模型参数和代码可免费下载使用。\n

\\n\n

代码开源链接\n

\\n\n

论文链接\n“,”to“:”en“,”sentLen“:{”srcSentLen“:[36,58,5,94,33,5,84,102,5,14,89,65,97,5,132,5,14,14,147,5,43,39,5,14,88,5,14,35,5,14,11]

,”transSentLen“:[122,209,5,398,91,5,14,146,370,5,14,358,222,356,5,484,5,14,14,601,5,160,182,5,14,299,5,14,144,5,28,24]}}]}]\n","to":"zh-Hans","sentLen":{"srcSentLen":[31,123,209,174,229,91,6,146,370,6,10,23,340,222,356,6,409,75,6,10,6,404,199,6,160,182,6,10,6,299,6,10,6,144,6,25,6,21,242],"transSentLen":[21,43,68,42,55,33,5,91,95,6,10,11,88,69,102,6,106,16,6,10,6,105,48,5,42,36,6,10,6,96,6,10,6,43,6,10,6,8,250]}}]}]