国产算力大模型长窗口技术突破可升级至192K
中新网北京11月19日电 (记者 张素)上下文窗口长度,对于模型理解和生成与特定上下文相关文本极为重要,是大模型核心技术之一。记者近日采访获悉,鹏城实验室等相关机构开展合作……
一般来说,较长的上下文窗口可以提供更丰富的语义信息,使模型生成的内容更加准确和流畅。 “鹏城-百川大脑33B”的128K长上下文窗口是在“鹏城云大脑”国产计算平台上训练的,未来可以升级到192K。
据了解,为了提高上下文窗口长度和模型的整体性能,百川智能和鹏城实验室对模型进行了全程优化。 在数据集构建方面,研发人员利用复杂的数据结构,实现段落、句子粒度的自动数据过滤、选择和匹配,进一步提高数据质量。
在全生命周期模型工具集方面,包括北京大学王一舟、杨耀东团队在内的多方协作,创新提出了带安全约束的RLHF对齐技术,有效提升了模型内容生成的质量和安全性。
鹏程实验室相关负责人表示,未来还将通过开源众智合作模式,与企业、大学、科研院所广泛合作,实现资源共享,为千行百业插上人工智能的“翅膀” 。 百川智能相关负责人也表示,希望通过开源、与合作伙伴共创,助力中国大模型创新,推动本土大模型生态日益繁荣。
有评论认为,上述在大模型训练与应用领域的合作研发实践对于国内大规模算力模型的发展具有积极的示范作用。 希望更多科研机构和企业制造商立足各自优势,形成合力,更好满足日益增长的国内需求。 满足智能化转型需求,助力中国人工智能产业可持续发展。 (超过)