中国财经新闻网

您现在的位置是:首页 > 财经科技 > 正文

财经科技

大模型生态进入下半场,AI企业纷纷奔赴多模态

财经网 2023-10-27财经科技
AI转场多模态 百融云创率先推出全新智能代码生成工具……

首先,OpenAI近期发布了第三代Vincent图大模型DALL·E 3,可在ChatGPT上加载使用; 随后 Meta 推出了多模态编码器系列 AnyMAL。

一系列重磅产品的推出,引发了多模态的讨论骤增。 将目光转回到中国,争夺大模态的互联网巨头和AI科技公司也在加紧开发更多多模态应用,进一步释放AIGC生产力。

大模型生态进入下半场

业内流传着一句名言:“所有行业都值得人工智能重做”。 在大模型颠覆性重构各行业的道路上,面对不同场景的交互需求,除了传统的文本之外,云服务厂商将其模态应用转变为图像、语音、视频、代码等形式。

但这个过程绝非易事。 看似简单的交互背后,其实是多种AI能力的综合体现。 它必须能够识别用户需求,理解音视频内容,并将其转换成用户可接受的形式并提供有效的反馈。

主要挑战之一是每种模态都有特定的特征提取和分析方法,这需要创新的算法和技术来处理不同模态之间的数据。 以视频的形式来说,市场上一直缺乏充分理解视频场景的好方法。 因此,很多产品只能按照一定的固定逻辑生成,无法真正理解视频元素的含义。

在近期微软与OpenAI关于ChatGPT5的交流会上提到,OpenAI要攻克的一大目标是通过融合和创新,让大型模型能够充分理解视频内容以及各个角色主体之间的关系。算法的底层逻辑。 这使得能够根据特定上下文生成深度视频内容。

从音频形式来看,与视频侧重于把握多维信息不同,音频交互更注重对情感和意图的充分把握。 这对语音识别技术提出了更高的要求,即充分捕捉情绪、音色甚至方言,准确捕捉关键信息。

在音文交互领域,百融云创走在国内前列。 公司自主研发的智能语音机器人ChatBOT基于Transformer架构构建算法模型。 语音识别准确率可达99%以上,实现“真人”级的交互体验。 同时,ChatBOT不仅仅是一个聊天机器人,而是一个帮助实现端到端结果交付的代理。 ChatBOT与商业组织KPI直接挂钩,可以帮助商业组织自动化资产运营和用户盘活流程。

除了算法层面,百融云创相关人士表示,多模态智能交互对模型的工程架构、响应速度、资源分配等提出了更高的要求。 以文字语音交互为例,需要依靠深厚的行业理解沉淀高质量的配对语料,才能实现流畅、精准的用户交互。

大模型能力正在加速创新

从趋势来看,随着大模态进入落地应用争夺战的下半场,为了让AI技术更多地融入千行万业,多模态领域势必会以更快的速度发展。

目前多模态的主流构建思路不是重新训练一个大模型,而是在已经训练好的大语言模型中“嵌入”图像理解、语音识别等技术,即通过引入多模态数据来攻克跨域技术难关。 例如,百融云创的大型产业模型——BR-LLM结合了NLP(自然语言处理)、智能语音等技术。

当然,也有一些科技公司尝试根据具体需求直接训练多模态基础模型。 根据微软研究团队近期在预印本平台 arXiv 上发表的文章,多模态基础模型将沿着预训练视觉模型和通用助手两条路线进行拓展。 文章还表示,训练多模态基础模型面临着几个挑战。 例如,就视觉理解模型而言,不同类型的标签标注的成本差异很大,而昂贵的图像成本可能会限制视觉数据的规模。

但无论采取何种方式,毫无疑问,大模型生态系统的下半场已经开始。 业内人士认为,随着模型能力的增强,AI的应用范围将不再局限于单一功能或单一产品,而是会扩展到更广泛的应用场景。 在此背景下,技术能否快速高效地商业化预计将成为决定未来的关键因素。

百融云创相关人士表示,为了更好地发挥BR-LLM的潜力,公司依托大模型技术基础,持续推进产品创新。 此前,为了让AI技术更深入地赋能垂直场景,百融云创新对原有机器学习平台ORCA进行了优化,并与生成式AI理念紧密结合,形成了可使用BR代码生成的新产品ORCA-GPT -LLM能力,大大降低模型产品开发和部署的周期和成本。

与此同时,随着与多模态发展相关的新研究方向——“AI for Science”(人工智能辅助研发)逐渐兴起,百融云创率先捕捉到了这一趋势。 依托BR-LLM基础,近期又推出了一款全新的智能代码生成助手——BRCoder。

据了解,BRCoder作为通用编程模型,以公司本地部署的大型代码生成模型为核心,基于海量高质量代码预训练。 它可以根据提示和当前编辑的程序文件的上下文信息自动生成代码。 并配合IDE插件提高开发效率。

“BR-Coder将极大提高程序员的开发效率,帮助商业组织提高研发质量和效率。” 百融云创相关人士表示,BR-Coder不仅可以生成研发代码,还可以用来自动生成测试用例和单元测试,解答技术问题,在保证企业数据资产安全的同时,提高首次测试效率。模型生成代码的采用率。 展望未来,BR-Coder将进一步增强与编译环境的交互,为开发者提供更全面、便捷的编程体验。