中国财经新闻网

您现在的位置是:首页 > 财经科技 > 正文

财经科技

喜马拉雅首席科学家卢恒和出席RTE2023实时互联网大会

财经网 2023-10-27财经科技
喜马拉雅出席RTE互联网大会,展望AIGC助推音频行业未来创作……

RTE2023会议云集了音视频、互联网技术、在线教育等多个领域的专家和技术人才。 举办20余场论坛及活动,围绕音频AI算法、前沿音频技术应用等热点话题进行深入讨论。

喜马拉雅首席科学家卢恒对AIGC技术的发展充满信心。 他认为,这项技术标志着音频行业正在进入内容创作的新时代。 但他强调,AIGC并不是要完全取代人类创作者,而是成为创作者和企业的得力助手。 卢恒详细介绍了喜马拉雅珠穆朗玛峰实验室在AIGC领域的多维度应用,包括多角色新颖音频AIGC技术以及多模态情感识别和情感内容生成。

陆恒介绍,喜马拉雅AIGC技术在音调转换、有声读物锚定等领域取得了显着进展,展现出巨大潜力。 陆恒指出,以音频创作技术中的“多人物小说音频AIGC技术”为例,该技术可以根据创作者提供的主题,自动识别人物、分配音色、进行多种情感风格的语音合成。 。 情感转化,最后自动添加适当的后期效果等。该应用通过AIGC技术进行内容创作,不仅显着提高创作效率,而且拓宽了创作的方向和内容,大幅降低了音频创作的门槛,也扩大了内容创作者和用户群体的规模。

近期,喜马拉雅与西北工业大学联合开发的语音生成大模型技术,已经能够结合预训练的大模型和大语言模型,分别提取离散语音标记和连续语音向量。 该技术可以实现风格和音色的独立控制和传递,还可以实现5秒音色定制,该框架还可以应用于VC、S2ST等不同场景。

52

在情绪表达方面,卢恒领导的珠峰实验室参考心理学中情绪的定义和分类进行了大量研究,成功建立了“喜、怒、哀、惧、惊、厌恶”等9种情绪分类。 、报警、表扬、无”。 更准确地捕捉文本中复杂的情感。 此外,在多模态情感识别和情感内容生成领域,喜马拉雅成功研发了新一代自动化AudioPS技术,通过对情感、节奏、风格的美化,将音频作品的品质提升至优秀主播的水平。的语音信号。 使音频内容更贴近当前情况。

在教育领域,西博教育副总经理蒋敏分享了借助AI技术打造教育新模式的经验。 她强调,西博教育致力于为音频领域人才提供全链条系统培训和就业指导服务。 蒋敏介绍了西博教育的AI练习室、AI人物语音测试等多种AI学习工具,提高了学生训练和自我评价的效率。

556

陆恒和蒋敏一致认为AIGC技术将持续影响音频行业和在线教育的未来发展。 他们表示,喜马拉雅将持续探索AIGC技术的应用,提供更多优质、多元、智能、便捷的产品和服务,满足不断升级的用户需求,助力音频行业和在线教育行业不断前进,并帮助更多的人实现美好生活。

此外,西博教育还成立了专门的研究团队。 早在2018年,就推出一站式学习教育管理系统,提前关注5G、AIGC等信息技术驱动的智慧教育新应用、新职业。

为此,西博教育推出了多款AI教学与评测产品,并构建了AI实践场景,让学生通过系统学习、科学有效地掌握有声读物制作运营所需的工作室、后期、制作等。训练。 拥有导演、运营等综合能力,你可以利用这些能力实现兼职,甚至专攻这个行业,成为一名全职的音频主播。

557

除了有声读物主播,西博教育还为学生提供多元化的赋能培训机会,例如音频编辑后期培训、娱乐主播培训等。 西博教育通过打造自己的MCN来发现和扶持有潜力的娱乐主播人才,帮助更多人实现多元化的职业发展和选择。

蒋敏还表示,AIGC对教育行业的“渗透”是不可逆转的,是大势所趋。 她鼓励积极拥抱这一趋势,利用AIGC造福学生和用户,创造机会。

作为AIGC技术的受益者和领导者,喜马拉雅在用户需求和体验方面不断延伸和探索该技术的价值和作用。 在AIGC技术的引领下,我们可以期待音频领域的无限可能,以及音频教育方面的更多创新,造福音频爱好者和创作者。