近日,教育科技公司精准学对外公布了其自研的语音端到端垂直教育大模型“心流知镜-s(V02)”。可直接实现语音输入-语音输出的交互,将传统ASR+LLM+TTS带来的交互延迟降低至毫秒级。同时也更好地改善了纯文本模型损失的情感节奏等丰富信息,打造更接近真人老师级别的语音交互体验。
与此同时,公司在8月已面向全球开发者社区开放了基础模型供给学术和非商用合作伙伴。
值得注意的是,这是国内首个,也是截止目前为止全球范围内首个开源的语音端到端垂直教育大模型。
语音端到端大模型带来教育变革
当前,大模型正不断向多模态应用和垂直场景内掘潜力。基于LLM的生成式语音大模型关键在于突破语料和交互数据的障碍,打通交互壁垒。而教学教辅类赛道是重点适配场景之一。
基于教育“千人千面”的育才特征,精准学在过去六年中积累了大量个性化交互语料数据,构建在辅学场景之上的大模型能力相比于通用大模型,对于学生的语气、情绪等信息的收集和解析更为精准。此次精准学所推出的“心流知镜-s(V02)”,其端到端语音结构,将传统ASR+LLM+TTS带来的交互延迟降低至毫秒级,接近还原“真人老师”级别的自然流畅的教学体验。
同时,语音端到端大模型带来的交互模式贴合人际自然交谈,也会增强“虚拟AI老师”的个人魅力和亲和感,给到学龄儿童积极的心理感受,助力辅学教育的目标达成。
多模态开放赋能,教育垂直大模型全球掌旗
当前,通用大模型加速落地各行各业,精准学所专注的教育垂直大模型,依托垂直海量交互数据,将大模型技术优势与细分场景打通,开源语音端到端大模型落地行业应用,让中国AI大模型教育引领世界。
据了解,发布语音大模型之余,精准学还将向行业合作伙伴开放“心流知镜-s(V02)”的基础模型,以供教育、学术领域的非商用技术研究和应用。“心流知镜-s(V02)” 将成为全球范围内首个面向技术社区开发的语音端到端大模型。
从纯文本到语音的“多模态”交互,从封闭到开源赋能,精准学开源计划将对垂直大模型领域的AI Native应用落地助益深远,同时也将在全球视野里塑造教育大模型中国造的深深烙印。
9月,精准学将在阿里云栖大会上展示其最新应用。届时,用户可以在AI辅学机上实际体验这一技术突破,从产品终端感受更为自然流畅的教辅服务。