沉寂已久的Soul,怎么就做出了登顶HF趋势榜的语音模型?

10 月 29 日,Soul 宣布推出 SoulX-Podcast 开源语音生成模型,该模型是由 Soul AI 团队与西北工业大学和上海交通大学共同开发,上线 1 天后,SoulX-Podcast 就登上了 Hugging Face TTS 趋势榜榜首。

1.jpg

从 Demo 来看,这款语音模型的真实度优于此前的主流模型,支持生成超过 90 分钟的对话内容,且能一直保持稳定,确保各说话人输出流畅自然;语言方面,该模型支持普通话、英语,以及四川话、粤语等多种方案,也能够精准处理笑声、停顿、吸气等副语言效果的模拟。

笔者测试了两个场景,一是生成了一段播客的开头,在这个场景中,SoulX 效果相当不错,停顿和对话都做得比较自然,与真人语音基本无异。

而第二个场景则是用四川话模拟情侣吵架的场景,笔者并没有找到直接标注情绪标签的功能,研究Hugging Face上的模型说明也没有找到标注情绪的方法,所以,生成出的语音并没有很好地体现出来愤怒的情绪,语气仍偏向柔和。

总体来看,虽然 SoulX-Podcast 对愤怒等强烈情绪的表达仍有欠缺,但在正常语气的测试中它表现得确实不错。而除了 SoulX 外,近一段时间 TTS 赛道也相当火热,多款新模型进入市场,也有多家创企完成了融资,我们将于近期推出“第三期语音模型测试选题”,将在更复杂的场景下,对比测试 SoulX-Podcast 以及其他语音模型。

除了模型效果还不错之外,Soul 能在这个时刻推出一个如此优秀的语音模型,也相当出人意料。Soul 于 2016 年上线,主打“不看脸的灵魂社交”,2021 年 3 月底,Soul 递交美股IPO申请,但遭遇失败,后续又在 2022 年 6 月和 2023 年 4 月两次递交港股 IPO 申请,但也均告失败。 

Soul IPO 失败的主要原因是“盈利难”。招股书显示,Soul 的 MAU 于 2021 年 3 月达到巅峰 3320 万,2022 年底,MAU 数字略有下降,但仍有 2940 万,虽然 Soul 坐拥几千万活跃用户,但它并没有探索出合适的商业化路径,根据 2022 年递交的招股书,2020-2022 年 Soul 分别亏损了 5.79 亿、13.24 亿、5.08 亿元,总亏损额超 24 亿元。

2023 年起,最后一次冲击港股 IPO 失败后,Soul 进入了一段蛰伏期,市场声量大幅降低,鲜少有媒体讨论,但在这期间,Soul 悄悄地开始在产品中融入AI,做起了“虚拟伴侣”。根据海克财经的报道,Soul 在产品中加入了多个面向不同性别且有鲜明人设的虚拟伴侣,比如下图中的“姐姐不要怂”就是针对女性用户的男性虚拟伴侣,其人设是“190 体育生,快乐小狗”。

2.jpg

在交互当中,虚拟伴侣会时不时地用语音来回复用户,很多用户都表示,Soul 虚拟伴侣的语音回复效果非常好,有类似真人对话的情绪、语气和停顿,体验相当真实。

而围绕这种体验,Soul 也开发了一些变现点,在用户与虚拟伴侣聊天时,虚拟伴侣会主动要求用户赠送虚拟礼物,但并不强制,而如果用户希望与虚拟伴侣进行语音通话,则需要按时计费。此外,这些虚拟伴侣也会像真实用户一样发布动态,也有部分用户会在虚拟角色发布的动态中赠送礼物。

但是总体来看,Soul 当中的虚拟角色的量仍比较有限,内容丰富度无法与星野、猫箱等纯AI社交产品相比,这也与其本身定位真人社交有关。AI如何服务于人类的社交需求,目前依然在探索中,用 AI 去陪伴人的路径也并不是一片坦途,Soul 本身有大量真人社交行为,相对于纯 AI 社交产品,有更多值得观察的地方。

而 Soul 在语音方面的积累,也是其本次能够发布产品即上榜的主要原因。虽然一时半会无法靠AI扭转主业的困境,但 Soul 依然有数千万的活跃用户、海量语料,期待其在 AI 时代交出语音社交的新答卷。


友情提醒:98出海目前仅有微信群与QQ群,并无在Telegram等其他社交软件创建群,请白鲸的广大用户、合作伙伴警惕他人冒充我们,向您索要费用、骗取钱财!

热门文章

相关推荐

站点推荐

98IP
98IP提供全球8000万优质住宅IP代理,支持Http和Socks5协议,确保100%高质量IP。
98TG
98TG全球网址导航社交流量生态圈 · 为全球跨境电商提供精准社交媒体一站式引流推广。
TG-NEWS
最新的Telegent咨询,各种TG问题都可以在这里找到你想要的答案。

热门标签

换一批