高盛和Meta的人跑去非洲做AI,3个月融了300万美元
全球巨头看不上的市场,两个人用硬盘邮寄的方式做成了,
前高盛投行的人、前Meta的工程师, 这两位辞职后没进入创业热门领域,反而去了一个大部分AI公司都不会注意的市场。
Mariama Diallo和Ayooluwa Odemuyiwa去年创办了AethexAI,专门针对非洲和中东的企业开展语音AI业务,上个月,这家公司拿到了300万美元的种子轮融资, 由4DX Ventures带头进行投资,Anthropic的AI研究员也参与了这一轮融资。
为什么选非洲,是因为全球AI巨头在这里完全不适用

ElevenLabs、Deepgram、Sierra这些语音AI公司,它们的产品是针对欧美市场来设计的,高端GPU基础设施、稳定的网络环境、标准化的英语发音,在非洲这些前提条件都不存在,
当地企业试过这些工具,演示的时候效果还行,但是一到真实通话场景就出问题崩溃了,方言听不懂,网络延迟还高,线路也不稳定,用户说一半豪萨语一半英语的时候,系统直接就卡住了。
两位创始人在非洲和中东进行了几个月的市场调研,发现这个问题还挺普遍的,客户的反馈差不多都是一样的, 现有的工具在他们所处的环境里根本没法用。
而他们的解决办法就是自己从头构建一套技术栈
AethexAI所研发的一个语音模型系列叫Kora,它的参数量被压缩到3亿到17亿之间,和主流大模型动不动就几百亿甚至上千亿的参数相比,Kora仅仅是它们的一部分,由于参数少就意味着计算量低,所以在非洲那种网络带宽有限而且延迟还高的环境中,小模型反而运行得更稳定,他们把端到端延迟控制在500毫秒以内, 在当地的基础设施条件下,这个数字是比较难得的。
更有意思的是他们获取训练数据的办法

语音模型得依靠大量音频数据来训练,特别是带有方言、带有口音、带有语码切换的对话录音,非洲有超2000种语言, 很多方言在互联网上基本上找不到数据,Diallo和Odemuyiwa用了个挺土的办法,他们给非洲的广播电台寄送硬盘,让对方把存档的节目音频复制进去后再寄回来。
与此同时,他们和当地呼叫中心开展合作, 获取到经过脱敏处理过后的通话录音,还搭建了一个大学生贡献者网络,让本地人帮忙进行数据标注和校对。
这套做法特别难被大公司复制
大厂习惯了规模化采购数据、批量处理标注,不会派人去和非洲广播电台一家家商量合作, 但Diallo和Odemuyiwa愿意去做这些又脏又累的事情,这样的结果就是他们积累了一批竞争对手压根弄不到的训练素材。
目前,AethexAI每天处理超出1.5万次生产环境的电话, 但团队就只有10个人,打算在年末扩充到20人。

这个案例给AI创业者带来一个启发
很多人觉得做AI就得堆砌算力、堆砌参数、堆砌数据, 实际上不是这么回事,非洲和中东加起来有15亿人口,语音通话是当地商业运作的主要方式,可是全球头部AI公司在这里没什么优势,大模型的技术架构本身就不适合低带宽、高延迟的环境,把模型弄小一点、把延迟降下去,反倒能够解决实际问题。
数据获取也是同样的道理
当高质量训练数据越来越稀少的时候,谁能用非标准化的办法获取到独家数据,谁就有优势,Diallo愿意给广播电台寄硬盘,这事听着挺原始的, 但它确实解决了问题。
AI创业不是非要去和OpenAI、Google争抢同一块蛋糕,
去找到巨头们不重视或者做不好的市场, 然后用适合当地情况的技术方案进入其中,或许是另一条可行得通的途径。
原创作者:contentany+熊叔的茅草屋

浙公网安备 33010602011771号