Meta推出一开源AI模型,支持1100种语言的“文本转语音”服务

发布时间:2023-05-24 22:57:08 【来源:东方财富网】

  5月24日讯:Meta公司周一(5月22日)推出了一个开源AI语言模型——大规模多语言语音(Massively Multilingual Speech, MMS)模型。

  该模型可以识别超过4000种口语,是以往任何已知技术的40倍;该模型还将文本语音互转技术从100多种语言扩展到1100多种。

image

  Meta选择将MMS模型开源,以帮助保护语言多样性,并鼓励研究人员在其基础上进行进一步开发。

  Meta公司在新闻稿中写道,“今天,我们公开分享我们的模型和代码,以便研究界的其他人可以在我们的工作基础上继续发展。通过这项工作,我们希望为保护全世界令人惊叹的语言多样性做出一点贡献。”

  数据采集

  语音识别和文本到语音模型通常需要对模型进行数千小时的音频训练,并附带语音转录标签。这些标签对机器学习至关重要,它使算法能够更准确地分类和理解数据。

  如此一来,收集数千种语言的音频数据是Meta面临的第一个挑战,而现有最大的语音数据集最多涵盖100种语言。

  对于那些在工业化国家没有被广泛使用的语言,其中的许多语言在未来几十年甚至存在消失的风险。

  Meta使用了一种非常规的方法来收集音频数据:利用翻译完成的宗教文本的录音。

  该公司表示,“为了克服这个问题,我们转向了宗教文本,如圣经,这些文本已被翻译成多种不同的语言,这些译本也已被用于广泛的语言研究中。”

  这些宗教文本的各语言译本也有专业人士进行阅读并录音。作为MMS项目的一部分,Meta创建了一个超过1100种语言的“《新约》阅读数据集”,平均每种语言有32小时的数据。

  此外,Meta还指出,考虑到其他宗教类读物的未标记录音,我们将可提供的语言数量增加到4000多种。

  挽救语言多样性

  这种收集数据的方法乍一听上去会让人产生一种想法:基于这些译本录音的AI模型是否会严重偏向基督教世界观?

  不过Meta指出,情况并非如此,“虽然录音的内容是宗教的,但我们的分析表明,这并没有使模型偏向于产生宗教语言。”

  “这是因为我们使用了连接主义时间分类(CTC)方法,这与大型语言模型(LLM)或语音识别的序列到序列模型相比,这种方法受到的约束要大得多。”

  目前世界上许多语言都面临着消失的危险,而有限的语音识别和语音生成技术只会加速这一趋势。

  Meta在新闻稿中提出,希望扭转世界语言逐渐减少的趋势,希望每个人都能用自己的第一语言来获取信息或使用技术。

王坚二进宫,张勇难救火
快递业是国民经济的“晴雨表”,一文读懂快递业务量今年提前突破400亿件背后新信号
夯实国家粮食安全根基,加快推进农业科技进步
为品牌做好四个周期建设,淘天集团品牌业务发展中心亮相
极兔11.83亿全资收购丰网速运,继收购百世国内业务
 重视通用人工智能发展,加快发展数字经济
又一个“类自营”项目浮现,TikTok电商变阵
交个朋友要“借壳”上市,被世纪睿科全资收购
[ 最新资讯 ]

Meta推出一开源AI模型,支持1100种语言的“文本转语音”服务

  5月24日讯:Meta公司周一(5月22日)推出了一个开源AI语言模型——大规模多语言语音(Massively Multilingual Speech, MMS)模型。 ...

碳酸锂回冲至30万元/吨,观望情绪仍重

  5月24日讯:半年来一直跌跌不休的碳酸锂价格在4月底探至18万元 吨后,5月突然出现一波小反转趋势。5月23日,上海有色网显示的国内电池 ...

一周内三品牌“官降”最大降幅超10万元,“后价格战”时代依旧内卷

  5月24日讯:曾经无比疯狂的价格战已过去多时,但当下的国内车市仍余波未平,关于价格的内卷仍在继续。  5月23日,哪吒汽车宣布推出5 ...

郑州出台元宇宙产业方案,打造“中国元谷”

  5月24日讯:郑州市发改委发布《郑州市元宇宙产业发展实施方案(2023-2025年)(征求意见稿)》(简称《征求意见稿》)。《征求意见稿》 ...

618直播赛道火力全开 ,罗永浩入驻京东直播

  5月24日讯:618前夕,罗永浩将入驻京东直播带货的消息满天飞。去年双十一前,罗永浩在淘宝开直播,其背后的交个朋友直播版图再次扩容。 ...

联想集团一度跌近10%,净利下滑72%

  5月24日讯:港股低开低走,恒生指数收跌1 62%报19115 93点,恒生科技指数跌1 99%报3775 93点,恒生国企指数跌1 9%报6478 08点。大市 ...