这东西现在可真是无处不在了,你想啊,有声书、导航语音、智能客服、甚至很多短视频为了省事儿,直接就用它配音。便利是真便利,这一点谁也否认不了。比如我吧,有时候眼睛看屏幕看累了,或者躺在床上犯懒不想拿手机,就能让软件把公众号文章或者网上的长篇报道给我念出来。耳朵听着,手还能干点别的,或者就纯粹放松,效率一下就上来了。特别是对于那些有视力障碍的朋友,这玩意儿简直是福音,打开了另一个获取信息的窗口,这个价值是无法估量的,真的,光凭这一点,它就已经意义非凡。
但这玩意儿,怎么说呢,用得越多,越觉得它有那么点… 别扭。尤其是那些免费的或者比较基础的版本,你一听就能听出来,这绝对不是个人类在说话。它会把句子读得特别直,没有抑扬顿挫,该停顿的地方不停,不该停顿的地方突然卡一下,就像一个外国人在说不熟悉的中文,每个字都认识,但连起来就少了点那股韵味。更别提什么情感表达了,高兴、生气、惊讶、悲伤… 在它那儿,通通是一个调调,波澜不惊,像个没有感情的复读机。念到“哈哈大笑”,它还是那个冷冰冰的腔调;念到“心碎欲绝”,它依然是那么平静,听着贼膈应。
当然啦,技术也是一直在进步的。你现在能找到一些高质量的语音合成软件,特别是那些付费的,声音听起来就自然多了,甚至能模仿出一些比较复杂的语气变化,比如疑问句的升调,或者陈述句的降调。有些甚至还能选择不同的“主播”声音,男声、女声、不同的年龄段,听上去没那么强的塑料感了。但!请注意这个“但”字,它再怎么模仿,离真正的人类声音还是有距离的。那种字里行间的呼吸感,因为理解内容而产生的细微情绪波动,读到精彩处的小停顿和重音,这些东西,机器现在还捕捉不到,或者说,捕捉得非常生硬,像是根据一堆算法硬套上去的模板。
我以前试着用一些软件给我的短视频配音,就是想图个省事儿。选了个听起来不错的“女声”,感觉挺温柔的。结果念到一段比较激昂的内容,这声音还是温柔得一塌糊涂,完全不对味儿!最后只能放弃,老老实实自己或者找朋友来录。那感觉,就像你精心准备了一道菜,结果最重要的调料却找了个替代品,看着差不多,吃起来就是差了那股灵魂。
而且不同的文字内容对它来说也是个挑战。念小说?人物对话怎么区分?旁白和心理活动怎么处理?念诗歌?那玩意儿更讲究节奏和意境,机器怎么懂?念技术文档或者专业论文?里面一堆缩写、专业术语,它能念对几个?发音错误是常有的事儿,有时候甚至会念出一些让人哭笑不得的音来,你听着就得费劲儿去猜它到底想表达啥。
但反过来想想,它解决了很多问题啊。比如效率问题。几万字的文章,人工录音得花多少时间?机器可能几分钟就搞定了。成本问题也是,请专业的配音员那费用可不低,用软件便宜太多了。还有无障碍,刚才说了,这块儿的贡献是巨大的。所以它更像一个工具,一个非常有用的工具,用来辅助、来提高效率、来弥补一些人类做不到或做起来很困难的地方。它不是来取代人类声音的,至少目前看来是这样,而且我个人也觉得,完全取代可能也不是什么好事儿。
那些声音,有时候听着听着,我会突然走神,去想背后那些算法,那些工程师是怎么一点点“教”它说话的。从最初那种像老式电报机的“嘟嘟嘟”到现在的流利(虽然有点平),这中间肯定经历了无数的努力和迭代。它进步的速度是惊人的,未来可能真的会做到更像人,甚至能模仿特定人的声音(想想就有点细思恐极)。
不过话说回来,那种自带感情、充满生命力的声音,那种真正能触动你心弦的声音,目前还是只有人类才能发出来。一个好的播音员、一个演员的台词、一个亲人的低语,那种声音里包含了太多机器无法理解的东西:生活体验、情感记忆、人与人之间的连接。文字转语音的软件能把信息传递给你,但温度和共鸣,它还给不了。
所以,对待文字转语音这东西,我的态度挺复杂的。一方面,惊叹于技术的强大,感谢它带来的便利和可能性;另一方面,又忍不住对它“不完美”的地方感到有点失望,或者说,是对人类声音那种独一无二的魅力有了更深的认识。它是个好帮手,但别指望它能给你讲一个真正有灵魂的故事。听听新闻、听听文章挺好,但如果想听得入神、听得动情,还是得是个人。你觉得呢?
发表回复