做播客，AI永远取代不了人

发布时间：2024-12-23 17:03:09 浏览量：83

梁晓健 腾讯研究院特约作者

从写作到绘图，从音乐到视频，近几年AI的触角以惊人的速度伸向了各种内容创作领域。播客行业也不例外，AI正在逐渐介入从策划到剪辑等环节，甚至试图挑战真人主播的地位。

今年9月，谷歌的NotebookLM推出了名为“Audio Overview”的功能，[1]该功能可以将用户上传的内容转换为音频对话，由两位AI主播进行讨论，其内容流畅，音质逼真，仿佛真的有两个人在对谈。类似于Midjourney、Stable Diffusion等绘画AI工具横空出世时，人们纷纷讨论画师是否会被取代。NotebookLM带来的问题也没有变化——AI播客会取代真人主播吗？AI介入播客行业

只有存在应用场景，与之匹配的AI产品才能诞生。AI和播客的结合也遵循这一规律。

在播客的起源地欧美，播客行业早已成为竞争激烈的红海。而在中文世界，播客这两年也迅速摆脱了小众的标签，正逐渐走向主流。据统计，2023年中文播客的听众人数为1.17亿，2024年预计将增至1.34亿，这意味着每100个互联网用户中将有12人收听播客。到2027年，中文播客听众可能会攀升至1.79亿。[2]伴随听众规模扩大的是不断增加的播客节目。以播客平台小宇宙为例，该平台2022 年新增了2万个播客、20万个单集，2023 年新增了3万个播客、30万个单集，平均每年新增50%。[3]节目话题从衣食住行到人生哲学，从娱乐八卦到严肃时事，可谓无所不包。2024年年初，豆瓣正式上线了播客功能，用户可以像使用豆瓣电影和豆瓣读书一样，对播客进行标记和评分，这标志着播客在中文世界的影响力进一步提升。10月底，小宇宙在上海举办了一场线下活动，原计划接待约7000名观众，结果却吸引了近两万人参与，播客在大城市中的吸引力可见一斑。[4]随着越来越多人习惯以“收听”的方式获取信息，国内社交媒体平台如微信、微博、豆瓣等，也纷纷加大对音频内容的关注与投入。据调查，除了专业的播客平台外，中文播客听众最常使用的三大内容平台分别是 Bilibili、小红书和微信公众号。[5]虽说只要有一部可以录音的手机，就可以录制播客，但制作一档质量尚可的节目也并不容易，通常需要经过策划、录制、剪辑、发布等多个环节。数据显示，2024年中文播客创作者每期节目平均净工作时长高达12.9小时，其中剪辑环节耗时约4.5小时，占比超过三分之一。[6]AI工具的出现为创作者带来了新的可能。尤其是调查显示，超过八成的中文播客创作者是以独立运营或与朋友合作为主，近七成的创作者还需身兼主播、剪辑师和运营者等多重角色。[7]根据JustPod调研，接近一半的创作者表示使用过AI工具辅助创作，另有约四成的创作者虽然尚未尝试，但表示有意愿尝试。不少创作者在调研中提到，AI工具为他们的前期策划和资料收集带来了显著的效率提升。[8]除此之外，AI也开始介入更为繁杂、耗时更长的剪辑工作。例如，AI工具Descript可以自动将音频转录为文字，自动去除常见口头禅，用户通过删除文字段落就可以直接剪辑对应的音频片段。另一款工具Auphonic则可以自动调整音量、降噪，并自动去除冗余停顿和重复词汇，以提升后期音频质量。AI也革新了播客的传播端。相较于文本或视频内容，播客在检索方面的复杂性较高。今年，小宇宙平台推出了AI检索服务“问问小宇宙”，用户提问后，该服务能够提供问题的智能化总结摘要，并展现相关播客节目的摘要与笔记，甚至能够精确到具体的时间段，直接生成收听链接。

图：在“问问小宇宙”输入北京后的反馈，可以看到北京的简介以及相关的节目。

图片来源：“问问小宇宙”网站截图AI主播横空出世如果说剪辑等AI工具如同得力助手，帮助创作者更高效地制作节目，那横空出世的AIGC（人工智能生成内容）则隐隐展现出取代创作者的潜能。只要提供一些话题，这类前沿的AI播客生成工具便能够独立完成播客节目的创作全过程。这些工具不仅能够精准提炼关键信息，还能够将原始稿件巧妙拆解并重新编排，模拟真实人物的交流场景，将这些内容转化为流畅自然的口语对话，赋予节目以生动的情感与互动感。谷歌的NotebookLM就具备这一功能。只要用户提供简单的内容素材，NotebookLM即可自动生成音频节目，其AI主播不仅吐字清晰、声音自然流畅，语调真实，语气词、停顿都相当精准，甚至比很多真人的声音表达还要优秀。除了一般的事实陈述和观点表达， AI主播还会调侃，即兴创作有趣的比喻，表现得非常像真人。例如，输入一段在北京旅游的文字后，NotebookLM即可根据这段文字生成一段双人对话音频，畅谈在北京旅游的感受，仿佛这两个声音来自真人，并且他们真的来过北京。

图片来源：NotebookLM截图

随着NotebookLM的惊艳亮相，不少科技公司紧随其后推出类似工具。例如Coze平台宣布推出了AI生成播客功能，并支持人声音色替换。可以想象，未来这类工具会越来越多，功能越发齐全。而播客市场日渐扩大，入局者越来越多，这是否会促使内容创作者利用AI以在激烈的竞争中脱颖而出？AI又能否取代真人主播？AI面临的首要挑战在于独特性，即如何创造出既差异化又个性化的内容。毕竟，AI播客生成工具依赖预设话题自动生成模拟人类对话的音频，对于不同的听众群体，它们往往依赖相同的数据库资源。在工具与数据源相同的情况下，如何打造独一无二的节目成为了亟待解决的问题。尽管某些创作者能够凭借其独特的创意，借助AI创作出别具一格的内容，但这种创新的门槛目前看来相对较低，易于被他人复制，因为其核心在于技术驱动而非个人创意。鉴于播客制作的初始门槛本就不高，目前市场上节目质量良莠不齐，因此AI播客生成工具确实有机会取代那些内容质量不高的节目。从这个角度看，AI在播客领域的影响与在其他领域颇为相似——它们往往首先冲击的是行业下端的工作，而那些处于腰部或顶端的则较少受到波及。亚里士多德曾阐述过三种说服技巧，这些技巧恰好映射出三类具有吸引力的内容元素。一是道德说服，即我们因喜爱某人而接受其观点；其次是理性诉求，强调信息须有逻辑且实用；最后是感性诉求，侧重于以情感触动人心。在播客的语境下，这三种策略分别对应着不同类型的节目，它们受AI的影响也各有差异。道德说服在播客中体现为名人效应，这些本就知名的主播，其节目自然能够吸引大批听众。理性诉求则对应着知识密集型节目，从深奥的学术理论到实用的旅行贴士，都囊括在这一类目中。感性诉求则指向那些引人入胜、激发情绪的节目，只要能够触动听众的心弦，无论是欢笑还是泪水，同情还是愤怒，都称得上成功。在这三大类别中，知识型播客的听众更为期待获取实用价值的信息。若真人主播提供的信息密度或深度不及AI，便可能在和AI的较量中落于下风。至于那些因个人魅力而备受喜爱的主播，其地位难以撼动。同样，能够深刻触动听众情感的播客，在现阶段也较难被AI取代，因为真人提供的深层次情感联结，是AI目前难以精准模拟和复制的。就好像关于旅游的播客，听众更能够接受AI主播分享实用的旅游攻略，比如哪些景点值得一去、如何高效安排行程等，但在分享个人旅游感受方面，比如遇到了什么故事，听众很难接受由AI主播来讲述。不过实际上，播客节目往往是上述三种类型以不同比例交织融合的产物，并非能够简单约化为某一类别。因此，AI的影响也更为多维和复杂。此外，尽管播客作为信息来源的角色不可忽视，但对于广大听众而言，他们并不期望从播客中获取即时性的实用信息，播客所提供的情感慰藉与陪伴也同样具有不可替代的重要性。真人主播：有心跳的声音从信息获取的效率来看，视觉无疑更加占据优势。文本可以跳读，视频可以快进，音频尽管可以倍速播放，但通常仅限于1.2倍，一旦超出此范围，收听体验便会大打折扣。鉴于播客节目往往长达一两个小时，即便以1.2倍速播放，仍非短时间内能迅速听完。这引出了一个问题，在这个碎片化传播盛行的时代，如果听众仅仅是为了快速获取知识或资讯，为什么要收听动辄几十分钟的播客节目？对于很多听众来说，播客的吸引力并不仅限于获取信息，声音所带来的真实感、陪伴感也同样重要。前者指向的是播客的实用性，后者指向的是情感性。虽然很多听众会在乎播客的实用性，但这并不包括即时性的实用信息。假设一个人今晚要做一顿西餐宴请朋友，想了解一些菜谱和烹饪技巧，他不太可能会选择收听关于西餐烹饪的播客节目，而是会用搜索引擎或或社交媒体。有研究表示，听众心目中最好的播客节目介于纯粹的闲聊和“听课”之间。[9]这意味着听众是“挑剔”的，他们希望获取有用的信息，但这些信息的密度不能太高又不能太低。实际上，这与播客的收听场景，其往往作为一种背景音存在有着重要联系。统计数据显示，仅有3%的中文播客听众会全神贯注地收听，而不分心于其他事务。[10]绝大多数听众会在通勤、家务劳动、运动健身等日常活动中同步收听播客，这些场景下，听觉信息的融入几乎不占用额外的注意力空间。经济学家普遍认为，传媒业的本质在于“注意力经济”，即内容创作者通过图像、文字等各种形式的内容，极力吸引受众的注意力，并最大化其关注度。然而创作者必须认识到，相较于视觉信息，听觉信息所占据的注意力层级相对较低。因此，即便AI主播在信息提供方面胜于真人，也难以取代真人主播的地位。原因在于，听众收听播客的目的并非单纯追求信息获取的高效性。那些对信息效率有极高要求的听众，往往不会选择播客作为信息来源。一些敏锐的产品开发者可能洞察到了这一矛盾，有的播客节目内容质量高，信息密度大，但收听者的时间可能很紧张。现在有一些大模型应用推出了“AI看播客”的功能，只要提供播客链接，AI即可总结概括节目内容。这种场景下，声音已经完全被剥离，重要的是信息本身。数据显示，多人聊天、对谈类播客是听众最常收听的类型。[11]有学者表示，“本真”这一词汇在描述播客声音给予听众的印象时常出现，本真性是影响听众对播客评价与互动的核心要素，有的听众甚至可以接受粗糙的录音环境和主播“喷麦”，因为这些“错误”反而体现了人声的真实性。[12]这是AI最难取代人类的地方。人类内心深处始终相当介意外界是否对自己抱有“真心”。当寻求陪伴之时，我们追求的不仅是陪伴这一行为本身，更看重的是那份愿意陪伴的真诚。这就不难理解，为何人们会反复思量，自己的宠物是否真的喜欢自己？心理医生是否真的能感同身受？毕竟，金钱可以购买宠物或心理咨询服务，但宠物对主人的深情、心理医生对求助者的关怀，却不是金钱所能轻易保证的。听众可以相信真人主播真心在分享其所思所想，但能够相信AI的“真心”吗？在播客节目中，介绍清楚主播的身份非常重要。听众天然地想要知道听到的声音来自谁，而且某种程度上，同样的内容由不同身份的人讲出来，效果可能大相径庭——胖子笑称自己吃得多是自嘲，其他人说这话则叫人身攻击。几乎所有节目开始录制的时候，主播就会自我介绍，或者在信息页面上详尽展示自己的背景。但AI主播要怎样介绍自己？我们如何得知AI主播的“背景信息”？据统计，订阅新播客后，绝大多数听众会回听往期节目，且倾向于完整收听，无论是一次性听完还是分多次完成[13]。一定程度上这说明听众与主播建立情感联结后，会基于对主播的认可，进一步收听其其他节目。因此即便AI主播的声音已高度逼近真人，但在现阶段，很难和真人主播一样让人建立情感联结。回顾前文提及的小宇宙线下活动，若听众长期收听某位真人主播，他们自然会期待在线下活动中见到这位主播，以更全面地了解他。但如果是AI主播呢？我们又该如何“见到”AI主播？线下活动的意义何在？AI主播如何能够像真人一样，实现线上线下的无缝衔接，带给听众那种奇妙的熟悉感？这很大程度上取决于社会对AI“人性”的接纳程度。目前，大多数人难以对机器或计算机程序产生真正的情感联结。因此，即便AI能够逗人开心或激发同情，也难以达到人与人之间那种深刻的情感共鸣。当然，AI技术正不断进步，未来人类对AI的感知也将发生变化。或许有一天，人们会像面对真人一样对待AI，到那时，AI主播取代真人主播也将成为自然而然的事情。不过，到那时，AI可能已经在社会生活的更多、更重要的领域取代了真人，播客只是其中一个相对不那么重要的领域而已。

参考文献来源：

[1] Biao Wang，《NotebookLM now lets you listen to a conversation about your sources》

https://blog.google/technology/ai/notebooklm-audio-overviews/，2024

[2] [5] [6] [7] [8] [13] JustPod，《2024中文播客新观察》，2024

[3] [4] 黎诗韵，《对话小宇宙 Kyth：AI 时代，如何重新理解播客的价值》，《极客公园》，2024

[9] [11] [12] 陈卓睿、彭兰，《用时效换本真？——加速社会中的播客聆听与内容生产》，新闻记者，2024

[10] Justpod，《2022 中文播客新观察》，2022