“看音乐”：新大众文艺的听觉重构

“看懂”一首歌

第一次听刘森的专辑《华北浪革》是在网易云音乐上。朋友多次推荐之后，我点开了专辑，从第一首听到最后一首，只觉得歌还行，但似乎也谈不上多特别。旋律简单，歌词有点意思。熟悉相关作品的朋友可以从中听出电视剧《潜伏》，想到县城青年的种种生活感怀。但所有的感受也就仅止于此，听完一遍就没有再点开过，直到后来，我在B站再次与刘森相遇。

《焰火青年》《深海》和《县城》等歌曲被配上国产文艺电影做成了二创混剪，同样的声音再次响起，但这次不一样了。刘森略带粗粝的声线、歌词里的情感，与电影自然地融合到了一起，仿佛这首歌本来就是主题曲。当音乐和影像之间形成共振，旋律就有了新的质感，我好像此刻才第一次真正“听见”了《华北浪革》。

这样的经历其实并不特别，很多朋友都分享过类似的体验，今天的我们越来越习惯“看懂”一首歌。购买实体专辑的时代，我们往往更多看的是音乐的物质载体，比如专辑的艺术设计、歌词本的编排、海报的创意等。流媒体时代，专辑几乎已经成为收藏品，不再承载音乐的实体形象，此时我们看的是音乐的影像表达，比如音乐综艺中的表演现场、短视频中的影像混剪。在这个意义上，“看音乐”成为了一种新的感知形式。

实体专辑时代，歌曲的传播路径相对单一，不同媒介之间也很少像今天这样彼此影响。现在，一首歌可以借助复杂的媒介生态获得更丰富的意义：一个普通用户在平台上完成的混剪作品，也许比这首歌的专业评论解析更有影响力；一段二创视频，也许比音乐公司自己的推广更能让一首歌进入公众视野。更重要的是，混剪并不只是给音乐配上画面，选择影像的过程也是重新组织这首歌社会意义的过程。给《华北浪革》配上国产文艺电影，意味着剪辑者尝试提出一种介入音乐的现实路径，这个介入的过程既是音乐意义增值的过程，也在事实上形成了一种视听批评。

在这个意义上，“看音乐”又不只是感知形式，更是新大众文艺的重要场景：大众不再只是消费者，越来越成为作品的阐释者；音乐在被制作为视听文本时，将获得新的文本意义，在流通中继续生长。那么，值得进一步追问的便是，这种新的感知形式是如何被塑造出来的。

永不衰减的精确快感

2016年9月，抖音上线，视频拍摄的时限只有15秒。这个过于短暂的时间不足以展开完整的叙事，它要求创作者在限时命题中重新制造一种可以被瞬间把握的感官事件。事实证明，这样的超短视频准确击中了算法时代的感官节奏。在此后的几年里，抖音的视频时限从15秒逐步放宽到1分钟、5分钟以至更长，但最初15秒所确立的声画逻辑却深刻地影响了整个短视频生态：看上去是拍一段视频然后配上背景音乐，但事实上对于观看者来说却是画面围绕音乐展开，视觉指向听觉。

声画关系的微妙倒置并不是短视频的独特发明，但短视频让这个趋势变得更加明确。传统影视作品中，声音通常服务于画面和叙事，配乐的功能是增强影像的表达能力，这一原则反过来也对音乐的使用提出了谨慎、克制的要求。而在短而快的视听文本中，画面反过来成为音乐的具象化呈现，进一步推动剪辑逻辑从叙事驱动转向了声音驱动。这意味着，短视频并不是在单纯地使用音乐，而是更彻底地把音乐转变为一种可拆分、可调用的材料。这种声画逻辑在混剪类视频的卡点剪辑中表现得尤为突出。

所谓卡点，就是让画面中的动作、转场或特效精确地落在音乐的节奏重音上。比如，人物挥拳的瞬间正好对应鼓点落下，场景切换正好踩在旋律的重音上，卡点的总体原则就是让视觉动作与听觉节奏精准合拍。B站上颇受欢迎的一个卡点视频播放量高达3600万次，视频时长3分51秒，素材来自45部漫威和DC电影，画面中的所有动作既精确对应背景音乐的节奏重音，也符合歌曲的节奏感。副歌段落尤为突出，影片原声的部分音效被保留下来与鼓声叠加，让短促的唱词更加有力。无论是“看音乐”还是“听画面”，这类巧妙卡点的视频都能给人一种舒适的即时满足感。

按照法国理论家米歇尔·希翁的说法，影像中的视与听是一种非自然关系，同意观看的前提是我们默认签署了一份象征性的视听合约，合约内容就是把听到的声音和看到的影像看成一个整体的感知事件。比如，我们给机器人倒地的画面配上小提琴声，即使并不合逻辑，观众也会先接受琴声属于倒地动作，然后再思考这种反差意味着什么。与之相反，声画同步且符合预期，就会带来增值效应，卡点视频的爽感也源于此，密集排列的节拍点让效果持续累加，形成高强度的感官冲击。

抖音最初的15秒时限以极高的要求催生了一种独特的观看体验，随时进入、立刻沉浸、瞬间极乐。卡点手法则把这种事件美学推向了极致，在这样的混剪视频中，不需要观众进入影像的具体叙事层面、区分前后逻辑，只需要在每一次的声画碰撞中完成瞬间的感官确认。在第一个节拍点落下的瞬间我们就已经知道，接下来每一个节拍点都会有相应的视觉动作。在这样的声画关系中，观众要做的不是敞开自己去迎接未知，而是在反反复复的精确匹配中获得满足。如果说叙事快感会因为重复而衰减，那么节奏的重复则恰恰相反，卡点带来的是永不衰减的精确快感。

声音的形象注释

如果说卡点是节奏层面的声画精确对齐，那么一般的二创混剪还要处理更复杂的影像内容和声画关系，这当中很容易给观众留下印象的也是常用的两种剪辑策略，便是错配型混剪和注释型混剪。错配是指把反差很大的声音和画面放在一起，打破原有的情感编码，制造新的意义。比如某UP主（视频上传者）把温馨快乐的《老友记》片头“爆改”成了恐怖惊悚版。放慢画面播放速度，调成墨绿色调，再换上悬疑电影《死寂》中的配乐之后，同样的六个人、同样的灿烂笑容，却在错配中展现出了完全不同的效果。六人组温馨俯视孩子的经典镜头，在新的编码中变成了演员直视观众的某种恐怖威胁。

如果说错配是刻意在反差中制造新的美感体验，那么注释的目的则是放大和增强音乐的原有编码。所谓注释就是根据歌词的内容寻找对应的影像素材，让二者相互贴合、彼此印证，新的声画组合让双方都获得了各自单独存在时所不具有的表达张力。我在B站上看到的不同版本的《华北浪革》专辑混剪，基本都属于这种类型。以《县城》这首歌为例，虽然有不同的剪辑版本，但整体上都有两个共同点，一是突出小人物，二是展示群像。在音乐的重新组织之下，小人物们成了县城音乐故事中的主角，来自不同影片的群像也让这个模糊拼接的故事有了新的内涵。在混剪中，《县城》歌词里的所有动词和名词，全都被影像注释为了一种可感动作，有了具体的故事文本，只要观众对县城故事感兴趣，就很容易被某个镜头触动。

看见声音的人

重组编码的错配和强化编码的注释看似方向相反，但都共享着同一种深层逻辑，那就是通过重新安排声画关系来帮助观众更快速地认出意义。“爆改”《老友记》片头之所以让人震惊，是因为我们能辨认出两种情感编码之间的巨大反差。《县城》配文艺电影感人，是因为画面帮我们辨认出了歌词中原本并不明晰的场景和情感指向。无论哪种情况，意义都是被声画组合预先设定好的，只等着我们去经历这种相逢。混剪越精巧，辨认就越迅速，认出这个时刻是某种生活回响的满足感就越强烈。

现在可以回到最开始的那种反转体验了，击中我的到底是什么？是音乐本身终于在这一刻穿透了我，还是影像替我完成了一次理解？《县城》的歌词原本并没有非常具体的所指，单独来听或许会觉得略有一些空洞，但当它们被雪中独舞的沈涛、沉睡中的陈升、癫狂的树先生和种种县城景观重新注释之后，每一种描述忽然都有了具体的着落。影像叙事为理解“华北”和“浪革”搭建了历史时差之下的情感框架，提供了一种进入音乐的视角。这种沉浸其中的体验是真实的，但与此同时它也付出了相应的代价，那就是一旦获得了这个视觉框架，就很难再回到没有画面的纯粹聆听中去了。在这个意义上，我或许并没有获得真正的反转体验，只是被视觉强化了编码效果。

于是这又带来了一个新的问题，被视觉强化的听感还是真实的听感吗？重新听懂的聆听体验当然是真实的，它确实在我和这张专辑之间建立了此前并不存在的连接。因此，问题的关键或许并不在于体验本身真实与否，而是这种建立连接的方式自身成为了一种听觉征候。在今天的视听环境中，“看音乐”正在成为一种理解接受和重新激活音乐的默认模式。但此时我们看的不再是过去的音乐MV，而是音乐自身成为了一种可调用的素材，敞开与任何影像发生连接的可能，并获得更多关注。

“看音乐”本身并不是什么问题，人、媒介和感知结构原本就在共同进化。真正值得追问的是，在互联网条件下的新大众文艺中，我们究竟希望在平台和算法的塑造下训练出什么样的耳朵？新大众文艺的可贵，不只是让音乐获得新的形态，还在于让更多人进入意义生产的同时，仍能为那些尚未被编码的经验留出位置。也正因此，“看音乐”所打开的就不只是新的视听形式，更是新大众文艺通向更丰富现实感受的一条路径。

作者系南开大学文学院副教授、南开大学当代审美文化研究中心副主任