文本分析及机器学习在影视传媒中的应用——以电视剧《狂飙》为例

2023-07-22 10:56:47 来源：光明网

小大

影视剧《狂飙》于2023年1月14日在CCTV-8与网络平台爱奇艺同步播出。该剧自播出以来，引发了全民现象级讨论，成为2023年度首部爆款剧作。《狂飙》以两条故事线为叙事线索，其一为小人物高启强逐步成为黑社会头目的“发家史”；其二为以安欣为代表的政法系统干部与黑恶势力长达二十年的“斗争史”。该剧通过“三幕式”时空交错的叙事手法、精彩且充满悬念的故事情节以及鲜活生动具备“反差萌”的人物性格，赢得了观众的一致好评。在艺术层面上取得成功的同时，在价值传播上也获得了观众的认可。截至2023年4月10日，《狂飙》在豆瓣网收获8.5分的高分，有77万余名观众对该剧进行评分，其中有25万余人发表观点参与讨论。可见，将《狂飙》作为研究对象，可以很好的探究“顶流热剧”何以生成与建构，溯源其“走红”内在肌理、必备要素与发生机制，为今后的影视剧创作具有重要的借鉴意义。本文以豆瓣网为数据库，通过Python工具对《狂飙》豆瓣网长评进行数据抓取，利用文本分析与机器学习的技术，从观众回馈角度使用定量方法对《狂飙》进行深入剖析。

一、豆瓣长评获取

（一）豆瓣评论

豆瓣网号称“文艺青年聚集地”，网站以读书、电影、音乐、同城、小组等核心板块为中心，依靠网友自发分享和评价书籍、影视和音乐作品作为高质量输出内容，具有较强的用户粘性，反映了国内社会一大部分青年的价值取向和文艺追求。其中，豆瓣影视的评分机制赋予大众一人一票的公平投票权利，受商业化渗透程度较低，成为国内影视剧口碑影响力最重要的参考依据之一。豆瓣评论通常包括长评与短评，短评数量庞大，但评价内容较少，信息密度不高，容易被“水军”占领舆论阵地，发生刷分刷负现象，从而产生信息噪音。相比较而言，长评数量虽然明显更少，但长评的细节丰富，对故事情节、角色刻画、逻辑架构的批判与分析更为到位，言之有物的内容充分表达了观众的意识形态和情感需求，因此本文选取豆瓣长评作为文本分析的主要研究对象。

（二）数据爬取

利用Python3.8工具爬取豆瓣网关于电视剧《狂飙》的影视长评内容，具体步骤包括三步：（1）获取长评内容网址链接，分析网站结构；（2）导入requests、BeautifulSoup等第三方库，通过编写代码发送请求并返回响应，并使用正则表达进行内容解析，获得所需数据（核心代码见附录1，结果备索）；（3）将爬取数据储存至CSV表格中。

通过爬虫及数据清洗获得用户昵称、发评时间、长评内容、评分、评论影响（赞同与反对）、评论字数等相关信息，由于存在重复评论和被折叠评论，经删除无效数据后最终共抓取3075条评论，涵盖了97%的总长评数。原始数据结构如下：