基于大数据的哔哩哔哩视频热度分析与预测系统
摘要:本文基于哔哩哔哩视频平台大数据,构建了视频热度分析与预测系统。系统采用Python语言开发,通过Flask框架搭建Web平台,MySQL存储数据,jieba分词处理标签,echarts实现可视化。研究实现了视频数据爬取、清洗、情感分析(SnowNLP技术)等功能,提供用户管理、注册登录、多维度可视化分析(包括作者活跃度、分类统计、互动数据等13种图表)以及基于线性回归的视频观看量预测。测试表
摘要:为深受年轻群体喜爱的弹幕视频网站,在青少年价值观培养、文化传播和社会热点关注等方面扮演着重要角色。然而,在大数据时代,如何帮助青少年有效辨别信息真伪、提高信息获取效率,成为了一个亟待解决的问题。针对这一问题,交互式实时可视化技术在哔站等视频平台上的应用显得至关重要。这种技术能够通过直观、动态的图形和图像展示,帮助用户快速理解数据和信息,从而更有效地辨别信息的真实性和价值。
本系统基于B/S架构和Python语言实现,通过MySQL数据库存储基于大数据的哔哩哔哩视频热度分析与预测系统数据,通过jieba分词对哔站视频标签分词,通过echarts实现可视化功能,通过Flask框架完成web系统搭建。本文主要阐述了系统具体实现过程,本系统实现哔站相关视频数据爬取、清洗、预处理、情感分析等功能,为管理员提供用户管理功能,为用户提供注册、哔站视频数据查看,作者活跃度、哲学分类统计、发布数量、观看数量、点赞数量、收藏数量、情感数量以及各种数据分类词云图等可视化分析功能,最后实现系统可视化大屏功能,以及基于线性回归算法的视频观看量预测功能。
通过测试,本能够帮助用户快速、准确地获取哔站视频用户行为的各种统计数据所需信息,既有利于用户对有效资讯来源的了解,同时也有助于视频创作者和平台对作品推送的侧重。
关键词:哔站视频;热度分析;情感分析;频观看量预测;echarts;Flask;Python
研究背景
哔哩哔哩(简称哔站)作为中国领先的视频分享平台,其内容与文化深度契合了中国年轻一代的喜好。据2023年第一季度的财务报告显示,哔站的总营收达到了50.7亿元人民币,日均活跃用户增长至9,370万,同比增长18%。此外,月均活跃用户数高达3.15亿,用户粘性和活跃度均呈现稳步增长态势。日均视频播放量达到惊人的41亿,用户日均使用时长达96分钟,总使用时长同比增长19%。月均互动数也达到了142亿次,同比增长15%。这些数据不仅彰显了哔站庞大的用户基础,也体现了其作为文化传播平台的重要性[1]。
哔站以其独特的弹幕文化而闻名,这种将实时评论以文字形式平行位移至屏幕上方并覆盖视频内容的互动方式,为用户提供了全新的观看体验。根据兰德尔·柯林斯的互动仪式链理论,弹幕视频观看模式可以被视为一种基于互联网的虚拟互动仪式,其中自我认同为ACG文化族群成员的网众以非物理在场的方式参与互动[2]。哔站作为将“弹幕”文化引入中国的先行者,不仅推动了这一文化的普及,也促进了用户之间的深度交流和互动。
除了弹幕文化,哔站在次文化及知识与教育的传播方面也发挥了重要作用。该平台鼓励并支持广大独立创作者创作和分享各种内容,为用户提供了丰富的知识资源和文化体验。同时,哔站还积极与国际文化进行交流,引入了众多优秀的海外作品和创作者,为用户提供了更广阔的视野和更深入的思考。这些努力不仅促进了文化的多样性,也深刻影响了年轻一代的价值观。随着可视化技术的不断发展,用户现在可以根据自己的需求自定义可视化展示,从而更好地探索和理解数据[3]。在哔站这样的平台上,可视化技术的应用不仅可以帮助用户更直观地了解和分析视频数据,还可以促进内容创作者和观众之间的深度互动。因此,随着技术的不断进步和应用的不断拓展,哔站在未来将继续发挥其作为文化传播平台的重要作用,为用户提供更加丰富、多元和深入的内容体验。
课题研究意义
1.2.1课题研究意义
(1)提高信息传递效率
哔站用户偏好可视化系统利用图形和图像比纯文本数据更容易吸引用户的注意的特性,迅速传递信息。当数据通过可视化工具呈现时,复杂的模式和关系更容易被理解,使用户可以更直接清晰的了解自己的关注偏好。
(2)挖掘模式与趋势
哔站用户偏好可视化系统利用大数据和可视化技术,将更全面、准确的掌握用户关注特点,更容易地发现某一热门话题或模式的发展趋势。
(3)节省时间和资源
哔站用户偏好可视化系统,通过自动化的可视化工具,对于大量的用户反馈和数据,可以迅速获得有关用户偏好的见解,从而节省时间和资源。
理论意义
(1)提供决策支持:
基于用户偏好的可视化数据,深入了解用户关注市场的动态变化趋势,支持平台做出更有针对性的决策,无论是关于视频内容迭代、推送策略,,促进视频创作者的作品生产效率,进一步提高用户竞争力。
(2)数据驱动的用户体验:提供用户偏好的可视化反馈可以让用户清晰的了解历史数据,让用户对热点话题有更直观的认知,同时提高用户视频观看体验。
系统需求分析
用户需求分析
一、管理员功能
(1)密码修改
管理员可以在服务端软件中修改自己的登录密码,以增强账户安全性。
(2)个人信息修改
管理员可以系统中修改自己的个人信息,如姓名、电话等。修改个人信息的操作通常需要验证管理员的身份,以确保只有授权人员可以进行修改。
(3)用户管理
管理员可以查看、编辑和删除已注册的用户信息,包括登录名、密码、昵称、电话等。管理员可以根据需要删除用户账户,以确保系统的安全性和稳定性。
(4)视频观看量预测模型训练及评估功能。
二、用户功能
(1)哔站数据爬取:用户登录哔站之后,通过爬虫技术通过关键词爬取哔站视频数据信息,并进行存储。
(2)哔站数据预处理:对爬取的哔站数据的标题进行清洗、间戳转日期、移除缺失的哔站数据,并将其数据导入数据库中进行存储。
(3)哔站数据情感分析:对对爬取的哔站数据的标签通过SnowNLP技术进行情感值计算,从而得出哔站视频数据的情感状态(积极、消极、中性)。
(4)用户注册
用户通过系统提供的注册界面填写登录名、密码、昵称、电话、等信息进行注册。注册过程中,系统会对输入的信息进行校验,确保信息的合法性和有效性。注册成功后,用户将获得唯一的账户标识,并可用于后续的登录操作。
(5)哔站数据查看,通过标题、情感分类、分类、标签等查询哔站数据信息。
(6)哔站数据可视化分析,主要对哲学分类统计饼图、作者活跃度柱状图、发布数量折线图、观看数量折线图、评论数量折线图、点赞数量折线图、收藏数量折线图、情感数量折线图、总词云图、儒家词云图、法家词云图、道家词云图、墨家词云图、可视化大屏显示。
(7)密码及个人信息修改
用户可以在基于大数据的哔哩哔哩视频热度分析与预测系统中修改自己的密码和个人信息,如姓名、电话等。修改密码和个人信息的操作通常需要验证用户的身份,以确保只有账户持有人可以进行修改。
(8)视频观看量预测功能。
用户用例图分析
(1)用户主要参与哔站数据爬取、哔站数据预处理、哔站数据情感分析、用户注册、哔站数据查看、哔站数据可视化分析、密码及个人信息修改、视频观看量预测功能。其用户功能用例如下所示。

(2)根据需求得出基于大数据的哔哩哔哩视频热度分析与预测系统的管理员主要参与的用例有登录、用户管理、密码修改、个人信息修改、视频观看量预测模型训练及评估等。其管理员功能用例如下所示。

系统数据流图
在深入研究基于大数据的哔哩哔哩视频热度分析与预测系统后,我们发现该系统根据用户角色的不同,设定了清晰的功能权限划分。系统管理员拥有全面的管理权限,包括对所有注册用户的管理、用户个人信息的修改以及密码重置等核心管理功能。
对于普通用户而言,他们的主要权限集中在与哔站数据相关的操作上。用户可以自主进行哔站数据的爬取,收集所需的信息;之后,用户可以对这些原始数据进行预处理,以便进行后续的分析;在数据预处理完成后,用户可以利用系统提供的情感分析工具,对哔站数据进行情感倾向的判别;此外,用户还可以注册账户,以便在系统内保存和管理自己的数据和分析结果;当然,用户也可以随时查看自己收集的哔站数据,并通过系统提供的可视化分析工具,将复杂的数据转化为直观易懂的图表;最后,用户还可以根据自己的需求,修改自己的密码和个人信息,确保账户的安全性和个性化设置。这样的权限划分既保证了系统管理员对整个系统的全面掌控,又赋予了普通用户足够的自主权和操作空间,使得整个系统能够高效、有序地运行。
为了更清晰地展现校友信息管理系统的数据流情况,我们绘制了顶层数据流图(如图所示)。然而,要深入了解每个具体功能的数据流动情况,还需进一步绘制各功能的数据流图。绘制系统的第二层数据流程图如图3-4所示。由于功能众多,这里以哔站数据爬取功能、哔站数据预处理功能、哔站数据情感分析功能等部分功能的第三层数据流图进行绘制,如图3-5所示。这些数据流图详细展示了这些功能在系统中的数据输入、处理和输出过程,有助于我们更好地理解系统的运行机制和用户需求。

(2)系统的第一层数据流程图如图


系统总体功能设计
通过基于大数据的哔哩哔哩视频热度分析与预测系统的用户需求,规划出功能模块为用户管理模块、哔站数据管理模块、哔站数据可视化分析管理模块、视频观看量预测模块。其系统的结构图如下

一、用户管理模块:管理员负责对需要使用基于大数据的哔哩哔哩视频热度分析与预测系统的用户进行增加,并对昵称、性别、电话、年龄、头像等数据进行维护和修改,对用户自行注册的用户数据统一管理;用户可以通过上述内容自行注册,所有使用者都可以修改自己的昵称、性别、电话等数据,也可以修改面膜。
二、哔站数据管理模块:用户通过爬虫技术从哔站爬取“文化”相关的数据,并对爬取的哔站数据进行清洗、预处理,并通过SnowNLP技术进行情感分析,最后通过标题、分类等条件可以查询哔站数据。
三、哔站数据可视化分析模块:查看哲学分类的饼图:了解不同哲学类别的占比情况。查看作者活跃度的柱状图:知道哪些作者最活跃,发布了最多的内容。查看发布数量的折线图:随时间追踪哲学内容的发布情况。查看观看、评论、点赞、收藏数量的折线图:了解哲学内容的受众互动情况。查看情感数量的折线图:分析哲学内容中不同情感倾向的变化趋势。查看总词云图:快速把握哲学内容中的关键词汇和主题。查看特定学派(如儒家、法家、道家、墨家)的词云图:深入了解各学派的关键词汇和特色。使用可视化大屏显示:在大屏幕上展示这些图表,便于团队讨论或公开展示。通过这些功能,用户可以轻松获取和解析哲学内容的数据,从而更好地理解其内容、受众和趋势。
四、视频观看量预测模块,管理员通过利用采集清洗过后的哔哩哔哩视频观看量的历史数据构建视频观看量预测模型并进行评估,用户利用训练的模型输入视频相关因素数据进行预测其观看量。
可视化功能设计与实现
可视化大屏展示功能
可视化大屏展示功能中,主要展示了最新发布、总量、活跃作者、发布数量、观看数量、评论数量、收藏数量等趋势情况。可视化大屏展示界面如图。后台通过BZCTWHDapingData()方式实现。可视化大屏展示核心代码如图
作者活跃度柱状图功能
作者活跃度柱状图功能中,主要展示了作者活跃度情况。作者活跃度柱状图界面如图。后台通过BZCTWHBarZuozhe()方式实现。作者活跃度柱状图代码如图所示。

发布数量统计图功能
发布数量统计图功能中,主要展示了作者活跃度情况。发布数量统计图界面如图。后台通过BZCTWHBarZuozhe()方式实现。

词云图功能
词云图功能中,主要展示了数据的关键词信息,通过结巴分词度标签数据进行分词,然后绘制其词云图。词云图界面如图

火山引擎开发者社区是火山引擎打造的AI技术生态平台,聚焦Agent与大模型开发,提供豆包系列模型(图像/视频/视觉)、智能分析与会话工具,并配套评测集、动手实验室及行业案例库。社区通过技术沙龙、挑战赛等活动促进开发者成长,新用户可领50万Tokens权益,助力构建智能应用。
更多推荐
所有评论(0)