💡 项目简介

在短视频内容井喷的当下,评论区已然成为洞察用户情绪、舆论热点的重要窗口。为帮助创作者、研究者和开发者更便捷地挖掘评论背后的价值,我开发了这款:

🧠 短视频文本评论动态分析系统服务端
—— 基于哔哩哔哩开放 API,支持评论内容实时采集、智能情感分析与可视化展示。

整个系统采用前后端分离架构,后端基于 Python 的 Flask 框架构建,整合多种数据处理与分析技术,力求提供高效、可视、可拓展的评论分析平台。

👉 前端项目地址:GitHub - DAS-SVPTC

 👉 后端项目地址:GitHub - DAS-SVPTC-SERVER


🚀 核心功能模块

1️⃣ 用户扫码登录(B站二维码登录)

  • 接口

    • /api/qrcode 获取登录二维码

    • /api/qrcode/polling 轮询二维码状态,获取 SESSDATADedeUserID

  • 亮点:模拟浏览器扫码流程,无需明文账号密码,兼顾安全与便捷性。


2️⃣ 用户信息与投稿视频获取

  • 获取用户昵称、头像、粉丝数等基础信息

  • 获取用户的投稿视频列表,支持分页浏览

  • 查询单个视频详情(包括播放地址、评论数、点赞数等)


3️⃣ 评论数据获取与深度分析

  • 分页拉取视频评论

  • 情感极性分析(正向 / 中性 / 负向)

  • 评论词频统计(自动过滤停用词)

  • 性别 & 地区分布分析

  • 评论发布时间趋势分析

  • 评论文本聚类(KMeans)


4️⃣ 评论可视化图表自动生成

所有分析图表均以图片形式生成,保存在 output/ 目录,前端可直接访问:

  • 🧠 词云图:展示评论关键词热度

  • 👥 性别分布图:展示评论者性别占比

  • 时间趋势图:展示评论随时间变化趋势

  • ❤️ 情感柱状图:展示正/负/中性情感占比

  • 🌍 地区分布图:展示评论者地理位置热力

  • 📊 KMeans 聚类图:展示评论分群结果


5️⃣ 代理服务支持

  • 图片代理:解决前端跨域无法展示B站图片的问题

  • 视频代理:实现视频播放绕过防盗链,支持流式加载


6️⃣ 文件输出与日志管理

  • 每次分析结果均保存为 .csv 文件,便于二次处理

  • 运行日志、请求日志、错误日志分类记录,方便调试与维护


🔧 技术栈一览

类型 技术工具
后端框架 Flask
数据获取 B站开放API + 模拟登录
数据处理 pandas、jieba、sklearn
可视化 matplotlib、wordcloud
数据格式 CSV / JSON
登录模拟 requests + QR扫码认证

📸 示例展示

部分图表示例👇
(实际图片可见项目仓库 output/ 文件夹)

  • 评论关键词词云图

  • 评论情感分析柱状图

  • 评论者性别饼状图

  • 评论时间趋势图

  • 文本聚类散点图(基于文本相似度降维)


📁 如何使用?

  1. 克隆项目

git clone https://github.com/DIABLOSER/DAS-SVPTC-SERVER.git
  1. 运行服务

python server.py

⚠️ 项目声明

本项目仅供 学习与研究 使用。
所有数据来源为 Bilibili 官方开放API,未涉及任何非法抓取、商业用途或用户隐私。

如有侵权,请及时联系我处理。


📬 联系我


⭐ 项目计划与未来展望

✅ 当前已实现:

  • 评论数据实时抓取

  • 自动情感分析与词频分析

  • 可视化图表自动生成

📌 下一步计划:

  • 引入深度学习情感分析模型(如BERT)

  • 评论关键词热度随时间变化分析

  • 用户画像标签体系构建

  • 支持多平台评论抓取(如抖音、微博等)


🙏 如果你觉得本项目还不错,欢迎 点赞 + 收藏 + 分享,你的支持是我持续更新的最大动力!

Logo

火山引擎开发者社区是火山引擎打造的AI技术生态平台,聚焦Agent与大模型开发,提供豆包系列模型(图像/视频/视觉)、智能分析与会话工具,并配套评测集、动手实验室及行业案例库。社区通过技术沙龙、挑战赛等活动促进开发者成长,新用户可领50万Tokens权益,助力构建智能应用。

更多推荐