最新开源：Dispider 实现视频LLMs的主动实时交互！又一个媲美 o1 的“开源推理模型”来了！

论文链接：__项目地址：_Dispider 是一个新型的视频大语言模型（Video LLM），通过解耦的感知（Perception）、决策（Decision）和反应（Reaction）这三个模块，实现了与视频的实时交互。与传统的离线视频处理方法不同，Dispider 能够在视频流中提供连续和及时的反馈，适用于需要实时响应的场景。感知：实时视频监控和交互捕捉。决策：在适当的情况下提高主动互动。反应：

程序员新一

1195人浏览 · 2025-01-15 11:10:26

程序员新一 · 2025-01-15 11:10:26 发布

0****1

Dispider：新型视频大模型，实现视频LLMs的主动实时交互

Dispider

_论文链接：_https://arxiv.org/abs/2501.03218
_项目地址：_https://github.com/Mark12Ding/Dispider

Dispider 是一个新型的视频大语言模型（Video LLM），通过解耦的感知（Perception）、决策（Decision）和反应（Reaction）这三个模块，实现了与视频的实时交互。与传统的离线视频处理方法不同，Dispider 能够在视频流中提供连续和及时的反馈，适用于需要实时响应的场景。

感知：实时视频监控和交互捕捉。
决策：在适当的情况下提高主动互动。
反应：与用户持续互动。

论文使用一系列基准测试来评估 Dispider 在不同方面的长视频QA和流视频理解能力。

StreamingBench：用于评估多模态大型语言模型（MLLMs）流视频理解的最新全面基准测试。
ETBench子集：衡量模型在实时视频交互中的主动响应能力。
长视频QA基准测试：包括 EgoSchema、VideoMME 和 MLVU。
流视频理解（Streaming Video Understanding）：评估 Dispider 在流视频交互中的性能，强调其处理实时输入和动态响应的能力。
传统视频理解（Conventional Video Understanding）：将 Dispider 与传统视频LLMs在常规视频QA基准测试中进行比较，其中模型需要在观看完整视频后提供一个答案。

StreamingBench 评估流视频理解能力

长视频QA基准测试，ETBench实时视频交互

左右滑动查看更多

实验表明，Dispider 不仅在常规视频 QA 任务中保持了强大的性能，而且在流式场景响应方面也明显超越了以前的在线模型，从而验证了架构的有效性。

0****2

Sky-T1-32B-Preview：又一个媲美 o1 的“开源推理模型”，训练成本不到 450 美元

Sky-T1-32B-Preview 是一个32B参数的推理模型，由 UC Berkeley的Sky Computing Lab 的 NovaSky 团队开发。该模型从 Qwen2.5-32B-Instruct 训练而来，使用了 17K 数据，性能与 OpenAI 早期版本的 o1-preview 模型在数学和编程任务上相当。

NovaSky 团队在博客中透露，Sky-T1-32B-Preview 的训练成本不到 450 美元，远低于以往同类模型的数百万美元。

NovaSky 团队利用阿里巴巴的 QwQ-32B-Preview 模型，生成了Sky-T1-32B-Preview 的初始训练数据，随后“整理”数据混合，并利用 OpenAI 的 GPT-4o-mini 将数据重构为更易用的格式，最终形成了可用的训练集。使用 8 个 Nvidia H100 GPU 机架训练 320 亿参数的 Sky-T1-32B-Preview 模型，大约需要 19 个小时。

在性能方面，Sky-T1 在 MATH500（一组“竞赛级”数学挑战）上的表现优于 o1 的早期预览版本，同时在 LiveCodeBench 的编程评估中也表现更佳。

然而，在 GPQA-Diamond 测试中（包含物理学、生物学和化学领域的研究生水平问题），Sky-T1 略逊于 o1 预览版。

值得注意的是，Sky-T1-32B-Preview 似乎是首个真正意义上的开源推理模型，其训练数据集和代码均已公开，用户可以从零开始复现该模型。

0****3

英伟达开源文生图模型 Sana，笔记本电脑也能秒速生成4K超高清图像

Sana

_体验地址：_https://nv-sana.mit.edu/
_论文地址：_https://arxiv.org/pdf/2410.10629
_Github地址：_https://github.com/NVlabs/Sana

Sana 是一个高效的文本到图像生成框架，能够生成高达 4096×4096 分辨率的图像，而且速度惊人，甚至可以在笔记本电脑的 GPU 上运行。该项目通过使用线性注意力机制和仅解码器的文本编码器，实现了高质量的图像合成和强大的文本-图像对齐。

Sana 的核心设计包括：

深度压缩自编码器：引入的全新自编码器（AE），大幅将缩放因子提高至32倍。
高效线性DiT（Diffusion Transformer）：线性DiT在此替换了传统的二次注意力机制，将计算复杂度从O(N²)降低到O(N)。此外，Sana 还采用了 Mix-FFN，将3x3深度卷积整合到 MLP 中，增强了token的局部信息。
基于仅解码器「小语言模型」的文本编码器：使用了Gemma（仅解码器LLM）作为文本编码器，替代了以往常用的 CLIP 或 T5，以增强对提示词的理解和推理能力。
高效的训练和采样策略：Sana 采用了 Flow-DPM-Solver 来减少采样步骤，并使用高效的标题标注和选择方法来加速模型收敛。Sana-0.6B 模型比大型扩散模型（如 Flux-12B）小 20 倍，速度快 100 多倍。

Sana 的性能表现非常出色。如下表7中，将 Sana 与当前最先进的文本生成图像扩散模型进行了比较。

对于 512×512 分辨率：Sana-0.6B 的吞吐量比具有相似模型大小的 PixArt-Σ 快 5 倍；在 FID、Clip Score、GenEval 和 DPG-Bench 等方面，Sana-0.6B 显著优于PixArt-Σ。
对于 1024×1024 分辨率：Sana 比大多数参数量少于 3B 的模型性能强得多；在推理延迟方面表现尤为出色。
与最先进的大型模型 FLUX-dev 的比较：在 DPG-Bench 上，准确率相当；在GenEval 上，性能略低；然而，Sana-0.6B 的吞吐量快 39 倍，Sana-1.6B 快 23 倍。

Sana-0.6B 可以在 16GB 笔记本电脑 GPU 上部署，生成 1024×1024 分辨率的图像仅需不到 1 秒。

对于4K 图像生成，Sana-0.6B 的吞吐量比最先进的方法（FLUX）快 100 倍以上。

Sana 不仅在速度上取得了突破，在图像质量方面也具有竞争力，即使是复杂的场景，如文字渲染和物体细节，Sana 的表现也令人满意。

如何学习AI大模型？

“最先掌握AI的人，将会比较晚掌握AI的人有竞争优势”。

这句话，放在计算机、互联网、移动互联网的开局时期，都是一样的道理。

我在一线互联网企业工作十余年里，指导过不少同行后辈。帮助很多人得到了学习和成长。

我意识到有很多经验和知识值得分享给大家，故此将并将重要的AI大模型资料包括AI大模型入门学习思维导图、精品AI大模型学习书籍手册、视频教程、实战学习等录播视频免费分享出来。【保证100%免费】🆓

CSDN粉丝独家福利

这份完整版的 AI 大模型学习资料已经上传CSDN，朋友们如果需要可以扫描下方二维码&点击下方CSDN官方认证链接免费领取 【保证100%免费】

读者福利： 👉👉CSDN大礼包：《最新AI大模型学习资源包》免费分享 👈👈

（👆👆👆安全链接，放心点击）

对于0基础小白入门：

如果你是零基础小白，想快速入门大模型是可以考虑的。

一方面是学习时间相对较短，学习内容更全面更集中。
二方面是可以根据这些资料规划好学习计划和方向。

👉1.大模型入门学习思维导图👈

要学习一门新的技术，作为新手一定要先学习成长路线图，方向不对，努力白费。

对于从来没有接触过AI大模型的同学，我们帮你准备了详细的学习成长路线图&学习规划。可以说是最科学最系统的学习路线，大家跟着这个大的方向学习准没问题。（全套教程文末领取哈）
在这里插入图片描述

👉2.AGI大模型配套视频👈

很多朋友都不喜欢晦涩的文字，我也为大家准备了视频教程，每个章节都是当前板块的精华浓缩。

在这里插入图片描述

👉3.大模型实际应用报告合集👈

这套包含640份报告的合集，涵盖了AI大模型的理论研究、技术实现、行业应用等多个方面。无论您是科研人员、工程师，还是对AI大模型感兴趣的爱好者，这套报告合集都将为您提供宝贵的信息和启示。（全套教程文末领取哈）

在这里插入图片描述

👉4.大模型落地应用案例PPT👈

光学理论是没用的，要学会跟着一起做，要动手实操，才能将自己的所学运用到实际当中去，这时候可以搞点实战案例来学习。（全套教程文末领取哈）

在这里插入图片描述

👉5.大模型经典学习电子书👈

随着人工智能技术的飞速发展，AI大模型已经成为了当今科技领域的一大热点。这些大型预训练模型，如GPT-3、BERT、XLNet等，以其强大的语言理解和生成能力，正在改变我们对人工智能的认识。那以下这些PDF籍就是非常不错的学习资源。（全套教程文末领取哈）

在这里插入图片描述

👉6.大模型面试题&答案👈

截至目前大模型已经超过200个，在大模型纵横的时代，不仅大模型技术越来越卷，就连大模型相关的岗位和面试也开始越来越卷了。为了让大家更容易上车大模型算法赛道，我总结了大模型常考的面试题。（全套教程文末领取哈）

在这里插入图片描述
👉学会后的收获：👈
• 基于大模型全栈工程实现（前端、后端、产品经理、设计、数据分析等），通过这门课可获得不同能力；

• 能够利用大模型解决相关实际项目需求：大数据时代，越来越多的企业和机构需要处理海量数据，利用大模型技术可以更好地处理这些数据，提高数据分析和决策的准确性。因此，掌握大模型应用开发技能，可以让程序员更好地应对实际项目需求；

• 基于大模型和企业数据AI应用开发，实现大模型理论、掌握GPU算力、硬件、LangChain开发框架和项目实战技能，学会Fine-tuning垂直训练大模型（数据准备、数据蒸馏、大模型部署）一站式掌握；

• 能够完成时下热门大模型垂直领域模型训练能力，提高程序员的编码能力：大模型应用开发需要掌握机器学习算法、深度学习

CSDN粉丝独家福利

这份完整版的 AI 大模型学习资料已经上传CSDN，朋友们如果需要可以扫描下方二维码&点击下方CSDN官方认证链接免费领取 【保证100%免费】

读者福利： 👉👉CSDN大礼包：《最新AI大模型学习资源包》免费分享 👈👈

（👆👆👆安全链接，放心点击）

火山引擎 ADG 社区

火山引擎开发者社区是火山引擎打造的AI技术生态平台，聚焦Agent与大模型开发，提供豆包系列模型（图像/视频/视觉）、智能分析与会话工具，并配套评测集、动手实验室及行业案例库。社区通过技术沙龙、挑战赛等活动促进开发者成长，新用户可领50万Tokens权益，助力构建智能应用。

更多推荐

OpenClaw 本地部署完整指南（Windows + Ollama）

本文档基于实际部署经验编写，旨在帮助你在 Windows 系统上从零开始搭建 OpenClaw，并连接本地 Ollama 模型（如 Qwen2.5 或 Qwen3），使其具备完整的智能体能力。文档包含了所有关键步骤以及常见问题的解决方案。

火山引擎 ADG 社区

OpenClaw 小白安装指南（Windows版）

（类似一个能自动执行任务的AI机器人），不是游戏。API Key只保存在你本地电脑的加密文件里，不会上传到任何地方。访问：https://github.com/miaoxworld/openclaw-manager/releases。: 一键安装脚本会自动安装Node.js 22+，如果失败，手动下载安装：https://nodejs.org/：在PowerShell中，鼠标右键就是粘贴，不需要按

火山引擎 ADG 社区

飞书 × OpenClaw 接入指南：不用服务器，用长连接把机器人跑起来

这个项目存在的意义，就是把“飞书接 OpenClaw”这件事，整理成一套的配置入口，并把官方文档没覆盖到的坑集中写成排查清单。先说清楚它的角色：OpenClaw 现在已经内置官方飞书插件 @openclaw/feishu，功能更完整、维护也更及时。，说明飞书 + AI 的接入已经走通。另外，仓库也推荐了一个新项目：把 OpenClaw 变成“多 Agent 团队”，用多个 Agent 分工，Sla