最新开源:Dispider 实现视频LLMs的主动实时交互!又一个媲美 o1 的“开源推理模型”来了!
论文链接:__项目地址:_Dispider 是一个新型的视频大语言模型(Video LLM),通过解耦的感知(Perception)、决策(Decision)和反应(Reaction)这三个模块,实现了与视频的实时交互。与传统的离线视频处理方法不同,Dispider 能够在视频流中提供连续和及时的反馈,适用于需要实时响应的场景。感知:实时视频监控和交互捕捉。决策:在适当的情况下提高主动互动。反应:
0****1
Dispider:新型视频大模型,实现视频LLMs的主动实时交互
Dispider

-
_论文链接:_https://arxiv.org/abs/2501.03218
-
_项目地址:_https://github.com/Mark12Ding/Dispider
Dispider 是一个新型的视频大语言模型(Video LLM),通过解耦的感知(Perception)、决策(Decision)和反应(Reaction)这三个模块,实现了与视频的实时交互。与传统的离线视频处理方法不同,Dispider 能够在视频流中提供连续和及时的反馈,适用于需要实时响应的场景。
-
感知:实时视频监控和交互捕捉。
-
决策:在适当的情况下提高主动互动。
-
反应:与用户持续互动。

论文使用一系列基准测试来评估 Dispider 在不同方面的长视频QA和流视频理解能力。
-
StreamingBench:用于评估多模态大型语言模型(MLLMs)流视频理解的最新全面基准测试。
-
ETBench子集:衡量模型在实时视频交互中的主动响应能力。
-
长视频QA基准测试:包括 EgoSchema、VideoMME 和 MLVU。
-
流视频理解(Streaming Video Understanding):评估 Dispider 在流视频交互中的性能,强调其处理实时输入和动态响应的能力。
-
传统视频理解(Conventional Video Understanding):将 Dispider 与传统视频LLMs在常规视频QA基准测试中进行比较,其中模型需要在观看完整视频后提供一个答案。

StreamingBench 评估流视频理解能力

长视频QA基准测试,ETBench实时视频交互
左右滑动查看更多
实验表明,Dispider 不仅在常规视频 QA 任务中保持了强大的性能,而且在流式场景响应方面也明显超越了以前的在线模型,从而验证了架构的有效性。
0****2
Sky-T1-32B-Preview:又一个媲美 o1 的“开源推理模型”,训练成本不到 450 美元
Sky-T1-32B-Preview 是一个32B参数的推理模型,由 UC Berkeley的Sky Computing Lab 的 NovaSky 团队开发。该模型从 Qwen2.5-32B-Instruct 训练而来,使用了 17K 数据,性能与 OpenAI 早期版本的 o1-preview 模型在数学和编程任务上相当。
NovaSky 团队在博客中透露,Sky-T1-32B-Preview 的训练成本不到 450 美元,远低于以往同类模型的数百万美元。
NovaSky 团队利用阿里巴巴的 QwQ-32B-Preview 模型,生成了Sky-T1-32B-Preview 的初始训练数据,随后“整理”数据混合,并利用 OpenAI 的 GPT-4o-mini 将数据重构为更易用的格式,最终形成了可用的训练集。使用 8 个 Nvidia H100 GPU 机架训练 320 亿参数的 Sky-T1-32B-Preview 模型,大约需要 19 个小时。
在性能方面,Sky-T1 在 MATH500(一组“竞赛级”数学挑战)上的表现优于 o1 的早期预览版本,同时在 LiveCodeBench 的编程评估中也表现更佳。
然而,在 GPQA-Diamond 测试中(包含物理学、生物学和化学领域的研究生水平问题),Sky-T1 略逊于 o1 预览版。

值得注意的是,Sky-T1-32B-Preview 似乎是首个真正意义上的开源推理模型,其训练数据集和代码均已公开,用户可以从零开始复现该模型。

0****3
英伟达开源文生图模型 Sana,笔记本电脑也能秒速生成4K超高清图像
Sana

-
_体验地址:_https://nv-sana.mit.edu/
-
_论文地址:_https://arxiv.org/pdf/2410.10629
-
_Github地址:_https://github.com/NVlabs/Sana
Sana 是一个高效的文本到图像生成框架,能够生成高达 4096×4096 分辨率的图像,而且速度惊人,甚至可以在笔记本电脑的 GPU 上运行。该项目通过使用线性注意力机制和仅解码器的文本编码器,实现了高质量的图像合成和强大的文本-图像对齐。
Sana 的核心设计包括:
-
深度压缩自编码器:引入的全新自编码器(AE),大幅将缩放因子提高至32倍。
-
高效线性DiT(Diffusion Transformer):线性DiT在此替换了传统的二次注意力机制,将计算复杂度从O(N²)降低到O(N)。此外,Sana 还采用了 Mix-FFN,将3x3深度卷积整合到 MLP 中,增强了token的局部信息。
-
基于仅解码器「小语言模型」的文本编码器:使用了Gemma(仅解码器LLM)作为文本编码器,替代了以往常用的 CLIP 或 T5,以增强对提示词的理解和推理能力。
-
高效的训练和采样策略:Sana 采用了 Flow-DPM-Solver 来减少采样步骤,并使用高效的标题标注和选择方法来加速模型收敛。Sana-0.6B 模型比大型扩散模型(如 Flux-12B)小 20 倍,速度快 100 多倍。

Sana 的性能表现非常出色。如下表7中,将 Sana 与当前最先进的文本生成图像扩散模型进行了比较。
-
对于 512×512 分辨率:Sana-0.6B 的吞吐量比具有相似模型大小的 PixArt-Σ 快 5 倍;在 FID、Clip Score、GenEval 和 DPG-Bench 等方面,Sana-0.6B 显著优于PixArt-Σ。
-
对于 1024×1024 分辨率:Sana 比大多数参数量少于 3B 的模型性能强得多;在推理延迟方面表现尤为出色。
-
与最先进的大型模型 FLUX-dev 的比较:在 DPG-Bench 上,准确率相当;在GenEval 上,性能略低;然而,Sana-0.6B 的吞吐量快 39 倍,Sana-1.6B 快 23 倍。

Sana-0.6B 可以在 16GB 笔记本电脑 GPU 上部署,生成 1024×1024 分辨率的图像仅需不到 1 秒。
对于4K 图像生成,Sana-0.6B 的吞吐量比最先进的方法(FLUX)快 100 倍以上。
Sana 不仅在速度上取得了突破,在图像质量方面也具有竞争力,即使是复杂的场景,如文字渲染和物体细节,Sana 的表现也令人满意。

如何学习AI大模型 ?
“最先掌握AI的人,将会比较晚掌握AI的人有竞争优势”。
这句话,放在计算机、互联网、移动互联网的开局时期,都是一样的道理。
我在一线互联网企业工作十余年里,指导过不少同行后辈。帮助很多人得到了学习和成长。
我意识到有很多经验和知识值得分享给大家,故此将并将重要的AI大模型资料包括AI大模型入门学习思维导图、精品AI大模型学习书籍手册、视频教程、实战学习等录播视频免费分享出来。【保证100%免费】🆓
CSDN粉丝独家福利
这份完整版的 AI 大模型学习资料已经上传CSDN,朋友们如果需要可以扫描下方二维码&点击下方CSDN官方认证链接免费领取 【保证100%免费】
读者福利: 👉👉CSDN大礼包:《最新AI大模型学习资源包》免费分享 👈👈
对于0基础小白入门:
如果你是零基础小白,想快速入门大模型是可以考虑的。
一方面是学习时间相对较短,学习内容更全面更集中。
二方面是可以根据这些资料规划好学习计划和方向。
👉1.大模型入门学习思维导图👈
要学习一门新的技术,作为新手一定要先学习成长路线图,方向不对,努力白费。
对于从来没有接触过AI大模型的同学,我们帮你准备了详细的学习成长路线图&学习规划。可以说是最科学最系统的学习路线,大家跟着这个大的方向学习准没问题。(全套教程文末领取哈)
👉2.AGI大模型配套视频👈
很多朋友都不喜欢晦涩的文字,我也为大家准备了视频教程,每个章节都是当前板块的精华浓缩。


👉3.大模型实际应用报告合集👈
这套包含640份报告的合集,涵盖了AI大模型的理论研究、技术实现、行业应用等多个方面。无论您是科研人员、工程师,还是对AI大模型感兴趣的爱好者,这套报告合集都将为您提供宝贵的信息和启示。(全套教程文末领取哈)

👉4.大模型落地应用案例PPT👈
光学理论是没用的,要学会跟着一起做,要动手实操,才能将自己的所学运用到实际当中去,这时候可以搞点实战案例来学习。(全套教程文末领取哈)

👉5.大模型经典学习电子书👈
随着人工智能技术的飞速发展,AI大模型已经成为了当今科技领域的一大热点。这些大型预训练模型,如GPT-3、BERT、XLNet等,以其强大的语言理解和生成能力,正在改变我们对人工智能的认识。 那以下这些PDF籍就是非常不错的学习资源。(全套教程文末领取哈)

👉6.大模型面试题&答案👈
截至目前大模型已经超过200个,在大模型纵横的时代,不仅大模型技术越来越卷,就连大模型相关的岗位和面试也开始越来越卷了。为了让大家更容易上车大模型算法赛道,我总结了大模型常考的面试题。(全套教程文末领取哈)

👉学会后的收获:👈
• 基于大模型全栈工程实现(前端、后端、产品经理、设计、数据分析等),通过这门课可获得不同能力;
• 能够利用大模型解决相关实际项目需求: 大数据时代,越来越多的企业和机构需要处理海量数据,利用大模型技术可以更好地处理这些数据,提高数据分析和决策的准确性。因此,掌握大模型应用开发技能,可以让程序员更好地应对实际项目需求;
• 基于大模型和企业数据AI应用开发,实现大模型理论、掌握GPU算力、硬件、LangChain开发框架和项目实战技能, 学会Fine-tuning垂直训练大模型(数据准备、数据蒸馏、大模型部署)一站式掌握;
• 能够完成时下热门大模型垂直领域模型训练能力,提高程序员的编码能力: 大模型应用开发需要掌握机器学习算法、深度学习
CSDN粉丝独家福利
这份完整版的 AI 大模型学习资料已经上传CSDN,朋友们如果需要可以扫描下方二维码&点击下方CSDN官方认证链接免费领取 【保证100%免费】
读者福利: 👉👉CSDN大礼包:《最新AI大模型学习资源包》免费分享 👈👈
火山引擎开发者社区是火山引擎打造的AI技术生态平台,聚焦Agent与大模型开发,提供豆包系列模型(图像/视频/视觉)、智能分析与会话工具,并配套评测集、动手实验室及行业案例库。社区通过技术沙龙、挑战赛等活动促进开发者成长,新用户可领50万Tokens权益,助力构建智能应用。
更多推荐
所有评论(0)