大模型竟学会‘算命’?看它如何预知未来!
《Time-R1:基于大语言模型的"慢思考"时间序列预测框架》 摘要:中科大研究团队提出Time-R1创新框架,将"慢思考"推理能力引入时间序列预测。该框架通过两阶段训练:1)监督微调构建结构化思维链;2)强化学习优化多目标奖励。关键创新GRIP策略结合非均匀采样和自适应加权,显著提升模型在ETT、Exchange等数据集上的预测性能,尤其在跨领域场景展现更
时间序列预测现有方法大多遵循"快速思考"的通用范式——模型聚焦于单步预测精度,通常通过序列模型编码历史数值,并采用单步解码直接将过去观测映射到未来值。尽管在多项基准测试中表现优异,但这些方法的底层逻辑主要依赖模式识别与趋势外推,缺乏明确的推理过程。在现实场景中,时间序列往往蕴含更复杂的时序逻辑,这些现象不应仅仅被“拟合”——更应被理解和推理。
为此,来自中科大的研究者提出 Time-R1,一种基于大语言模型(LLM)的全新时间序列预测框架,首次将“慢思考”推理能力引入时间序列预测任务。其核心思想是利用 LLM 的生成能力,将预测问题建模为一个逐步理解与推理的任务。在多个主流公开基准数据集上的大量实验表明,Time-R1 具有卓越性能。

【论文标题】
Time Series Forecasting as Reasoning:A Slow-Thinking Approach with Reinforced LLMs
【论文地址】
https://arxiv.org/abs/2506.10630
【论文源码】
https://github.com/lqzxt/Time-R1
一、论文背景
时间序列预测(TSF)是数据科学领域的关键任务,广泛应用于金融市场分析、能源需求规划和工业预测性维护等场景。现有方法大多遵循“快速思考”范式,即通过编码历史观测并直接解码生成未来值,强调逐点预测精度。尽管这类方法在标准基准中表现良好,但其核心机制仍存在三方面限制:
-
推理能力不足:多数模型依赖统计模式匹配与趋势外推,缺乏对复杂时序逻辑的深入理解与建模;
-
泛化性能有限:模型在训练数据分布内表现良好,但在面对分布外场景(如突发政策变化或异常天气)时预测稳定性显著下降;
-
知识对齐缺失:通用语言模型中的语义知识难以准确匹配时间序列中的动态特征与因果关系。
为此,本文提出 Time-R1,一种基于大语言模型的全新时间序列预测框架,首次将“慢思考”推理能力引入时间序列预测任务。其核心创新在于将预测过程重构为一个逐步推理与多模态理解的任务,引导模型不仅“看到”趋势,更“理解”背后的时序逻辑。具体包括以下关键技术:
-
合成推理轨迹构建:利用领域知识生成结构化的时间分析路径,作为监督微调阶段的思维链(CoT),提升模型对复杂时序行为的理解能力;
-
两阶段强化微调策略(RFT):
-
-
第一阶段采用基于CoT的监督微调(SFT),使模型掌握结构化输出格式与基础推理逻辑;
-
第二阶段引入细粒度、多目标的强化学习奖励信号,优化模型在时间一致性、多步预测准确性及领域原则对齐方面的能力;
-
-
-
GRIP策略优化器:提出Group-based Relative Importance for Policy Optimization(GRIP)方法,通过均匀采样策略与自适应权重分配,增强推理路径的鲁棒性与可解释性。
实验表明,Time-R1 在多个真实世界时间序列数据集上均优于传统深度学习模型(如Transformer、TCN)以及当前主流的 LLM-based 预测方法(如TimeLLM),尤其在跨领域与分布外预测任务中展现出更强的稳定性和泛化能力。
二、Time-R1
Time-R1 提出了一种全新的时间序列预测(Time Series Forecasting, TSF)框架,将预测任务重新定义为一个基于大语言模型的推理生成任务(reasoning-based forecasting task),而非传统的“快速思考”范式。其核心思想是利用时间序列的历史观测与结构化推理指令,通过 LLM 进行多步推理,并逐步生成未来时间点的预测结果。

01、问题定义
设 为一个时间序列数据集,其中每个样本 表示一个具有 个时间步和 个通道的多元时间序列, 表示在未来 个时间步上的 维目标变量。预测任务旨在学习一个映射函数 ,以捕捉数据集 中的时间依赖关系。在 Time-R1 框架下,使用提示模板 进行预测的过程定义为:
其中 是大语言模型生成的文本输出, 将其解析为数值预测结果 。
这份完整版的大模型 AI 学习资料已经上传CSDN,朋友们如果需要可以微信扫描下方CSDN官方认证二维码免费领取【保证100%免费】

02、训练模版
训练模板采用一种指令式框架,在编码任务知识时标准化输入,包含五个部分:(1) 任务定义——明确目标与问题范围;(2) 数据集描述——说明时间特性与应用场景;(3) 通道信息——定义输入信号类型;(4) 测试数据——提供时间戳与历史序列;(5) 格式指令——规定输出模板。该设计融合领域知识与结构约束,减少推理时的格式歧义。

03、阶段一:预热适配的监督微调
为了避免直接对大语言模型进行强化学习导致的语言可读性下降和收敛速度变慢(尤其是格式不一致引起的问题),研究者收集数据对 LLM 进行了单轮监督微调,以预热模型。这一简单的预热微调步骤旨在稳定训练过程、确保输出格式正确,并赋予模型初步的推理能力,而不必完全发展出复杂的时间序列理解能力。
数据收集包含三个关键步骤:
1. 利用 DeepSeek-R1,在严格的格式规范指导下,基于输入的历史时间序列数据生成预测结果;
2. 通过结合真实标签与上一步生成的高质量思维链(CoT),引导 DeepSeek-R1 合成修正后的 CoT,使其逻辑上导向正确结果;
3. 将优化后的 CoT 与真实预测值拼接,并使用<answer>标签标注最终答案,构建结构化 SFT 训练数据。
04、阶段二:基于强化学习的推理模式探索
在完成热身阶段的监督微调(SFT)后,研究者进一步采用强化学习(RL)对模型进行微调,以提升其推理能力,并使模型具备“慢思考”机制,从而更好地进行时间序列预测。研究者提出了 GRIP(Group-based Relative Importance for Policy Optimization),一种面向大语言模型时间序列预测任务的强化学习优化方法。
GRIP 的目标函数在一个策略梯度框架中融合了非均匀采样策略与自适应轨迹加权机制。以下将介绍其核心组成部分:(1) GRIP 目标函数形式化;(2) 平衡探索与利用的非均匀采样策略;(3) 增强高质量推理路径梯度信号的自适应加权机制。最后,还介绍了为时间序列预测(TSF)定制设计的多目标奖励函数。

(1)GRIP 目标函数的形式化
GRIP 将上述两个关键设计整合进统一的策略梯度框架中,其目标函数如下:

其中:
-
和 是超参数;
-
是参考模型,通常初始化为 RL 训练前的预训练模型;
-
是组内优势值;
-
是轨迹的自适应权重;
-
是 KL 散度项,用于正则化训练过程。
该目标函数通过非均匀采样和自适应加权,在探索与利用之间取得平衡,并缓解梯度稀释问题。
(2)非均匀采样策略
为提升时间序列建模中的推理与预测能力,GRIP 引入了非均匀采样策略:
-
局部随机采样:对每个输入问题 ,从旧策略生成 条输出轨迹,选取奖励最高的作为精英样本,重复 次构建更新集。
-
基于聚类的随机采样:生成 条轨迹并按奖励聚类,再从各簇中随机采样 条,兼顾多样性与质量。
该策略在保持计算效率的同时,增强了对高奖励区域的关注。
(3)自适应加权机制
传统方法对所有轨迹等权重加权,易受低质量样本干扰。GRIP 使用 softmax 对每条轨迹分配权重:
其中 可灵活设置(如设为奖励值 )。该机制有效增强高质量轨迹的梯度贡献,抑制噪声影响。
(4)奖励函数设计
为了更有效地利用强化学习来优化“慢思考”时间序列预测过程,设计了一系列细粒度、多目标的奖励函数,旨在提升模型在预测准确性、推理逻辑和输出结构等方面的表现。
首先,在格式方面,设置了格式奖励,用于确保生成的输出符合预设的结构规范,如正确使用标记和完整表达;同时引入长度奖励,鼓励模型生成与真实结果长度相近的预测序列,以提升完整性。
其次,在预测质量方面,定义了基于准确率的奖励。其中包括对预测值与真实值之间均方误差的评估,并通过非线性变换映射为奖励信号;还将时间序列分解为季节性和趋势成分计算奖励,分别评估其匹配程度,从而引导模型更好地捕捉时序中的周期与长期变化模式。
最后,引入结构相似性奖励,通过检测预测结果与真实标签中的极值点(如波峰和波谷)是否匹配,来衡量模型对关键变化点的捕捉能力,从而增强预测结果的可解释性和结构性。
最终的强化学习训练目标是综合上述各类奖励的加权和,使模型在探索合理推理路径的同时,兼顾预测精度与输出质量。
实验评估
为了在多样化的场景中进行全面评估,在涵盖不同领域的九个数据集上进行了实验,这些数据集具有独特的时序特征和数据属性,其中包括ETT(电力负荷)、Exchange(外汇汇率)、Wind(风力测量)、AQ(空气质量),以及NASDAQ(股票市场)。
基线方法包括一系列竞争模型:PatchTST、iTransformer 和 TimeXer等。此外,还纳入了基于大语言模型的方法作为对比,如CrossTimeNet、GPT4TS、TimeLLM。 比较了 DeepSeek-R1,用于零样本学习场景。通过这种方式,可以验证所提出方法在跨领域迁移能力上的表现。结果如下:

传统方法如 PatchTST、DLinear 和 iTransformer 依赖“快速思考”范式,难以建模复杂时序依赖和高层推理。LLM 基线如 TimeLLM 虽利用大模型的推理能力提升了预测表现,但仍将预测视为直接生成任务,缺乏显式的逐步推理过程,易产生逻辑不一致的结果。相比之下,Time-R1 采用两阶段优化框架,不仅显著提升整体预测性能,还在零样本和分布外场景中展现出更强的泛化能力,可作为通用时间序列基础模型。
下表探索了不同组件的消融实验:

可以看到阶段二的强化学习显著提升模型预测能力,Reward 的每个部分都有正向贡献。
探究了以下对比实验:

(a) GRIP 与 GRPO 对比:GRIP 收敛更快,最终性能略优。
(b) 强化学习(RL)与预热微调+强化学习(SFT+RL)对比:SFT+RL 初期收敛更快,最终性能更佳。
(c) 基础模型与指令微调模型对比:指令模型早期奖励增长更快,但基础模型最终奖励更高。
(d) 模型规模影响:更大模型展现出更陡峭的奖励提升曲线。
最后可视化了 LLM 的输出示例:

发现两阶段训练生成的思考轨迹和最终结果都优于单个阶段的训练。
综上通过消融分析、对比实验、可视化验证了 Time-R1 的有效性,并为时间序列预测提供了新思路。
结语
在本工作中,研究者提出了 Time-R1,一种生成式时间序列预测框架,使大语言模型(LLMs)能够通过有意识的推理过程提升预测性能。通过引入“慢思考”范式,训练模型在输出最终预测前生成可解释的中间推理步骤,从而在时间序列预测任务中达到先进水平。
研究者提出了一种两阶段的训练框架(RFT):第一阶段基于合成推理数据进行思维链引导的监督微调,赋予模型多步时序分析能力;第二阶段引入一种新颖的强化学习机制,并结合为时间序列预测定制设计的多目标、细粒度奖励信号。特别地,研究者提出了 GRIP(基于组的策略优化相对重要性)方法,通过非均匀采样机制优化推理路径,进一步提升预测准确性。此外,开源训练代码为研究社区和社会提供了一个实用的时间序列推理解决方案,使更多研究者能够从中受益并推动相关领域的发展。
三、 大模型&AI产品经理如何学习
求大家的点赞和收藏,我花2万买的大模型学习资料免费共享给你们,来看看有哪些东西。
这份完整版的大模型 AI 学习资料已经上传CSDN,朋友们如果需要可以微信扫描下方CSDN官方认证二维码免费领取【保证100%免费】
1.学习路线图

第一阶段: 从大模型系统设计入手,讲解大模型的主要方法;
第二阶段: 在通过大模型提示词工程从Prompts角度入手更好发挥模型的作用;
第三阶段: 大模型平台应用开发借助阿里云PAI平台构建电商领域虚拟试衣系统;
第四阶段: 大模型知识库应用开发以LangChain框架为例,构建物流行业咨询智能问答系统;
第五阶段: 大模型微调开发借助以大健康、新零售、新媒体领域构建适合当前领域大模型;
第六阶段: 以SD多模态大模型为主,搭建了文生图小程序案例;
第七阶段: 以大模型平台应用与开发为主,通过星火大模型,文心大模型等成熟大模型构建大模型行业应用。
2.视频教程
网上虽然也有很多的学习资源,但基本上都残缺不全的,这是我自己整理的大模型视频教程,上面路线图的每一个知识点,我都有配套的视频讲解。


(都打包成一块的了,不能一一展开,总共300多集)
因篇幅有限,仅展示部分资料,需要点击下方图片前往获取
3.技术文档和电子书
这里主要整理了大模型相关PDF书籍、行业报告、文档,有几百本,都是目前行业最新的。

4.LLM面试题和面经合集
这里主要整理了行业目前最新的大模型面试题和各种大厂offer面经合集。

👉学会后的收获:👈
• 基于大模型全栈工程实现(前端、后端、产品经理、设计、数据分析等),通过这门课可获得不同能力;
• 能够利用大模型解决相关实际项目需求: 大数据时代,越来越多的企业和机构需要处理海量数据,利用大模型技术可以更好地处理这些数据,提高数据分析和决策的准确性。因此,掌握大模型应用开发技能,可以让程序员更好地应对实际项目需求;
• 基于大模型和企业数据AI应用开发,实现大模型理论、掌握GPU算力、硬件、LangChain开发框架和项目实战技能, 学会Fine-tuning垂直训练大模型(数据准备、数据蒸馏、大模型部署)一站式掌握;
• 能够完成时下热门大模型垂直领域模型训练能力,提高程序员的编码能力: 大模型应用开发需要掌握机器学习算法、深度学习框架等技术,这些技术的掌握可以提高程序员的编码能力和分析能力,让程序员更加熟练地编写高质量的代码。

1.AI大模型学习路线图
2.100套AI大模型商业化落地方案
3.100集大模型视频教程
4.200本大模型PDF书籍
5.LLM面试题合集
6.AI产品经理资源合集***
👉获取方式:
😝有需要的小伙伴,可以保存图片到wx扫描二v码免费领取【保证100%免费】🆓

火山引擎开发者社区是火山引擎打造的AI技术生态平台,聚焦Agent与大模型开发,提供豆包系列模型(图像/视频/视觉)、智能分析与会话工具,并配套评测集、动手实验室及行业案例库。社区通过技术沙龙、挑战赛等活动促进开发者成长,新用户可领50万Tokens权益,助力构建智能应用。
更多推荐
所有评论(0)