你的位置：开云·kaiyun(中国)官方网站登录入口 > 资讯 > 体育游戏app平台大幅度最初上述4款推理模子-开云·kaiyun(中国)官方网站登录入口

体育游戏app平台大幅度最初上述4款推理模子-开云·kaiyun(中国)官方网站登录入口

时间：2025-09-25 06:49 点击：150 次

智东西

作家 | 陈骏达

编著 | 云鹏

好意思团龙猫大模子，现时会想考了！

智东西9月22日报谈，最近，好意思团在AI开源赛谈上在猛踩加快。今天，在开源其首款诳言语模子只是24天后，好意思团又开源了其首款自研推理模子LongCat-Flash-Thinking。

与其基础模子LongCat-Flash近似，成果亦然LongCat-Flash-Thinking的最大特色。好意思团在时期讲解中高慢，LongCat-Flash-Thinking在自研的DORA强化学习基础设施完成考试，平直将考试速率擢升到正本的3倍还多，增幅特出200%。该模子重心优化了表情推理和Agent推理任务，使用器具后推理成果很高，举例，可将AIME-25基准测试中的平均token销耗减少64.5%。

LongCat-Flash-Thinking在多领域基准测试中推崇出不俗的实力：

在通用问答、数学推理、通用推理的关联测试中，它和GPT-5-Thinking、Gemini2.5-Pro、DeepSeek-V3.1-Thinking、Qwen3-235B-A22B-Thinking-2507等基本打平；

LongCat-Flash-Thinking还在安全、表情化定理证明注解等领域的多项基准测试中，大幅度最初上述4款推理模子，并在巨擘Agent器具调用基准测试τ²-Bench中，超越除了GPT-5-Thinking外的悉数参评模子。

现时，LongCat-Flash-Thinking模子仍是开源至GitHub、Hugging Face等平台，关联时期讲解也同期发布，用户也可在体验勾通中平直使用。不外，在本色体验中，模子推理和汇报长度通常会超出体验勾通里的扫尾，导致谜底不竣工。

开源地址：

https://huggingface.co/meituan-longcat/LongCat-Flash-Thinking

https://github.com/meituan-longcat/LongCat-Flash-Thinking

体验勾通：

https://longcat.chat/

一、靠课程学习冉冉构建智力，Agent和表情化推奢睿力获补强

在模子预考试阶段，LongCat团队罗致了课程学习的样式，让模子先打基础，再专项挫折，最终构建出遮蔽广度与深度的推奢睿力。

LongCat-Flash-Thinking是在LongCat-Flash的基础上考试而来的，阅历了推理增强的中期考试（Mid-training）和面向推理的有监督微调（SFT）。

研究团队异常构建了一个高难度的推理考试集，涵盖数学、物理、化学及编程问题，并通过数据比例戒指，确保模子既能强化逻辑推理，又不丢失通用智力。

实验标明，这一阶段显赫拓宽了模子的“推理领域”：在AIME、BeyondAIME和LiveCodeBench等基准上，单步准确率和高采样准确率均有大幅擢升。

进入SFT微调阶段，LongCat-Flash-Thinking的提示投诚和专科领域推奢睿力得到进一步擢升。这一才略异常强调三大标的：

1、一般推理：LongCat团队整合跨学科高质料问题与谜底，涵盖STEM、编程、通用问答以及逻辑推理，诓骗拒却采样与模子评审保证考试数据的准确性和挑战性。

2、表情化推理：该团队还狡计了一套全新的基于群众迭代框架的数据合成步调，诓骗集成了Lean4做事器的群众迭代框架，生成经过严格考据的证明注解过程，从而系统性擢升模子的表情化推奢睿力。

3、Agentic推理：LongCat团队提议了立异性的“双旅途推理框架”。该框架或者比较模子在“有器具”和“无器具”要求下的推崇，筛选出仅依赖器具才能惩处的高质料问题。

随后，系统自动合成各样化的解题轨迹，勤俭单调用到复杂多步历程，并通过严格评审确保逻辑一致性和器具使用竣工性。最终，轨迹被圭臬化并按复杂度分层，用于课程考试，匡助模子在简直场景中更好地学习和发展持重的器具使用智力。

这种中期考试、推理微调的两段式体系，匡助LongCat-Flash-Thinking在推理任务中兑现性能擢升，也为后续的强化学习作念好准备。

二、三管皆下优化强化学习，自研DORA框架提效超200%

强化学习中，LongCat-Flash-Thinking罗致了一套“三管皆下”的决议，从系统、算法和奖励的角度，擢升强化学习的成果和结识性。

在系统狡计中，LongCat团队构建了名为DORA的分散式RL框架，这是RL考试的基石。DORA因循异步考试与生动的加快器休养，既保证结识性，又擢升成果。

DORA通过流式架构让已完成的反映立即进入考试，而不会被最长输出拖慢；通过多版块计谋保证归并反映由归并模子版块完成，幸免推理片断间的不一致；再结合弹性变装彩度，让不同算力成立可生动切换变装，兑现近乎零闲置。

这一机制在大领域算力集群上展现了较高的成果：在数万张加快卡上，LongCat-Flash的RL考试速率达到传统同步样式的3倍以上，FLOPs（Floating Point Operations，浮点运算数）的参加约为预考试阶段的20%。

算法层面，团队则对经典的PPO步调进行转变。异步考试常因推理引擎与考试引擎的数值各异，或因旧版块计营生成的数据过多而导致模子管理不稳。

为此，研究东谈主员引入了截断弥留性采样来缓解引擎各异带来的裂缝，并狡计了剪辑机制，对正负样天职别设立不同阈值。这些细节休养，大大提高了推理任务下的结识性。

奖励机制是RL的标的盘。关于写稿、问答等无法平直考据的任务，团队考试了判别式奖励模子，基于东谈主机衔接标注数据，学会判断优劣偏好。

而在数学与编程等可考据场景，则引入了生成式奖励模子（GenRM），它不仅能判断对错，还能给出推理链路，作念到有理有据。在编程任务中，团队还搭建了分散式沙箱系统，因循数百万次并发代码践诺，遮蔽20多种编程话语。

临了，LongCat团队提议了一个三阶段的考试配方：领域平行考试、模子交融、通用RL微调。LongCat团队先差异考试数学、编程、智能体等群众模子，再通过参数交融时期合并为协调大模子，临了用各样化数据进行通用微调，幸免交融后的性能退化，确保安全性、泛化性和实用性。

▲交融后的模子性能优于群众模子

三、MATH-500得分接近满分，用上器具后性价比更高

LongCat-Flash-Thinking在多领域的基准测试中推崇出色。

在通用智力上，LongCat-Flash-Thinking在MMLU-Redux上拿下89.3%的收获，与业内多款顶级开源模子处在归并水准，但与OpenAI-o3比较仍有差距。

数学推理是该模子的亮点之一。其在MATH-500中得回99.2%的高分，简直达到满分水平。在更具挑战性的AIME与HMMT等竞赛级任务中，雷同展现出接近甚而超越GPT-5与Qwen3的推崇，突显其复杂多步推理的庞杂智力。

在逻辑与一般推理方面，该模子在ARC-AGI上达到50.3%，特出了OpenAI-o3与Gemini 2.5-Pro。同期，它在解谜任务ZebraLogic上得分高达95.5%，并在数独测试Sudoku-Bench上远超大部分模子，高慢出较强的结构化推奢睿力。

编程智力方面，LongCat-Flash-Thinking在动态编程测试LiveCodeBench中得回79.4%的分数，紧追GPT-5，远超开源同类模子。

值得防御的是，LongCat-Flash-Thinking模子在器具增强推奢睿力上推崇出色。举例，它在模拟预定飞机票的τ²-Bench-Airline中，兑现67.5%的最好收获，并在SWE-Bench、BFCL等任务上保握较强的竞争力。

启用外部器具后，其在AIME-25基准测试中的准确率保握不变，但平均token销耗减少近65%，考据了智能体系统在成果与性能间兑现均衡。

在定理证明注解领域，LongCat-Flash-Thinking在MiniF2F测试中得分达67.6%，比次优模子进步18%，奠定了其在表情化数学推理上的最初地位。

临了，在安全性上，LongCat-Flash-Thinking在无益内容、罪犯、缺欠信息及狡饰四类风险测试中均拿下安全性最高分。

结语：切入简直场景，好意思团探索推理大模子落地旅途

LongCat团队称，凭借LongCat-Flash-Thinking的开源，他们但愿进一步鼓励高效RL考试、原生Agent推理等方面的研究。

从论文的时期细节中，咱们也能看到，LongCat有针对性地擢升了模子在器具使用、提示投诚和安全性等方面的推崇。

结合好意思团最近在面向消费者的Agent产物、AI搜索产物等领域的动态，不难预感体育游戏app平台，这些新模子或将针对性地做事于好意思团自己业务，带来更智能的用户体验。

体育游戏app平台大幅度最初上述4款推理模子-开云·kaiyun(中国)官方网站登录入口

开云(中国)Kaiyun·官方网站 - 登录入口西部海岸试射海马斯火箭炮-开云·kaiyun(中国)官方网站登录入口

开云体育a16z、KPCB和英伟达集体押注-开云·kaiyun(中国)官方网站登录入口

开云(中国)Kaiyun·官方网站 - 登录入口云南普洱茶直播间的谋划者-开云·kaiyun(中国)官方网站登录入口

开云体育(中国)官方网站港股存储观念集体走强-开云·kaiyun(中国)官方网站登录入口

开云(中国)Kaiyun·官方网站 - 登录入口战前霍尔木兹海峡保握敞开-开云·kaiyun(中国)官方网站登录入口

欧洲杯体育不错采用馒头、苹果泥等清淡易消化的食品-开云·kaiyun(中国)官方网站登录入口

开云体育(中国)官方网站是现代山水、花鸟画家-开云·kaiyun(中国)官方网站登录入口

开云体育肝脏、肠胃等器官受损流程也更严重-开云·kaiyun(中国)官方网站登录入口

体育游戏app平台大幅度最初上述4款推理模子-开云·kaiyun(中国)官方网站 登录入口

体育游戏app平台大幅度最初上述4款推理模子-开云·kaiyun(中国)官方网站登录入口