清华人大上交大教授领衔DeepSeek时代中国生成式AI大会4月举行!Manus
将在北京中关村东升科技园万丽酒店举行。中国生成式AI大会已成功举办三届,现已成为国内人工智能领域最具影响力的产业峰会之一。
本次大会继续由智一科技旗下智猩猩、智东西共同发起,以“大拐点 新征程”为主题,计划邀请50+位重量级嘉宾同台分享和讨论,深入透视DeepSeek带来的颠覆与重构,全面展示国内生成式AI重大进展。
中国生成式AI的发展,尤其是大语言模型,已经从GPT引领切换到DeepSeek驱动。AI Infra在国内的研究与开发方向更加明确,国产AI芯片与算力领域也获得再次突围的新动能。此外,包括AI智能体、AIGC应用在内的应用热潮更是备受期待。与此同时,视觉大模型、多模态大模型、具身大模型在过去一年也取得了非常大的进展,呈现出百花齐放的局面。
本次大会围绕上述重大变化进行了日程设计。大会主会场首日将进行开幕式、GenAI应用论坛,次日全天将进行大模型峰会;分会场则会先后组织DeepSeek R1与推理模型技术研讨会、AI智能体技术研讨会和具身智能大模型技术研讨会。其中,三场研讨会为闭门制,主要面向持有闭门专享票、贵宾通票的观众开放。
其中,智源研究院副院长兼总工程师林咏华将参与开幕式。还有多位嘉宾是来自清华大学、北京大学、中国人民大学、西湖大学的知名学者和青年学者。
AI智能体方向,也邀请到不少嘉宾,其中就包括通用智能体Manus最强平替「OWL」的一作胡梦康博士,AppAgentX一作蒋文嘉,Eko主要作者陆逸文博士;AI Infra方面也是来了不少大咖,其中就包括上海交通大学副教授、无问芯穹联合创始人兼首席科学家 戴国浩;推理模型方向,由中国人民大学高瓴人工智能学院教授、长聘副教授赵鑫领衔,Light-R1核心作者、360智脑算法资深专家邹昊晟,华中科技大学Hust Vision Lab与地平线联合培养博士生、AlphaDrive一作蒋博。
具身智能方向更是牛人云集,包括星海图联合创始人许华哲教授、智澄AI创始人&CEO&前Meta首席工程负责人胡鲁辉、RoboMamba一作刘家铭、双臂机器人操作扩散大模型RDT一作刘松铭、星动纪元实习研究员郭彦江博士、北京智源人工智能研究院研究员郝孝帅,上海人工智能实验室具身智能中心青年研究员汪汗青以及“杭州六小龙”之一群核数据的科研算法专家汪仁涵。
具身智能的数据难题核心在于多模态感知-动作耦合数据的稀缺性与异构性:真实物理交互数据获取成本极高(如机器人操作需百万级闭环交互),且跨场景迁移受限;多源传感器(触觉、视觉、力觉)的数据难以获得,时空对齐与语义关联复杂度呈指数级增长,而仿线Real)的数据偏差进一步加剧模型退化。当前突破方向集中在物理启发的数据增强与因果表征学习,通过解耦环境动态性与本体控制逻辑提升数据效用。
AI应用全球化浪潮下, 推理效率与算力供给成为破局关键。本次演讲以GMI Cloud Inference Engine为锚点,拆解其高并发、低延迟、动态扩缩容能力如何支撑全球AI业务爆发,深度分享GMI Cloud自研推理平台的架构设计、跨区域合规部署及软硬协同优化实践,揭秘其实现推理成本、指数级效率提升的关键路径。
近期 Agent 与垂域的结合越来越受到产业关注,Zilliz 也对 OpenAI DeepSearch 进行了简单复刻尝试。在这次尝试以及在用户的交流中,我们认识到 Agent 的 Scaling Law 本质是数据信息探索效率,报告中我们会分享 zilliz 的观察,并介绍我们在数据基础设施层面解决数据信息探索效率的最新尝试。
在企业智能化浪潮中,仅仅依赖通用大模型往往难以满足复杂业务场景对精准性和可解释性的严苛要求。知识引擎的引入,如同为大模型装上了精准的导航系统和强大的逻辑推理能力,显着提升智能体在理解企业Know-how、执行任务和决策方面的能力,更可靠地执行任务。同时,知识引擎更是提炼行业大模型、构建行业智能应用的基础。这种“双轮驱动”的模式,将成为企业构建下一代核心竞争力的关键引擎,最终驱动企业实现真正意义上的智能进化。
2024年,端到端自动驾驶是智驾行业的主战场,这一年国内智驾技术迅猛发展,部分公司已经完成了从智驾1.0向量产级端到端自动驾驶的快速切换,这其中数据基建工程带来的规模化效应(scaling law)为这一阶段性进展提供了强力支撑。
本次将从科研角度分享,监督学习范式下端到端自动驾驶的新进展及其面临的关键挑战,分享端到端自动驾驶scaling law的探索,并讨论针对目前面临的关键挑战一些值得进一步探索的研究方向。
360智脑在3月4日开源了Light-R1模型及全部训练数据和代码,用较低的训练成本即可从零训练得到推理模型,在开源时首次实现领域内评测超越DeepSeek-R1-Distill。报告将介绍Light-R1背后的课程学习SFT、RFT、DPO等方法上的数据心得和训练策略,和QwQ-32B、TinyR1等相关工作在训练资源、方法等各方面的比较。虽然Light-R1仅使用数学数据训练了模型的长推理能力,但在非数学任务上也表现出了泛化性及有效性。随着训练和推理技术的不断发展,未来长推理模型将更加普及,Light-R1 正为低成本快速训练一个领域专精推理模型提供了重要参考。
尽管大型语言模型(LLMs)在复杂推理任务中仍面临挑战,但本次分享提出了一种新的推理轨迹表征方法——思维模板(Thought Template)。首先,Buffer of Thought 框架首次引入“思维模板”概念,用于总结关键推理模式。基于此,SuperCorrect 利用思维模板实现了分层的 LLM 蒸馏和自纠错方法,使小型 LLM 也能达到具有竞争力的表现。随后,ReasonFlux 通过自动化扩展思维模板,并结合分层强化学习算法优化推理搜索空间的效率,进一步增强了 LLM 的复杂推理能力,以32B的参数规模超越o1-preview并逼近DeepSeek-R1的推理准确率。这些进展表明,思维模板有潜力成为更高效的大模型推理轨迹表征。
大型语言模型(LLM)在复杂推理任务中生成冗长的中间思维步骤会导致显着的内存与计算开销,限制了其实际应用效率。现有高效长思维推理方法可以分为两类,第一类通过提示工程或者训练的方式让LLM学会使用较少的词进行推理,第二类通过在LLM推理过程中对kv缓存进行裁剪进行。
本次演讲提出LightThinker,一种基于动态思维压缩的推理加速方法,其核心是通过训练的方式让LLM在合适的时机自主压缩冗长的思维为紧凑的表征,并基于压缩后的内容继续推理,从而降低显存开销,提升推理速度。
随着大模型的实际应用蓬勃发展,多智能体协作系统在真实场景下的任务自动化已成为人工智能领域的重要研究前沿。本报告系统介绍面向真实场景任务自动化的多智能体协作系统研究,包括框架设计、效能优化、系统扩展等关键技术,探索为复杂任务自动化提供高效解决方案的方法与路径。
本次报告,将重点介绍OWL (Optimized Workforce Learning)框架,该框架在GAIA基准测试中取得58.18的平均得分,位列开源框架第一,并在GitHub上已获得11,000+星标的瞩目关注。此外,报告探讨解决智能体系统在真实应用场景中面临的关键挑战的创新工作:(1) 高效闭环规划(Tree-Planner),优化智能体决策路径;(2) LLM智能体环境扩展性解决方案(AgentGen与Text2World),实现大规模场景适配;(3) 层次化管理LLM智能体上下文技术(HiAgent),提升系统运行效率与稳定性。
现有LLM驱动的GUI智能体面临决策链冗长、重复推理成本高等瓶颈,传统脚本化工具难以适应动态界面,而大模型虽提升泛化能力却牺牲了执行效率。针对GUI操作缺乏肌肉记忆和跨应用泛化难题,我们提出分层记忆库与视觉-语义解耦架构的双重优化方案:通过规则构建动态进化机制,将常用操作路径推理耗时缩短60%以上。工程实践中采用混合推理框架(规则引擎兜底+LLM决策),在复杂场景测试显示,任务完成率从传统方案的47%提升至89%,资源消耗下降40%。
本次报告将探讨一种新兴的智能体设计范式——基于工作流(workflow)的可干预智能体框架 Eko。与传统端到端自治代理的黑箱模式不同,Eko 强调以结构化任务图清晰地规划和执行复杂任务,具备更好的透明性与审计性;同时,提供生产级的干预机制,允许用户在任务执行的任意环节精细介入,以确保智能体的行为始终可控且可审计。此外,Eko 还支持跨浏览器、桌面等多种运行环境的无缝部署,能够灵活整合企业私域数据,从而在生产实践中显着提高智能体的落地可靠性与安全性。基于上述特点,Eko 已经初步展现出在具身智能等领域进行任务编排的潜力,值得进一步探索
MCP自推出以来,逐渐的获得行业的广泛关注。MCP在解决模型与工具/资源连接方法的标准化上,发挥了重大的作用,能够有效降低模型获得上下文、调用工具的成本。
然而,智能体互联网要求所有的智能体都能够互联互通。MCP并不是为了智能体而设计,其中心化的身份认证方案和CS的协议架构,使其并不适合用于智能体的连接、通信与协作。
当前行业已经出现多个专为智能体而设计的通信协议,其中ANP(AgentNetworkProtocol)的设计更为前瞻、实现更为完备。ANP解决了智能体身份、智能体描述、智能体发现三大难题,基于ANP能够构建便于AI访问的数据网络。这为即将到来的智能体互联网探索了一条新的技术路线、具身智能大模型技术研讨会
(1)我们提出了ShareRobot,一个大规模、高质量、细粒度的异构数据集,涵盖102个场景、12种机器人本体和107种原子任务,包含百万级问答对。数据集标注了任务规划、对象可操作区域和末端执行器轨迹等多维信息,填补了现有数据在多样性、粒度和任务复杂性上的不足,为机器人学习与规划提供了全面支持。
(2)基于ShareRobot,我们提出了RoboBrain,一个统一具身多模态大脑模型,首次实现任务规划-可操作区域感知-轨迹预测的三维能力融合。RoboBrain将抽象指令(如“准备一杯茶”)映射为具象动作序列(如抓取、对准、倾倒),并同步生成可操作区域与精确轨迹,显着提升机器人在具身长程操作任务中的能力。该模型通过多模态协同,解决了传统方法在任务分解、感知与动作生成中的割裂问题,为复杂机器人操作提供了全新解决方案。
本报告旨在探讨如何构建更 鲁棒且高效 的 视觉-语言-动作(VLA)大模型,并从以下四个方面展开深入讨论:1)VLA 模型的输入方式,2)VLA架构设计,3)VLA训练策略,4)VLA输出机制。同时,我们还将分析当前行业内 VLA 发展的最新趋势,并介绍自研的 高效 VLA 模型—RoboMamba。具体来说,RoboMamba是一个高效的端到端VLA具身大模型,专为机器人场景优化设计,旨在实现高效的推理与操作能力。这一成果以题为《RoboMamba:具备机器人推理与操控能力的高效视觉-语言-动作大模型》的论文,发表在全球顶级学术会议NeurIPS 2024上。
构建通用的操作模型是通用机器人最有挑战性的一个部分,机器人需要具备丰富的物理先验知识,才能泛化到新任务。视频生成大模型在互联网视频数据上进行了大规模预训练,能够预测合理的未来发展轨迹,压缩了丰富的物理先验知识。本次演讲主题是如何基于视频世界模型构建通用的机器人操作策略,具体包括Prediction with Action(PAD),Video Prediction Policy(VPP)等两项工作。
我们提出了一种用于双臂机器人操作的扩散基座模型——Robotics Diffusion Transformer(RDT),该模型以扩散模型作为基础,能够有效地表示多峰的人类动作分布,并采用可扩展的Transformer架构来处理异构的多模态输入,捕捉机器人数据中的非线性和高频特性。为了解决数据稀缺问题,文章进一步引入了一种物理可解释的统一动作空间,该空间可以统一各种机器人的动作表示,并保留原始动作的物理含义,方便学习可迁移的物理知识。通过这些设计,我们成功地在目前(截止文章公布时,下同)最大的多机器人数据集上对RDT进行了预训练,并将其扩展到12亿个参数,这是目前用于机器人操作的最大的基于扩散建模的基础模型。最后,我们在一个自己收集的多任务双臂数据集上对RDT进行了微调,以提高其双臂操作能力。在真实机器人实验中,RDT明显优于现有方法。它能够零样本泛化到未见过的物体和场景,理解和遵循语言指令,仅需1~5个演示就能学习新的技能,并有效地处理复杂的灵巧任务。该项目的代码、模型和数据均已开源,请访问项目主页:。