【2025AI生成式大会】2025大会个人总结

![](/media/202504/Screenshot%202025-04-06%20at%20173132_20250406173156075586.png)

|主题|内容总结|
|-----|----|
|4.1 上午 公开||
|大模型快慢思考探讨|当前大模型的性能增长面临数据和算力的边际效益递减问题，而“慢思考推理技术”可以通过**“搜索+学习”结合的方式优化模型推理能力。他介绍了基于多次采样、树搜索、监督微调（SFT）和强化学习（RL）**的方法，并强调推理模型可能深刻影响未来智能体的设计模式|
|破解具身智能中的数据难题|指出当前机器人执行舞蹈、跑步等动作已较为成熟，但操作交互（如抓取、搬运）仍面临数据稀缺问题。他介绍了团队开发的仿真手套技术，通过触觉反馈增强机器人操作能力，并采用DemoGen方法快速生成训练数据，使数据获取速度提升上万|
| AI Agent 新探索 构建AI原生团队，使用AI员工|讨论了AI智能体（Agent）在企业落地的挑战，如知识孤岛、GUI交互困难等。他提出，构建AI原生团队需要类似开源社区的开放文化，并强调Agent需在需求理解、主动沟通、长期记忆等方面突破，才能从工具升级为真正的“数字员工” | 
|国产打算理GPU如何构建Deepseek新机遇|分享了大模型算力优化的实践，指出壁仞科技通过软硬协同优化，仅用64卡4TB显存即可高效训练DeepSeek-V3满血版（其他方案通常需256卡）。他还介绍了**异构GPU协同训练（HGCT）**技术，支持多种GPU混合训练，并计划向万卡集群扩展|
|打开AI应用的关键通路|他预测，2025年AI硬件、具身智能、世界模型将成为关键方向，并强调情绪价值类AI产品（如陪伴机器人）可能成为市场新增长。DISS了一把李飞飞团队的工作，认为在当前的投资人业内不看好相关技术路线和想法。|
|高端对话：Deepseek开启大模型下半场 中国AGI新征程全速起航||
|4.1 下午 闭门会||
|Light-R1 低成本复现推理模型之路|讲述了如何低成本复现低成本模型的推理过程，作为团队负责人分享了LightR1的数据整理，数据蒸馏的过程。Light-R1通过课程学习SFT+RFT+DPO方法，以较低成本训练出超越DeepSeek-R1-Distill的推理模型。仅使用数学数据训练，但泛化至非数学任务。|
|类O1 模型复现探索与行业思考，慢思考的外置、内化与提升||
|后几个没听，整体学生工作讲的比较浅没什么意思|||
|LMM-R1||
|长思维链高校推理方法||
|探索Deepseek强化学习和推理策略在自动驾驶场景中的巨大潜力||
|4.1 下午 大会感兴趣的议题||
|AI推理的全球算力革命：从单点爆发到全球扩容|AI全球化浪潮下，推理算力的高效供给成为关键挑战。GMI Cloud通过自研推理引擎实现高并发、低延迟、动态扩缩容，支撑全球AI业务爆发。跨区域合规部署架构，符合不同国家的数据监管要求。软硬协同优化，推理成本降低50%+，效率提升10倍。|
|从Infra角度看DeepSearch Test-Time Scaling Law|Agent与垂直行业结合的关键在于数据信息探索效率，而非单纯扩展模型规模。提出向量数据库优化方案，提升Agent在复杂业务场景中的检索能力。未来AI Infra需更注重数据架构优化，而非盲目追求大模型参数|
|4.2 上午 闭门会全部||
|面向真实场景下人物自动化的多智能体协作||
|基于大模型的可进化医疗智能体-Agent Hospital|阐述了在事件和错误中学习最终获得提升和成熟的医疗智能体的哲学观点。通过LLM和VLM对医疗数据进行收集筛选和提纯。通过在整体环境中不断用案例对医疗智能体进行训练，使得智能体一步步从无法看好病到诊断准确性大幅度提高的案例。整个过程更像是一个游戏模拟。|
|从MCP到智能体通讯协议：ANP在智能体互联网上的探索|阐述了传统局限多智能体通信协议（MCP）依赖中心化调度，难以应对大规模动态组网需求。讲述了ANP分布式通信，基于5G/物联网实现低延迟数据共享，如智能城市中交通Agent实时交换路况的创新。|
|驱动GUI智能体从智能化到高校化的实践探索|展示了基于视觉对APP界面进行理解，从而逐步提升智能体对于APP界面的理解速度和理解准确性从而完成模仿人对APP或者是EMail进行使用的流程。|
|基于工作流的可干预Agent框架EKO|旨在通过自然语言和简洁代码快速构建“虚拟员工”，实现工作流程的高度自动化。Eko的核心创新在于其基于工作流的可干预机制，允许开发者在任务执行过程中进行实时监控和调整，确保灵活性与安全性。将任务拆解为规划层和执行层，调用工具逐步完成任务，优化资源使用。|
|4.2 上午 大会 时间冲突后续可以看看材料||
|4.2 下午闭门会||
|统一具身智能大模型RoboBrain|展示了团队的研究成果面向长任务具身智能大脑RoboBrain的效果。作者认为当前VLM分支表现不好的原因是缺乏垂泪场景的数据。除此之外多模态任务规划能力：融合任务规划、可操作区域感知、轨迹预测三大能力，将抽象指令映射为具体的动作。采用多阶段训练策略，具备长历史帧记忆和高分辨率图像感知能力，提升场景理解与操作规划能力。还展示了面向跨本体协同的解决方案细节RoboOS，作为RoboOS框架的核心大脑，与小脑技能库（低延迟执行）和跨机器人数据中枢（实时共享记忆）协同工作，形成感知-认知-决策-行动闭环。号称可以适配多种机械臂和本体，个人理解效果不会太好，想法倒是新颖。|
|构建鲁棒高效的VLA大模型RoboManba|RoboManba采用分层混合专家（MoE）架构，结合多模态感知、语言理解、动作规划三大模块，实现高效推理与执行。作者目前描述性能欠佳是因为缺少数据。基于MAE对于显示的3d动作表达进行重建，显示利用3d信息进行模仿学习。个人理解对不不同任务的迁移性代价太大。|
|基于世界模型的通用机器人策略学习||
|双臂机器人操作扩散大模型RDT||
|4.2 下午 大会||
|Appen||
|构建大模型时代的AI存储新范式|详细讲解了Alluxio的解决方案，构建于存储和API之间的一层热缓存，用于最大化优化数据使用。将nfs和obs数据进行缓存，从而提高数据训练时的性能需要。同时针对冷温热数据的转换关系支持用户自定义设定。自动缓存更新。同时企业版本支持去中心化操作，性能可以进一步提升支持百T或PB级别。|
|大模型私有化部署：从单机、集群到智算中心混合部署||
|||
|||
|||
|||
|||