复旦AI训练营-24210190025-不知疲倦的代码性能优化工程师 #2950

shl-phy · 2026-05-09T10:55:08Z

shl-phy
May 9, 2026

🚀 Iterative-Tuner-Agent: 基于“无成本试错”的极客性能调优引擎

“人类工程师追求的是‘深思熟虑，一击必中’，但这往往伴随着巨大的时间成本。而 AI 最大的优势是‘无成本的无限试错’。当 AI 的执行成本几乎为零时，‘暴力试错’便成了通往极致性能的最短路径。”

本智能体（优化工程师）是专为代码性能优化（如作者实际科研用到的后端计算密集型 CUDA 代码）设计的自动化调优引擎。它彻底跳出了“思考三天，改动一行”的人类低效模式，利用 AI 24/7 不间断运行的特点，通过成百上千次的“假设-修改-编译-验证-Git回退/保存”循环，实现代码性能的机械化收敛。

🌟 核心哲学：AI 的零成本优势

人类工程师在面对复杂的代码（如维度为上亿维的组态相互作用 CI Lanczos 求解器）时，进行一次可行性的优化分析可能需要 2-3 天。本智能体的实战打磨，正是诞生于这种极度吃算力的物理 Configuration Interaction (CI) 矩阵求解器优化过程中。面对动辄上亿的基矢态（Basis States）与海量的非零矩阵元，代码性能极度受限于显存带宽、指令级并行度、核心利用率等复杂因数互相制衡，一个的优化可能就是另一个的负优化（比如我之前就有把原子加变成warp提升并行度情况但是反而降速的经历），提出并实施可行的优化十分困难。

而 Iterative-Tuner-Agent 可以在你吃饭、睡觉时：

高频迭代：一天内自主执行上百次单点性能测试。
拥抱失败：即使 90% 的尝试无收益甚至性能回退 30%，只要捕捉到那 1% 的正向提升并固化，最终就能积累出惊人的收敛效果。
无脑收敛：通过上千次的微小改进，将原本看似已经优化到头的算法推向新的物理极限。

📈 实战战果 (Benchmarks)

在 RTX 5080 (16G) 开发环境下，我们在两个不同逻辑的代码上进行了长达数周、上千轮的极限试错。该智能体通过自主迭代交出了如下答卷：

目标代码	优化前 (Baseline)	优化后 (Optimized)	提升比例	迭代状态
LUT 核心算子	33.0s / iter	10.7s / iter	~67.6% 🚀	持续压榨中
组合数逻辑代码	6.9s / iter	2.7s / iter	~60.8% 🚀	已完成 892+ 轮有效迭代

注：所有优化均在不改变算法语义、不改变数值精度、不破坏可运行性的绝对底线下完成。

🔥 真实迭代记录与实战剪影

🔗 核心资产：optimization_log.md

本仓库附带了一份长达近 1000 轮的真实迭代记录。这不仅仅是 Log，而是一部底层算力优化的**「机器进化史」**。它记录了 Agent 如何在寄存器溢出、共享内存 Padding 中不断撞墙（产生负优化）并坚决执行 Git 回退，又如何捕捉到那微小的 1% 提升并最终积少成多。这上千次的推演，人类可能需要数周的高强度工作，而 Agent 只需要几天的高频跑批。

🧭 历史驱动的动态规划：拒绝盲猜。Agent 的决策基于“LLM 推理 + 日志约束”。这上千轮的迭代记录并非静态归档，而是一部连贯的“活字典”。Agent 会不断回顾、研究这些历史日志来实时规划下一步。

(以下展示了 Agent 在执行推演时，自主调用终端、执行编译、运行 Benchmark 并进行 Git 操控的真实过程)

**图 1：Agent 的“记忆反刍”与自主规划。**在开启新一轮迭代前，Agent 会自动提取并总结 .md 日志中的当前性能基准线与所有历史失败教训（如 __ldg 替换、循环展开等带来的严重退化），通过外部记忆实现精准避坑，并在此基础上规划全新的优化方向。

**图 2：Agent 完整的单点试错与物理级回滚闭环。**Agent 提出明确的优化假设，在严格不输出完整源码的前提下，仅对目标代码块进行 Patch 局部修改。随后自主调用终端编译并连续运行 Benchmark，在发现寄存器溢出导致 2.2% 的性能衰退后，Agent 毫不粉饰结果，果断自主决策执行版本回退（git checkout），恢复至最速状态。

**图 3：Agent 自行搜索相关git开源库获取思路剪影。

**图 4：迭代日志剪影 Optimization Log。

🧠 智能体架构与核心机制

本智能体采用单体极客架构，核心逻辑由“职责”、“约束”与“记忆外挂”三轮驱动：

1. 职责逻辑：零成本的“无脑”客观“进化论”

不追求每次提速：核心目的是不断对现有代码尝试各种改动（允许参考 GitHub 优秀代码库寻找灵感），本质就是不断无脑试错。
单变量控制：每一轮 Round 只允许提出并验证一个“明确、单一”的性能假设。
绝对客观：单次提升 ≥0.3% 视为成功。若变慢，强制打上“负优化”标签，绝不粉饰。
物理级回滚 (Git Defense)：成功则 git commit 保存；失败则 git checkout 立即回退，严禁在错误的路径上堆叠。
无限次试错 ：即使连续 10 次修改都带来 30% 的性能回退也无妨，只要第 11 次捕捉到 1% 的提升，就能完成收敛。

注：在真正的工程实践中，Agent 的“无脑”是指它的执行力（不怕失败、不厌其烦），而它的决策大脑其实是“受历史约束的 LLM 逻辑推演 + 维度切换策略”，是根据当前的优化结果（本次记录和历史文档）实时规划的。我们在配置文件的 constraint_prompt 中其实已经写了这部分逻辑（“思路切换：若某一个优化思路的所有单点假设均已穷尽且失败……调用工具检索开启下一个全新维度”）。

2. 防幻觉闭环：机械化的流水线

每一轮只改一个机制。强制执行闭环：提出该round优化计划->修改代码 -> nvcc编译 -> 跑基准测试 -> Git判定->保留/回退->记录并开始下一轮优化迭代。
Agent自动无限进行多轮优化迭代尝试--像是工厂的自动打磨流水线。

注：⚙️ 完整闭环是无限迭代的唯一基石：
这种强制的流水线链条是整个智能体架构的核心精髓。只有当“假设-实测-版本收口”的动作100%执行完毕，Agent 才被允许开启下一次迭代。正是这种极其严苛的机械纪律，才赋予了 AI 真正脱离人类监管、7x24 小时不知疲倦地进行千百次暴力试错的工程底气。

3. 对抗超长上下文的“记忆反刍”

痛点：无限试错会导致迭代极多，当上下文积累到几十轮后，Agent 会严重“变笨”，不仅幻觉增加，还会重复尝试已经被证伪的优化策略。

Iterative-Tuner-Agent 的解决方案（长时记忆外部化）：

极简日志：要求 Agent 在每轮迭代结束时，将结论高度浓缩为一句话，追加记录到同目录的 optimization_log.md 中。
定期回顾与会话重置：设定死规矩——每过 15 轮，强制调用 analyze_text_file 回顾 MD 文档。
永不衰减的智力：得益于此，即使我们关闭当前已经极度臃肿的对话，开启一个全新的干净 Session，只需让 Agent 读取这份 1000 次的实验记录，它瞬间就能继承所有历史经验，精准避坑，立刻开启下一轮满血状态的迭代！

🛠️ 核心工具箱 (Toolbox)

为了支撑其硬核推演，智能体挂载了以下核心工具：

执行引擎：run-shell-ssh (远程 SSH 终端，用于 nvcc 编译及跑分、Git 操控)。
科研外脑：arxiv-mcp-server (免 Key 直连 ArXiv，检索最新的 HPC 算法论文寻找灵感)。
开源视野：GitHub 检索 (即时访问 GitHub 等优秀开源库，检索顶级项目的底层算子实现，获取架构级优化灵感)。
文件管理：read_file / create_file (代码视触觉，实现对源文件的最小侵入式 Patch)。
日志分析：analyze_text_file (日志反刍分析引擎，维持 Agent 智力与防重记忆)。

**注：因为Nexent公开账号共享apikey的隐私问题原因，本agent设计的远程 SSH 终端（执行 nvcc 编译、基准测试及 Git 操控）以及通过 API 即时访问 GitHub 开源库等 MCP 功能，均未包含在导出json文件里面，如需使用请自行配置apikey和MCP。若在 Trae 或 Cursor 等本地 AI IDE 中运行本 Agent，可直接调用其底层的终端编译、执行、Git 操控并自行配置 GitHub MCP 插件。

**图 5：在本地 AI IDE 中原生激活 GitHub MCP 工具链示例。

🚀 快速复刻 (Quick Start)

本仓库已提供智能体的完整配置导出文件：iterative.json

无需手动配置复杂的 Prompt，只需在 AI Agent 平台导入该 JSON 文件，配置好你的本地工作区与工具链，即可直接唤醒这位永不疲倦的优化工程师。

🔮后续计划（Future Work）：私有 RAG 知识库挂载

目前的 Iterative-Tuner-Agent 已经证明了“暴力试错”的威力，但在解决深水区的架构级瓶颈时，单凭底层参数的穷举效率会逐渐降低。我们的下一步计划是为其引入深度 RAG（检索增强生成）机制，实现从“机械试错”到“专家指导试错”的跨越：

构建专属 HPC 弹药库：利用底层的 search-knowledge-base 工具，为其接入本地私有知识库。我们将上传 NVIDIA 最新的 Blackwell (RTX 5080) 架构白皮书、CUDA C++ Programming Guide 官方手册、经典的 Matrix-Free 计算顶会论文，以及过往 1000 轮中沉淀的核心提速 Patch 笔记。
打破局部最优解：赋予 Agent 更高级的自救逻辑——当其陷入死胡同（例如连续 10 轮出现无收益或负优化）时，强制触发 RAG 检索机制。Agent 将主动去私有知识库中“查字典”，定向获取如 Warp-Level Primitives、PTX 汇编内联 等高级特性灵感，从而提出跨维度的架构级优化假设，一举击穿当前的性能天花板。

🚧 当前阶段说明 (Current Limitations)：
受限于项目初期，目前我们整理的高质量私有知识库还不够丰满。当前的 Agent 仍处于“野蛮生长”阶段，主要依赖通用大模型的底层认知与外网的泛搜索-充其量访问git上的优秀开源库。随着后续在实战中的语料和经验不断沉淀，这个专属的 RAG 弹药库才会被彻底点亮，完成 Agent 向“资深架构师”的最终进化。

shl-phy · 2026-05-15T11:40:58Z

shl-phy
May 15, 2026
Author

optimization_log.md--检查发现500-900左右的优化记录遗失了--可能是agent迭代时本身上下文过长影响让agent“忘记”记录了，但保留了600轮和最后提速60%以上的结果也能说明这个agent的威力。
--所以说建议各位如果使用的话，再迭代一定轮次之后即时开启新对话并让agent阅读之前的迭代
记录md

0 replies

Provide feedback

Saved searches

Use saved searches to filter your results more quickly

复旦AI训练营-24210190025-不知疲倦的代码性能优化工程师 #2950

Uh oh!

{{title}}

Uh oh!

Uh oh!

{{editor}}'s edit

{{editor}}'s edit

Uh oh!

Replies: 1 comment

Uh oh!

{{title}}

Uh oh!

Select a reply

Uh oh!

复旦AI训练营-24210190025-不知疲倦的代码性能优化工程师 #2950

Uh oh!

Uh oh!

shl-phy May 9, 2026

🚀 Iterative-Tuner-Agent: 基于“无成本试错”的极客性能调优引擎

🌟 核心哲学：AI 的零成本优势

📈 实战战果 (Benchmarks)

🔥 真实迭代记录与实战剪影

🧠 智能体架构与核心机制

1. 职责逻辑：零成本的“无脑”客观“进化论”

2. 防幻觉闭环：机械化的流水线

3. 对抗超长上下文的“记忆反刍”

🛠️ 核心工具箱 (Toolbox)

🚀 快速复刻 (Quick Start)

🔮后续计划（Future Work）：私有 RAG 知识库挂载

Replies: 1 comment

Uh oh!

shl-phy May 15, 2026 Author

shl-phy
May 9, 2026

shl-phy
May 15, 2026
Author