复旦AI训练营-24210190025-不知疲倦的代码性能优化工程师 #2950
shl-phy
started this conversation in
Show and tell
Replies: 1 comment
-
|
optimization_log.md--检查发现500-900左右的优化记录遗失了--可能是agent迭代时本身上下文过长影响让agent“忘记”记录了,但保留了600轮和最后提速60%以上的结果也能说明这个agent的威力。 |
Beta Was this translation helpful? Give feedback.
0 replies
Sign up for free
to join this conversation on GitHub.
Already have an account?
Sign in to comment
Uh oh!
There was an error while loading. Please reload this page.
Uh oh!
There was an error while loading. Please reload this page.
-
🚀 Iterative-Tuner-Agent: 基于“无成本试错”的极客性能调优引擎
本智能体(优化工程师)是专为代码性能优化(如作者实际科研用到的后端计算密集型 CUDA 代码)设计的自动化调优引擎。它彻底跳出了“思考三天,改动一行”的人类低效模式,利用 AI 24/7 不间断运行的特点,通过成百上千次的“假设-修改-编译-验证-Git回退/保存”循环,实现代码性能的机械化收敛。
🌟 核心哲学:AI 的零成本优势
人类工程师在面对复杂的代码(如维度为上亿维的组态相互作用 CI Lanczos 求解器)时,进行一次可行性的优化分析可能需要 2-3 天。本智能体的实战打磨,正是诞生于这种极度吃算力的物理 Configuration Interaction (CI) 矩阵求解器优化过程中。面对动辄上亿的基矢态(Basis States)与海量的非零矩阵元,代码性能极度受限于显存带宽、指令级并行度、核心利用率等复杂因数互相制衡,一个的优化可能就是另一个的负优化(比如我之前就有把原子加变成warp提升并行度情况但是反而降速的经历),提出并实施可行的优化十分困难。
而 Iterative-Tuner-Agent 可以在你吃饭、睡觉时:
📈 实战战果 (Benchmarks)
在 RTX 5080 (16G) 开发环境下,我们在两个不同逻辑的代码上进行了长达数周、上千轮的极限试错。该智能体通过自主迭代交出了如下答卷:
🔥 真实迭代记录与实战剪影
🔗 核心资产:optimization_log.md
本仓库附带了一份长达近 1000 轮的真实迭代记录。这不仅仅是 Log,而是一部底层算力优化的**「机器进化史」**。它记录了 Agent 如何在寄存器溢出、共享内存 Padding 中不断撞墙(产生负优化)并坚决执行 Git 回退,又如何捕捉到那微小的 1% 提升并最终积少成多。这上千次的推演,人类可能需要数周的高强度工作,而 Agent 只需要几天的高频跑批。
(以下展示了 Agent 在执行推演时,自主调用终端、执行编译、运行 Benchmark 并进行 Git 操控的真实过程)
🧠 智能体架构与核心机制
本智能体采用单体极客架构,核心逻辑由“职责”、“约束”与“记忆外挂”三轮驱动:
1. 职责逻辑:零成本的“无脑”客观“进化论”
git commit保存;失败则git checkout立即回退,严禁在错误的路径上堆叠。2. 防幻觉闭环:机械化的流水线
每一轮只改一个机制。强制执行闭环:
提出该round优化计划->修改代码 -> nvcc编译 -> 跑基准测试 -> Git判定->保留/回退->记录并开始下一轮优化迭代。Agent自动无限进行多轮优化迭代尝试--像是工厂的自动打磨流水线。
3. 对抗超长上下文的“记忆反刍”
Iterative-Tuner-Agent 的解决方案(长时记忆外部化):
optimization_log.md中。analyze_text_file回顾 MD 文档。🛠️ 核心工具箱 (Toolbox)
为了支撑其硬核推演,智能体挂载了以下核心工具:
run-shell-ssh(远程 SSH 终端,用于nvcc编译及跑分、Git 操控)。arxiv-mcp-server(免 Key 直连 ArXiv,检索最新的 HPC 算法论文寻找灵感)。read_file/create_file(代码视触觉,实现对源文件的最小侵入式 Patch)。analyze_text_file(日志反刍分析引擎,维持 Agent 智力与防重记忆)。🚀 快速复刻 (Quick Start)
本仓库已提供智能体的完整配置导出文件:iterative.json
无需手动配置复杂的 Prompt,只需在 AI Agent 平台导入该 JSON 文件,配置好你的本地工作区与工具链,即可直接唤醒这位永不疲倦的优化工程师。
🔮后续计划(Future Work):私有 RAG 知识库挂载
目前的 Iterative-Tuner-Agent 已经证明了“暴力试错”的威力,但在解决深水区的架构级瓶颈时,单凭底层参数的穷举效率会逐渐降低。我们的下一步计划是为其引入深度 RAG(检索增强生成)机制,实现从“机械试错”到“专家指导试错”的跨越:
search-knowledge-base工具,为其接入本地私有知识库。我们将上传 NVIDIA 最新的 Blackwell (RTX 5080) 架构白皮书、CUDA C++ Programming Guide 官方手册、经典的 Matrix-Free 计算顶会论文,以及过往 1000 轮中沉淀的核心提速 Patch 笔记。Warp-Level Primitives、PTX 汇编内联等高级特性灵感,从而提出跨维度的架构级优化假设,一举击穿当前的性能天花板。Beta Was this translation helpful? Give feedback.
All reactions