- 课题组负责人:郭兰哲 (南京大学智能科学与技术学院,准聘助理教授,博士生导师)
- 研究方向:神经符号学习 (Neuro-Symbolic Learning)、大模型推理 (LLM Reasoning)、智能体 (Agent)
- 招生对象:直博生、硕士生、科研实习生(支持 Remote)
- 联系方式:欢迎感兴趣的同学联系 guolz@nju.edu.cn。
- 邮件标题建议注明:
[科研实习/保研/直博申请] 姓名-学校-年级-专业
- 邮件标题建议注明:
本学习大纲面向从 0 到 1 入门的本科生,目标是在 6-8 周 内,帮助同学建立对课题组研究方向的整体认知、核心技术理解与基础科研能力,为后续参与真实科研项目打下基础。
- 基础夯实:了解人工智能与大模型基础知识,能够自主检索并读懂前沿论文与代码。
- 领域认知:理解什么是大模型/多模态推理、LLM Agent、Neuro-Symbolic Learning。
- 科研素养:具备“提出问题 -> 文献检索 -> 代码复现 -> 实验分析”的完整科研闭环能力。
说明:此阶段为“准入资格”学习。在正式加入课题组参与科研实习之前,你应当具备人工智能、大模型的基础知识。你可以参照下面的大纲,结合提供的参考资料,或者网上其他优质资料进行学习
如果你认为自己已具备相关能力,便可约时间进行入组考核
学习目标:
- 掌握神经网络的基本原理,能够理解前向传播与反向传播的数学推导与代码实现
- 掌握 CNN/ResNet、RNN 等机器学习基础模型架构
- 掌握 Pytorch 核心组件的使用,例如 Dataloader、损失函数、模型搭建、优化器等
参考资料:
学习目标:
- 掌握 Transformer 的核心机制 (Self-Attention, Positional Encoding, Decoder-only vs Encoder-Decoder 等)
- 了解 GPT 系列、LLaMA 系列等典型大语言模型
- 了解基础的 Prompt Engineering (Zero-shot, Few-shot) 及 API 调用方式
- 了解 Chain-of-Thought 等大模型推理机制
参考资料:
学习目标:
- 了解 Vision Transformer (ViT) 的基本原理
- 了解 LLaVA、Qwen-VL 系列等前沿多模态大模型
参考资料:
考核方式: 完成上述基础知识学习之后,可以约时间进行交流(线下或线上会议),无需准备 PPT 等材料,交流方式为面试提问。主要围绕基础概念的理解,不会过多关注算法细节的记忆,通过后即可作为科研实习生加入课题组
说明:进入此阶段,你已经正式开始科研训练。本阶段重点在于论文调研、阅读、复现与思考
预备工作:
- 请自行搜索,了解什么是 arXiv, HuggingFace, Google Scholar, DBLP
- 了解 ICML, NeurIPS, ICLR 等人工智能顶级会议, 具备根据某个 topic 检索相关论文的能力
核心流程:
- 了解方向:了解本组的主要科研方向(Neuro-Symbolic Learning,LLM Reasoning,Agent)。
- 选择题目:结合自己的兴趣,选择一个方向
- 实践汇报:完成相应的论文阅读以及代码实践,并形成 PPT 汇报
本训练计划并非考核某个固定答案,而是帮助你判断: 你是否真正享受分析问题、阅读论文、调试代码和反思实验的过程。 如果你对“研究问题本身”感到兴奋,那么欢迎加入我们。
- 神经符号学习 (Neuro-Symbolic Learning)
- 大模型推理与规划 (LLM/MLLM Reasoning & Planning)
- 智能体 (Agent)
请结合个人兴趣选择一个方向,检索并阅读相关论文并完成代码实践
- 不要求完整复现论文全部实验,但需要在至少 1 个数据集上跑通完整算法流程,并得到结果
- 尽量复用开源框架(如
LLaMA-Factory,TRL,LangChain等),重点在于掌握算法流程以及分析实验结果,而非重复造轮子 - 若算力受限,请优先使用 PEFT (LoRA/QLoRA) 或小参数量模型(如 Qwen-2.5-1.5B/3B)
- 如果在实践过程中未能复现论文中的性能结果,并不视为失败;请尝试定位问题来源、分析原因并给出合理解释
- 如果要复现自行查找的论文,请优先选择近两年 (2025年后) 在顶会 (ICML/NeurIPS/ICLR) 上发表的,或具有较高影响力 (Citation>100) 的文章
- Logic-LM: Empowering Large Language Models with Symbolic Solvers for Faithful Logical Reasoning
- Faithful Logical Reasoning via Symbolic Chain-of-Thought
- VeriCoT: Neuro-symbolic Chain-of-Thought Validation via Logical Consistency Checks
🎯 实践任务
基于上述提供的论文,调研结合Formal Language与Symbolic Solver提升LLM逻辑推理能力的工作,在至少1个逻辑推理benchmark中进行1篇论文复现
目标:体会结合形式化语言与求解器提升LLM逻辑推理能力的思想
- SFT or RL? An Early Investigation into Training R1-Like Reasoning Large Vision-Language Models
- SFT Memorizes, RL Generalizes: A Comparative Study of Foundation Model Post-training
- Neuro-Symbolic Data Generation for Math Reasoning
- NeSyGeo: A Neuro-Symbolic Framework for Multimodal Geometric Reasoning Data Generation(一作是智科院 2023 级本科生,大二期间完成)
🎯 实践任务:
基于 SFT 或 GRPO 算法微调一个开源大语言模型或者多模态大模型(例如 Qwen-Math 系列),在一个数学推理数据集(例如 GSM8K、MATH、MathVista 等)进行评测,分析微调前后模型的性能变化
目标:体会SFT与RL作为两种常用post-training范式的区别,并学会使用两种方式提升base model推理能力;SFT为必选任务,GRPO如果跑不起来,可以只掌握原理/代码实现
- Visual Programming: Compositional visual reasoning without training
- DeepEyes: Incentivizing "Thinking with Images" via Reinforcement Learning
- Thyme: Think Beyond Images
- Thinking with Images for Multi-Modal Reasoning: Foundations, Methods, and Future Frontiers
🎯 实践任务:
调研 "Think with Images" 方向的论文,尝试在一个视觉推理数据集上,复现一种方法,并进行结果分析
目标:体会think with images这一方向的主要研究问题和常见范式;如果算力不允许可以优先选择Training-Free的方法
🎯 实践任务:
了解什么是 ARC Challenge,调研相应的论文与解决方案,并尝试实现至少一种方法,分析其结果和瓶颈
目标:了解ARC Challenge这一任务,熟悉已有的方法范式
- TravelPlanner: A Benchmark for Real-World Planning with Language Agents
- ChinaTravel: An Open-Ended Benchmark for Language Agents in Chinese Travel Planning
- Mind the Gap to Trustworthy LLM Agents: A Systematic Evaluation on Constraint Satisfaction for Real-World Travel Planning (AAAI 2026 Trust Agent Workshop Best Student Paper, 前两位作者均为智科院本科生)
🎯 实践任务:
基于 ReAct 框架构建一个简单的 Agent,分析其在上述两个数据集中的性能表现
目标:体会Travel Planning这一任务的关键挑战(约束可满足的复杂规划能力)以及潜在解决方案
- Voyager: An Open-Ended Embodied Agent with Large Language Models
- WALL-E 2.0: World Alignment by NeuroSymbolic Learning improves World Model-based LLM Agents
- InstructFlow: Adaptive Symbolic Constraint-Guided Code Generation for Long-Horizon Planning
- Training-Free Group Relative Policy Optimization
- Re2 Agent: Reflection and Re-execution Agent for Embodied Decision Making (NeurIPS 2025 EAI Challenge Most Innovative Approach)
🎯 实践任务:
参考上面的论文,在我的世界 (MineCraft) 环境或具身数据集 ALFWorld 或者 EAI 中进行实验,并汇报性能结果。 (注:MineCraft 相对来说环境更为复杂,且对模型能力要求较高,请根据自身工程能力选择)
目标:了解Agent Skill、Agent Memory等相关内容,熟悉相关的benchmark
🎯 实践任务:
基于上述 Tutorial,阅读相关论文,尝试复现论文 LLM-SR: Scientific Equation Discovery via Programming with Large Language Models,根据论文给出的 Github 仓库跑通代码,并对比原文中的结果
目标:了解Symbolic Regression任务,常见的benchmark以及LLM时代的主流方法
💡 自定义方向 如果你对其他隶属于 Neuro-Symbolic Learning、Agent、LLM Reasoning 领域的研究方向感兴趣(比如多模态医学推理、遥感图像推理、Chart QA、智慧司法、或者我的世界之外的其他游戏场景等),也可以提前进行沟通,得到允许之后,可以自行发挥查阅相关文献,按对等要求完成(即复现至少 1 篇论文算法在 1 个数据集上的实验结果)
完成上述任务之后,需要准备一份 PPT 进行汇报,内容应包含:
- 领域背景简介:该方向主要解决什么科学问题?为什么重要?
- 代表方法介绍:有哪些代表性的方法,核心思路是什么?(尽量用自己的语言简洁叙述,不要照搬原文)
- 实验结果分析:实验设置、实验结果、分析讨论等
- 未来思考:基于你的实践,你认为该方向下一步可以做什么?
PPT 制作基本原则:
- PPT 可以用中文或英文制作
- 不需要设置动画,导出为 PDF 格式
- 字体建议:中文使用微软雅黑,英文使用 Times New Roman
- 涉及到参考文献的需要添加引用,参考文献放在本页PPT的最下方
- 可以使用 Powerpoint,也可以使用 LaTeX,以文档排版美观、易于阅读为最终目标
关于本文档的任何问题或者建议,欢迎留言或邮件咨询~~