Schedule

Event

Date

Description

Course Material
Lecture

11/22/2024
Friday

什么是语言模型(任务)?
[第一章slides] [第一节视频(bilibili)] [第二节视频(bilibili)] [第三节视频(bilibili)]
- 关于NLP的一些基础知识：NLP简介、了解常见的NLP任务、词向量(word2vec)、预训练模型(ELMo、BERT)发展历程
- 回顾NLP中语言模型任务的发展历史：N-gram LM、FFN LM、RNN LM、GPT
- 理解向量(Embedding)的重要性，代码链接：
  - 词向量可视化
  - 调用SiliconFlow Embedding API 计算句子向量的余弦相似度
  - 基于transformers BERT fine-tuning的中文文本分类
  - 基于arXiv论文数据 + SiliconFlow API + faiss + streamlit 构建论文搜索引擎demo
- 一点数学计算：
  - 斯坦福CS224N 作业2中Understanding word2vec
  - 普林斯顿 COS 484 作业1中LM和ppl理解
Lecture

12/02/2024
Monday

Transformer模型
[第二章slides] [第一节和第二节视频(bilibili)] [第三节视频(bilibili)]
- 回顾机器翻译任务的发展历史：统计机器翻译(SMT)、Encoder-Decoder结构、注意力(Attention)机制、BPE算法
- Transformer模型
- 编程实践(代码链接)：
  - RNN Encoder-Decoder with Attention
  - The Annotated Transformer
  - 训练基于Transformer的中英翻译模型
  - 非代码：斯坦福CS224N 作业4 Attention和Position Embeddings分析
Lecture

12/16/2024
Monday

LLM Pre-training and Beyong
[第一节slides] [第一节视频(bilibili)] [第二节slides] [第二节视频(bilibili)] [第三节slides] [第三节视频(bilibili)]
- GPT-1 && GPT-2
  - NLP中的预训练-微调范式: CoVe、ELMo、ULMFiT、GPT-1、BERT、GPT-2
  - GPT-1 && GPT-2: Pre-traring LM + Large scale ==> zero-shot
  - 编程实践：阅读GPT-1/GPT-2代码；训练124M GPT-2
- Train-time Compute Scaling Laws
  - 解析(Train-time Compute) Scaling Laws for LM, Empirically
  - 计算 GPT模型参数和FLOPs
  - Kaplan Scaling Laws && Chinchilla Scaling Laws
  - 编程实践：Scaling Laws for MNIST
- LLM预训练之分布式训练：数据并行、模型并行、混合精度训练、分布式通信
  - 数据并行(Data Parallelism)
    - DDP(PyTorch), Sharded Data Parallelism: DeepSpeed-ZeRO
    - 分布式通信 (Distributed Communication)
    - 混合精度训练(Mixed Precision Training)和常见数据格式
  - 模型并行(Model Parallelism)
    - 张量并行(Tensor Parallelism, TP)
    - 流水线并行(Pipeline Parallelism, PP)
    - 序列并行(Sequence Parallelism, SP)
    - 上下文并行(Context Parallelism, CP)
    - 专家并行(Expert Parallelism, EP)
    - 分布式代码之picotron
- GPT-3 and Beyond
  - 涌现、幻觉、位置编码、合成数据、提示工程、SLMs …
Lecture

12/20/2024
Friday

LLM Post-training
- instruction tuning
- RLHF
- DPO
- 代码实践：unsloth、llama-factory
Lecture

12/21/2024
Saturday

Efficient LLM Fine-tuning
- Mixed Precision Training
- Lora
- qlora
Lecture

12/24/2024
Tuesday

LLM reasoning
- Inference Scaling Laws
- verifier
- ORM/PRM/MCTS/DPO/RL
Lecture

12/25/2024
Wednesday

Multimodal LLM
- 原生多模态模型
- 扩展现有LLM模型
- LLaVA
- GraphGPT
Lecture

12/25/2024
Wednesday

RAG
- RAG, GraphRAG
- 代码实践：
  - LightRAG
Lecture

12/26/2024
Thursday

LLM Agents

参考 Shunyu Yao的博士论文、CS294/194-196 Large Language Model Agents和相关的Tutorials
Lecture

12/29/2024
Sunday

MoE和Mamba

Hippo, S4, Mamba, RWKV

MoE/Mamba reasoning