模块 | 核心内容 | 工具栈 | 实践目标 |
---|
数学基础 | 线性代数(矩阵分解/张量)、概率论(贝叶斯定理)、微积分(梯度优化)、统计推断 | 3Blue1Brown 视频、《统计学习导论》 | 推导线性回归的闭式解 |
编程基础 | Python 语法、面向对象编程、常用数据结构、文件操作 | Python 3.10+、VS Code、Jupyter Lab | 实现爬虫+数据清洗脚本 |
数据处理 | 数据清洗、特征变换、EDA 分析、SQL 查询 | Pandas、NumPy、Matplotlib、Seaborn、SQLite | 完成 Kaggle Titanic 完整 EDA |
模块 | 关键技能 | 工具栈 | 项目实战 |
---|
机器学习 | 监督学习(SVM/决策树)、集成方法(RF/XGBoost)、聚类(K-Means/DBSCAN) | Scikit-learn、XGBoost、Optuna | 房价预测模型(R²>0.85) |
深度学习 | 神经网络基础、CNN 图像分类、RNN 时序预测、Transformer 架构 | PyTorch/TensorFlow、TorchVision、Hugging Face | CIFAR-10 分类(>85%精度) |
数据工程 | 数据管道构建、Spark 分布式处理、特征存储 | Apache Spark、Feast、Airflow | 实时用户行为分析管道 |
- 工具链:OpenCV + Detectron2 + MMDetection
- 关键技术:目标检测(YOLO)、图像分割(Mask R-CNN)
- 项目:自定义数据集口罩佩戴检测
- 工具链:spaCy + Hugging Face + BERTopic
- 关键技术:文本分类、命名实体识别、文本生成
- 项目:新闻主题分类系统(F1>0.9)
- 工具链:Stable Baselines3 + Gymnasium + PettingZoo
- 关键技术:Q-Learning、PPO 算法、多智能体协同
- 项目:训练 AI 玩 CartPole 游戏(得分>450)
环节 | 技术方案 | 工具链 | 最佳实践 |
---|
模型优化 | 量化压缩、知识蒸馏、剪枝 | TensorRT、Distiller、NNI | 将 BERT 模型压缩至 1/3 大小 |
模型部署 | REST API 服务、容器化、边缘计算 | FastAPI + Docker + ONNX Runtime | 部署图像分类 API(QPS>100) |
MLOps | 实验跟踪、自动化流水线 | MLflow + Kubeflow + Grafana | 构建端到端训练-部署流水线 |
- 基础阶段:每天 2 小时代码练习(LeetCode+Kaggle)
- 进阶阶段:每周完成 1 个中型项目(GitHub 提交)
- 领域专精:参与开源项目(Hugging Face 社区)
- 工程化:考取 AWS ML/Azure AI 工程师认证
- 前沿跟踪:定期阅读 arXiv 论文(CVPR/NeurIPS 顶会)
避坑指南:避免陷入“工具集邮症”,每个工具链选择 1-2 个主流框架深入(如 PyTorch 而非同时学 MXNet)。优先掌握 Scikit-learn 和 PyTorch,它们覆盖 80%的应用场景。
建议搭配实践:
- 📚 理论:《深度学习》(花书) + 《Hands-On ML》
- 💻 代码:Google Colab Pro + GitHub Codespaces
- 🏆 竞赛:Kaggle 入门赛 > 天池学术赛 > KDD Cup
此路径完整覆盖从基础到工业级落地的闭环能力,可根据目标领域(CV/NLP/RL)动态调整侧重点。
知识领域 | 关键工具包 | 应用场景 |
---|
基础 NLP | spaCy, NLTK, Stanza | 文本预处理/分析 |
Transformer 模型 | Hugging Face Transformers | 模型加载/微调 |
提示工程 | LangChain, PromptFlow | 提示设计/链式调用 |
模型微调 | PEFT, TRL | 参数高效微调 |
评估监控 | Weights & Biases, LangSmith | 实验跟踪/生产监控 |
高效推理 | vLLM, TensorRT-LLM | 高性能部署 |
对话系统 | Rasa, Dialogflow | 聊天机器人开发 |
模型类型 | 代表模型 | 特点 | 适用场景 |
---|
通用大模型 | GPT-4, Claude | 强泛化能力 | 开放域生成 |
高效小模型 | Mistral, Phi | 低资源部署 | 边缘设备 |
开源模型 | LLaMA, DeepSeek | 可定制化 | 企业私有化 |
领域专家模型 | CodeLlama, MedPaLM | 垂直领域优化 | 专业场景 |
多模态模型 | Gemini, GPT-4V | 图文理解 | 跨模态生成 |
知识领域 | 关键工具包 | 应用场景 |
---|
基础理论 | NumPy, Matplotlib | 矩阵运算/结果可视化 |
GAN 模型 | PyTorch, TF-GAN, MMGeneration | DCGAN/StyleGAN 实现 |
扩散模型 | Diffusers, Keras-CV | Stable Diffusion 应用 |
图像处理 | OpenCV, Albumentations | 数据增强/预处理 |
评估指标 | pytorch-fid, CLIP | 生成质量评估 |
模型部署 | TensorRT, ONNX Runtime | 生产环境加速 |
交互应用 | Gradio, Streamlit | 用户界面开发 |
知识领域 | 关键工具包 | 应用场景 |
---|
视频处理 | OpenCV, FFmpeg, Decord | 视频编解码/光流计算 |
3D 视觉 | PyTorch3D, Open3D | 神经渲染/动态场景重建 |
视频 GAN | PyTorchVideo, TF-Video | 基础视频生成 |
视频扩散模型 | Stable Video, AnimateDiff | 高质量视频生成 |
评估指标 | FVD 计算器, VMAF | 生成质量评估 |
实时部署 | MediaPipe, NVIDIA Maxine | 实时视频处理 |
交互应用 | Gradio, Streamlit | 用户界面开发 |
模型名称 | 架构类型 | 特点 | 实现工具 |
---|
DVD-GAN | 3D GAN | 双判别器设计 | TensorFlow |
Make-A-Video | 扩散模型 | 文本到视频 | PyTorch |
AnimateDiff | 运动模块 | 插件式动画生成 | Diffusers |
Dynamic NeRF | 神经辐射场 | 动态场景重建 | PyTorch3D |
MagicAnimate | 扩散模型 | 角色动画 | Hugging Face |