本章为概念阅读 · 预计 12 分钟
能读到这一章,先恭喜你。
从 python0 一路走到 python27,我们一起聊过变量、函数、面向对象、异常、文件、模块、虚拟环境、类型注解、pathlib、dataclass 与 Pydantic、上下文管理器、async/await + httpx、pyproject.toml、uv、pytest、Git 协同、CI/CD、PyPI 发包……整整二十八章,几十万字,几百段代码。走到这里,你已经不是「只会写 print('hello')」的初学者了,而是一个能从零搭项目、能写测试、能发包、能跟团队协作的、真正意义上的 Python 工程师。
可是你有没有发现一件事——读完这二十八章,会的东西看起来很多,可一旦关上书,又好像不知道接下来该写点啥?
这种感觉很正常。Python 的语法和工程化只是地基,地基打好了之后,往上面盖什么样的房子,得你自己挑。Python 的世界很大——大到一辈子也学不完。但是大归大,主流方向其实就那么几个,挑一个跟着做,比漫无目的地刷教程强一百倍。
这一章不教语法、不写大段代码,就给你三个最主流的 Python 出路:
每个方向我们会讲三件事:为什么选它、必备库清单、三个起点项目。挑一个最对你胃口的,把项目跟着撸完,比读十本书都顶用。
走起。
翻一翻 2026 年的招聘网站,搜「Python 工程师」三个字,跳出来的岗位大半带着「数据」、「算法」、「AI」、「LLM」、「大模型」、「机器学习」这些词。这不是巧合——Python 是 AI 时代事实上的母语。
为啥?讲三层原因——
第一层是生态。从 2010 年代初的 numpy/pandas,到 2015 年的 scikit-learn,到 2017 年的 tensorflow/pytorch,到 2022 年之后 transformers/langchain/openai/anthropic 各种 SDK,二十年下来,AI 圈所有重要的库第一个版本都是 Python 写的。其他语言不是不能用,是用了之后发现「跟主流社区接不上」——别人发论文用 PyTorch,你用 Julia 或者 Rust 重写一遍,论文复现都没人跟你聊。
第二层是节奏。AI 圈是一个**「论文今天发,明天就有人开源代码」的圈子。这种节奏下,能一行 pip install 装上的 Python 库,比要编译半小时的 C++/Rust 库快一万倍。语言性能不是不重要,而是先跑通、再优化**这个顺序在 AI 圈被压得特别极端,Python 正好是「先跑通」这一步的最优解。
第三层是钱。2026 年的 AI 工程师薪资在所有 Python 方向里最高——一线城市资深岗位 50k-80k 不算稀奇,应届生只要能讲清楚一两个 LLM 项目,起薪 30k 也很常见。这里不是劝你「为钱学 AI」,而是说——AI 方向的市场需求、薪资上限、想象空间都摆在那儿,往这个方向走的回报曲线很陡。
所以——如果你对「让机器自己学」、「让模型替我写代码」、「让程序看图说话」这些话题感兴趣,AI 这条路推荐认真看一眼。
数据/AI 方向的库分四个层次,从下往上——
| 层次 | 代表库 | 干啥用的 |
|---|---|---|
| 数据基础 | numpy、pandas、matplotlib、jupyter | 数组、表格、画图、交互式笔记本,俗称「数据四件套」 |
| 数据增强 | polars、seaborn、plotly | pandas 的 Rust 升级版、统计图美化、交互图 |
| 传统 ML | scikit-learn、xgboost、lightgbm | 分类、回归、聚类、决策树、梯度提升 |
| 深度学习 | pytorch、transformers、huggingface_hub | 神经网络框架、预训练模型一行加载 |
| LLM 应用 | anthropic、openai、langchain、llama-index | 调商业 LLM、做 RAG、做 Agent |
看完这张表估计有点懵——「学这么多?」别慌,这张表是地图,不是清单。地图给你看「这个方向有啥风景」,真正学的时候按下面的路径来——
numpy 算数组、pandas 处理表格、matplotlib 画图、jupyter 当画板。这四个库吃透,70% 的数据分析任务都能干。scikit-learn 是传统 ML 的入口:决策树、随机森林、SVM、KMeans 这些经典算法都在里面,API 极其统一——fit 训练、predict 预测,三行代码跑一个模型。transformers 是深度学习的捷径:HuggingFace 把所有主流预训练模型(BERT、GPT-2、Llama、Qwen)打包成统一接口,一行 pipeline('sentiment-analysis') 就能跑情感分析。你不用从 PyTorch 开始啃,直接用预训练模型干活,遇到瓶颈再往下钻。anthropic 调 Claude、openai 调 GPT,加上 langchain 做编排、llama-index 做 RAG,这套组合是当前**「LLM 应用工程师」**这个新岗位的标配。「polars 凭啥能挑战 pandas?」这个问题再多说一句——polars 是 Rust 写的 DataFrame 库,速度比 pandas 快 5-10 倍,API 更现代(强类型、惰性求值、不容易写错)。2024 年之后越来越多新项目首选 polars。但是 pandas 生态太成熟、教程太多,入门还是建议从 pandas 开始,等你写多了 pandas 觉得「这语法真烦」的时候,自然就会去看 polars。
pandas 分析一份公开数据集jupyter 里读进来,做 5 个分析:缺失值统计、分布直方图、相关性热力图、分组聚合、画一张能讲故事的图pandas 的 read_csv/groupby/merge/pivot_table 全套基础操作;matplotlib 和 seaborn 画图;用 jupyter 写「能给别人看」的分析报告这个项目强烈建议第一个就做。它不光教 pandas,还培养一个 AI 工程师必备的习惯——面对一份陌生数据,第一反应是去看分布、看缺失、看异常值,而不是闷头写模型。
transformers 跑一个本地分类模型pipeline('sentiment-analysis') 做一个「电影评论好坏判断器」。先用预训练模型直接跑,再下载 IMDB 评论数据集做微调(fine-tune),把准确率从 85% 提到 92%transformers 的 pipeline 用法、HuggingFace Hub 怎么找模型、Trainer API 微调流程、GPU 和 CPU 切换、模型保存和加载「我没显卡咋办?」用 Google Colab。免费给 T4 GPU,跑这种小模型够用。或者用 Apple Silicon 的 MPS 后端,M 系列芯片本地训练也能跑。
pypdf 抽文字 → 切成 2000 字一段 → 每段调 anthropic SDK 让 Claude 总结 → 最后再让 Claude 把所有片段总结汇总成一份anthropic SDK 用法、API key 管理(.env + python-dotenv)、长文本切分策略、prompt engineering 入门、流式输出这个项目跟 2026 年的工作场景贴得最近。在公司里写一个这种工具,立马能解决「每周看 5 篇行业报告」的痛点。
「Web 后端」听起来很老,2026 年还有人写吗?
有,而且特别多。原因很简单——所有公司都需要 API。前端框架换了一茬又一茬(Vue、React、Svelte),App 端从原生到混合到跨平台,但是后端始终在那儿,吭哧吭哧地处理请求、读数据库、调外部服务、返回 JSON。
Web 后端不会消失,只会变得更重要——因为:
那 Python 写后端跟 Java、Go、Node 比有啥优势?三点——
fastapi + pydantic + sqlmodel + uv 这套现代栈,类型安全、文档自动生成、性能也跟得上,跟 Go 比不再被吊打| 角色 | 代表库 | 干啥用的 |
|---|---|---|
| Web 框架 | fastapi、starlette | 写 API,主流首选 |
| 数据校验 | pydantic | 请求体、响应体的类型校验,跟 fastapi 深度集成 |
| ASGI 服务器 | uvicorn、hypercorn、granian | 跑 fastapi 的服务器,生产环境一般是 uvicorn + gunicorn |
| ORM | sqlalchemy 2.x、sqlmodel | 操作数据库,sqlmodel 是 fastapi 作者写的 SQLAlchemy 简化版 |
| 数据库迁移 | alembic | 表结构变更管理,加一个字段、改一个类型 |
| 缓存 | redis-py、aiocache | Redis 客户端、内存缓存 |
| 异步任务 | celery、dramatiq、arq | 后台跑邮件、爬虫、定时任务 |
| 认证 | python-jose、passlib、authlib | JWT、密码哈希、OAuth |
| HTTP 客户端 | httpx | 调外部 API,同步异步都行 |
| 测试 | pytest、httpx.AsyncClient | 接口测试 |
「列了这么多咋下手?」从下往上分阶段——
fastapi 和 uvicorn,写一个 50 行的 main.py 跑起来,用浏览器打开 http://localhost:8000/docs 看自动生成的 Swagger 文档。这一步 30 分钟搞定,立马上瘾。sqlmodel,加一个 SQLite 数据库(不用单独装,Python 自带),写一组 CRUD 接口(增删改查)。这一步走通,你已经能写一个像样的 API 了。python-jose 和 passlib,加一个 /login 接口发 JWT,加一个 Depends(get_current_user) 保护其他接口。这一步搞完,你的 API 就是「企业级」的了。celery 或者更轻量的 dramatiq,把「发邮件」、「生成 PDF」这种耗时任务丢到后台跑。这一步进入「真生产」级别。「Django 呢?」Django 5.x 在 2026 年仍然活得很好——它跟 fastapi 是两种哲学:
fastapi 是「积木式」:从空白开始,需要啥装啥,适合 API、微服务、AI 后端django 是「全家桶式」:Admin 后台、ORM、模板、表单、用户系统全自带,适合**「一个团队从零做一个完整网站」**这种场景如果你以后想做内容站、电商、企业内部系统,Django 仍然是好选择。但如果你的目标是 AI 后端、微服务、移动 App 后端,fastapi 是 2026 年的默认答案。
sqlmodel 做 ORM,用 pytest 写 5 个接口测试fastapi 路由、pydantic 模型、sqlmodel ORM 的 select/session.add/session.commit、pytest 写接口测试、Swagger 文档怎么用这个项目建议所有想学 Web 后端的人都做一遍。它麻雀虽小,五脏俱全——做完之后,你会真切体会到「用 Python 写 API 真的快」这个事情。
User 表、一个 /register 注册接口、一个 /login 登录接口(返回 JWT)、其他接口全部加 Depends(get_current_user) 保护起来。每个 todo 关联一个 user_id,只能查/改自己的passlib 怎么做密码哈希、fastapi 的 Depends 依赖注入、关系型数据库的外键和 join、权限的「行级隔离」JWT 是 2026 年 Web 后端最常考的概念。这一关过了之后,看任何后端项目都不慌。
celery + redis,把发邮件函数标成 @app.task,注册接口里 send_welcome_email.delay(user.email) 一发就返回,邮件由 worker 在后台真去发celery 的 broker 和 backend、redis 怎么当队列、worker 怎么部署、为啥要异步任务(用户体验、稳定性)这个项目做完,你已经摸到了**「分布式后端」**的门。后面学 Kafka、学微服务,都是基于这个思路扩展出去的。
你有没有听过 Python 的外号——「胶水语言」?
这个外号不是夸 Python 跑得快、不是夸 Python 类型安全、是夸 Python 「啥都能粘一下」。Python 的标准库巨大、第三方生态庞大,跟系统调用、跟 HTTP、跟数据库、跟文件、跟 Excel、跟 PDF、跟微信、跟钉钉……几乎所有「重复劳动」的场景,都能被 Python 做成一段脚本。
这个方向有几个特点——
如果你的目标是**「让自己每天的工作更轻松」,或者「想做一些能马上看到效果的小项目」**,自动化方向是性价比最高的选择。
| 用途 | 代表库 | 干啥用的 |
|---|---|---|
| HTTP 请求 | requests、httpx | 调 API、爬网页,httpx 支持异步 |
| 网页抓取 | beautifulsoup4、lxml、playwright、selenium | 解析 HTML、自动控制浏览器 |
| 定时任务 | schedule、apscheduler | 每天 9 点跑一次、每隔 5 分钟跑一次 |
| 远程操作 | paramiko、fabric | SSH 到服务器执行命令 |
| 终端 UI | rich、textual | 彩色输出、表格、进度条、TUI 应用 |
| CLI 框架 | click、typer | 写命令行工具,参数解析比 argparse 优雅十倍 |
| 配置文件 | pyyaml、tomllib、configparser | YAML、TOML、INI 解析 |
| 文件操作 | pathlib、shutil、watchdog | 路径操作(标准库)、文件监听 |
| 办公自动化 | openpyxl、python-docx、pypdf | Excel、Word、PDF |
| 通知 | webhook(钉钉/飞书/Slack) | 出事了发消息 |
「这一坨咋学?」自动化方向不要按照清单学,按项目学。脑子里有一个「我每天/每周做的某件麻烦事」,然后用上面的库去做掉它,需要啥学啥,半年下来这个清单自然就熟了。
rich 这个库必须单独夸一句。它是 Will McGugan 写的,让 Python 终端输出变彩色、变带格式,进度条、表格、Markdown 渲染、错误堆栈高亮全部内置。装了它之后,写出来的命令行工具立马「像样」了一个量级。textual 是同一个作者搞的 TUI 框架——在终端里搞出一个响应式应用,跟 Web 一样的组件化思路,可玩性极高。
apscheduler 调度,HTTP 用 httpx,HTML 解析用 beautifulsoup4这个项目可以做出好几个版本——监控博客订阅、监控演唱会票务、监控购物网站降价,都是它的变种。做完一个之后,每次想监控啥东西改两行就能新开一个,复用率超高。
~/Documents/重要资料)打成 zip,按日期命名(backup-2026-04-28.zip),上传到阿里云 OSS 或者 AWS S3,再删除超过 30 天的旧备份。脚本用 apscheduler 调度,压缩用标准库 zipfile,上传用 oss2 或 boto3pathlib)、zip 压缩、对象存储 SDK 用法、密钥管理(.env)、生命周期管理(按日期清理)、日志(logging)「这有啥用?」平时电脑里的代码、笔记、设计稿,是不是哪天硬盘坏了就全没了?这种自动备份脚本写一次,用十年。一个 2018 年写的备份脚本可以稳稳跑到今天,从来不用改。
textual 写一个终端版的 todo 应用——左侧列表显示所有 todo、右侧详情可编辑、底部状态栏显示统计、按 n 新建、按 d 删除、按 e 编辑。数据存本地 JSON 文件textual 的组件、布局、事件、CSS 样式(对,TUI 也用 CSS)、键盘快捷键绑定、应用状态管理这个项目难度稍高,但是做完之后你会发现——「原来终端里也能写出像 VSCode 一样的应用」。这种成就感是其他项目给不了的。
不管你最后挑哪个方向,下面这几样横向技能都要懂——它们是 2026 年所有 Python 工程师的「通用底盘」:
add / commit / push,还要会 branch / merge / rebase / cherry-pick,看得懂 git log --graph。python25 那一章已经聊过,回头再翻一遍。Dockerfile,跑 docker compose up 把应用 + 数据库 + 缓存一把启动。后端方向尤其要会。ssh / cd / ls / grep / awk / tail -f / ps / top / systemctl,会用 vim 改个配置文件。运维方向必须会,其他方向也得懂个皮毛。SELECT / JOIN / GROUP BY / WHERE / INDEX。后端和数据方向必备,自动化方向偶尔也会用到。这些不需要专门学,做项目的时候遇到了再补,半年下来就熟了。重点是不要看到不熟的概念就绕开,每次都现学现用,知识自然就长上身了。
读到这里,估计心里在打鼓——「到底选哪个?」
给一个简单的判断标准——
或者更简单——哪个方向的「起点项目」让你看完想立刻动手,就选哪个。这种「想动手」的冲动,是最准的内心指南针。
「能不能混搭?」当然能。「自动化 + AI」就是很常见的混搭——日常用 Python 写小工具,工具里塞 LLM 调用,每个工具都比纯写脚本聪明十倍。三个方向之间没有壁垒,只要语法和工程化的地基稳,从哪条路都能走到尽头。
但是起步阶段建议「专一」——选一个方向做半年,把上面三个项目都撸完,再考虑横向扩张。一开始三个方向同时学,结果就是三个方向都半瓶水,啥都拿不出手。
学到这里,你已经从「教程读者」毕业了,接下来要自己进社区。下面这几个频道值得长期跟着——
教程是死的,社区是活的,能跟一群人一起进步,比一个人闷头啃书强一万倍。
写到这里,忍不住要回到 python0 那一章的开头——「学习 Python 需要一步一个脚印,踏踏实实地学。」
一步一个脚印听着像废话,但是落到每一天——每天写 50 行代码、每天读一篇文档、每天 commit 一次——半年下来就是质变。学 Python 没啥诀窍。
学完 python28,你手里已经有了一整套Python 工程师的工具箱——语法、生态、工程化、协作流程,外加一张「下一站去哪」的地图。怎么用这套工具箱,盖出怎样的房子,从今往后是你自己的事了。
最后送给所有读到这里的朋友三句话——
祝前程似锦,代码常青。
我们下次再见。