网络爬虫实战案例：自动化Cuit University文件上传

1. 案例背景与核心问题

本次案例的目标是实现对Cuit University教务管理系统的文件自动化上传。我们的挑战在于，这个过程并非简单的“发送一个文件”，而是一个包含多步认证、会话保持和多阶段API调用的复杂流程。我们将用Python代替浏览器，精确地模拟每一步操作。

2. 分析问题的方法、流程与工具

这是一项典型的“逆向工程”任务，其核心在于模仿浏览器行为。我们的分析方法遵循一个清晰的循环：“观察-假设-验证”。

第一步：观察 – 浏览器是最好的老师

工具：Chrome/Firefox等现代浏览器的开发者工具（F12）。
流程：
1. 打开开发者工具，进入“Network”（网络）标签页。
2. 清空所有网络日志。
3. 在浏览器中手动执行完整的操作流程（如输入账号密码、点击登录、上传文件）。
4. 观察开发者工具记录下来的每一个请求。

我们从登录页面开始，到文件上传成功，记录了所有请求的URL、方法、请求头（Request Headers）和有效负载（Payload）。

第二步：假设 – 还原数据流动

工具：头脑、纸笔或文本编辑器。
流程：
1. 登录流程：我们观察到两个核心请求。第一个是AJAX的loginCheck，用于前端验证。第二个是表单提交到/authserver/login。我们据此推断，需要先模拟Ajax请求，然后才能发送最终的登录表单。
2. 文件上传流程：这是最复杂的部分。我们观察到了多个请求，它们并非并行，而是串联的。例如，上传文件的请求（/rman/v1/upload/...）返回了contentId，而下一个请求（/learn/v1/teaching/...）的Payload中恰好使用了这个ID。我们由此假设，这是一个**“先上传后绑定”**的流程。

第三步：验证 – 编写代码并测试

工具：Python requests库。
流程：
1. 登录验证：我们编写了get_session()函数，模拟两次登录请求。我们使用requests.Session对象来自动管理Cookie。为了验证会话是否有效，我们向一个需要登录权限的info接口发送请求，如果状态码为200，则验证通过。
2. 会话Cookie：我们发现get_dict(domain='kczx.cuit.edu.cn')返回空。通过进一步验证，我们发现requests会话对象已经正确地持有了TGC等Cookie，只是它们绑定在更宽泛的域名上，但仍然有效。
3. 文件上传：我们根据之前的假设，分阶段编写代码，从sensitiveword检查到upload再到add/newresource。我们发现，真正的上传请求类型是multipart/form-data，并且需要URL编码。

通过不断地测试、观察和调整代码，我们最终成功地将整个流程用Python精确地实现了。

3. 网络安全与管理技术分析

在整个过程中，我们遭遇和分析了服务器端的多种安全和管理措施。

1. 多阶段认证与会话管理

技术：requests.Session、CAS（Central Authentication Service）单点登录。
体现：服务器并非仅通过一个请求来验证身份。它使用一个TGC（Ticket Granting Cookie）来标识用户的登录状态，并在重定向到业务子系统（kczx.cuit.edu.cn）时，通过服务票据（Service Ticket）来授权。这确保了认证的集中管理和跨子系统的会话一致性。

2. 文件类型与安全检查

技术：文件后缀黑名单、Content-Type验证、MIME类型嗅探。
体现：当尝试上传.py文件时，即使手动修改了Content-Type，上传依然失败。这说明服务器在后端进行了额外的安全检查。它可能有一个黑名单，直接拒绝.py、.exe等可执行文件。然而，我们发现使用mimetypes库动态获取Content-Type后，文件上传成功，这说明服务器的验证机制并非无法绕过，可能只检查了Content-Type是否合理，而不是严格校验文件后缀与类型的一致性。

3. API业务逻辑与数据流

技术：contentId等动态ID、多阶段API调用、JSON响应体。
体现：文件上传并非一次性完成，而是分解为“初始化-上传-绑定”三个独立的API调用。每个阶段的响应（例如contentId）都会作为下一个请求的输入。这种设计增加了系统的复杂性，也提升了安全性，因为攻击者需要完整地模拟整个流程，而不是单独攻击一个接口。

4. 解决这类问题的通用思路与方法

对于任何想用Python实现自动化操作的初学者，我们的经验可以总结为一套通用的方法论。

第一步：明确目标

在动手写代码之前，先清晰地定义你想要自动化什么任务（登录、上传、下载、查询）。

第二步：手动操作与观察

始终从浏览器开始。 浏览器是“用户-服务器”交互的黄金标准。它忠实地执行每一个请求，并记录所有细节。开发者工具是你的“上帝视角”。

第三步：识别关键数据

找出请求中哪些是静态数据（如URL路径），哪些是动态数据（如登录后的execution、上传后的contentId）。
特别注意那些在请求之间传递的“桥梁”数据，它们是连接各个步骤的关键。

第四步：选择合适的工具

对于大多数网页自动化：requests库（用于处理网络请求）和BeautifulSoup（用于解析HTML内容）。
对于复杂的JavaScript渲染：如果网站内容是通过JavaScript动态加载的，可能需要Selenium或Playwright等工具来模拟真实的浏览器环境。

第五步：分阶段实现与验证

不要试图一次性完成所有事情。从最简单的步骤开始，比如登录。
为每个步骤添加验证。在登录后，检查会话是否有效；在上传后，检查响应中是否有成功的标志。这能帮助你快速定位问题。

以“下载文件”为例

如果要用Python实现文件下载，你的着手点将是：

在浏览器中手动点击下载链接，观察开发者工具中文件下载的请求。
这个请求的URL是关键。通常是一个GET请求。
用Python requests库发送一个GET请求到这个URL。
将响应内容（response.content）写入一个本地文件。

整个过程依然是：观察-找到URL-发送请求-保存响应。

通过这个案例，我们希望你能明白，网络爬虫不仅仅是编写代码，更是一种严谨的问题分析和解决过程。通过像一个侦探一样，耐心观察、合理假设、反复验证，你就能解开网站背后的谜团，实现几乎任何自动化任务。

https://g.co/gemini/share/d739a714a7d5