通过POST方法采集Ajax刷新页面的教程。
POST方法获取Ajax数据与瀑布流不同。
采集前对新站点进行分析再入手。
该站点列表页非通过Ajax加载,浏览器也看不到相关请求地址。
图片链接:https://a5img.admin5.com/2025/0926/1758876566239.png
图片链接:https://a5img.admin5.com/2025/0926/1758876566874.png
通过查看尾页及源代码,发现无法直接看到列表,浏览器显示一个POST请求的地址。
图片链接:https://a5img.admin5.com/2025/0926/1758876566262.png
图片链接:https://a5img.admin5.com/2025/0926/1758876566926.png
推断后续内容通过Ajax加载。
通过手动访问确认,Ajax加载从约2200页开始。
前段列表页可用常规采集,随后通过Ajax加载。
从2200页起通过POST请求获取Ajax页面数据。
获取POST数据。
浏览器看不到页码相关数据,只能使用抓包工具查看请求。
图片链接:https://a5img.admin5.com/2025/0926/1758876566200.png
使用抓包工具抓取请求。
安装完成后重新访问采集页面,工具会捕获大量请求地址。
分析POST数据。
使用搜索定位该Ajax地址。
图片链接:https://a5img.admin5.com/2025/0926/1758876566822.png
搜索结果高亮显示,点击查看。
图片链接:https://a5img.admin5.com/2025/0926/1758876566699.png
右侧显示请求的详细信息。
图片链接:https://a5img.admin5.com/2025/0926/1758876566794.png
顶部显示为POST请求,向下查看。
包含页码信息。
图片链接:https://a5img.admin5.com/2025/0926/1758876566258.png
通过访问不同页码时发现规律。
图片链接:https://a5img.admin5.com/2025/0926/1758876566906.png
cuRRentPageindex 的值等于页码减一,例如访问6139页时为6138。
找出规律后进入采集器配置。
在工具中设置起始网址为 Ajax 请求地址。
图片链接:https://a5img.admin5.com/2025/0926/1758876566711.png
进入高级模式。
图片链接:https://a5img.admin5.com/2025/0926/1758876566428.png
设置分页为 POST 请求。
图片链接:https://a5img.admin5.com/2025/0926/1758876566957.png
将抓包内容填入设置。
图片链接:https://a5img.admin5.com/2025/0926/1758876566173.png
将 cuRRentPageindex 的值替换为采集器的分页标签。
图片链接:https://a5img.admin5.com/2025/0926/1758876566797.png
填写页码。
地址范围为2200到6140,cuRRentPageindex等于实际页码减一,因此填2199到6139。
图片链接:https://a5img.admin5.com/2025/0926/1758876566250.png
网址获取选项设置。
设置获取选项以筛选所需内容。
打开开发工具预览Ajax获取内容。
图片链接:https://a5img.admin5.com/2025/0926/1758876566966.png
链接形式为:
示例链接路径:/chengRenzikao/20200611152022.html
完整链接地址为 https://域名/chengRenzikao/20200611152022.html
据此提取地址规则。
图片链接:https://a5img.admin5.com/2025/0926/1758876566831.png
测试网址采集。
若提示需要网页编码,请设为 UTF-8。
图片链接:https://a5img.admin5.com/2025/0926/1758876566552.png
链接已正确获取,可复制访问进行验证。
图片链接:https://a5img.admin5.com/2025/0926/1758876566577.png
请控制线程与请求间隔,避免触发对方防护。
建议单线程,间隔约1秒到1.5秒。