
基本信息:
- 专利标题: 爬虫系统及方法
- 申请号:CN201910835029.4 申请日:2019-09-05
- 公开(公告)号:CN110516139B 公开(公告)日:2023-07-07
- 发明人: 宋海伟
- 申请人: 上海携程商务有限公司
- 申请人地址: 上海市长宁区金钟路968号16号楼10楼
- 专利权人: 上海携程商务有限公司
- 当前专利权人: 上海携程商务有限公司
- 当前专利权人地址: 上海市长宁区金钟路968号16号楼10楼
- 代理机构: 上海弼兴律师事务所
- 代理人: 薛琦; 张冉
- 主分类号: G06F16/951
- IPC分类号: G06F16/951 ; H04L67/1001 ; H04L67/02 ; H04M11/06
摘要:
本发明公开了爬虫系统及方法,其中爬虫系统包括客户端和服务端;服务端包括负载均衡服务器、集群服务器;客户端用于根据预设爬取目标和目标网站的访问要求生成爬取参数,并发送爬取参数至负载均衡服务器;负载均衡服务器用于根据爬取参数生成爬虫任务,并分配爬虫任务至集群服务器;集群服务器用于根据爬虫任务爬取目标网站的目标数据。本发明的客户端用户只需要在客户端根据预设爬取目标和目标网站的访问要求设置爬取参数,生成的爬虫任务统一由集群服务器进行处理,使得系统易于维护,减少研发时长,避免重复研发工作量及降低研发成本。
公开/授权文献:
- CN110516139A 爬虫系统及方法 公开/授权日:2019-11-29
IPC结构图谱:
G | 物理 |
--G06 | 计算;推算;计数 |
----G06F | 电数字数据处理 |
------G06F16/00 | 信息检索;数据库结构;文件系统结构 |
--------G06F16/10 | .文件系统;文件服务器 |
----------G06F16/95 | ..从网上检索 |
------------G06F16/951 | ...索引;网络抓取技术 |