作者微信 bishe2022

代码功能演示视频在页面下方,请先观看;如需定制开发,联系页面右侧客服

网络爬虫又被成为网页蜘蛛、网络机器人,是一种按照一定规则自动抓取万维网的程序或脚本。

    .一定的规则

    .自动抓取

    .网络资源

    .程序或脚本


网络爬虫概述—网页搜索策略

    .广度优先搜索

    在完成当前层次的搜索之后才进行下一层次的搜索。认为与初始URL在一定链接距离内的网页具有主题相关性的概率越大。


    .最佳优先搜索

    按照一定的网页分析算法,预测候选URL与目标网页的相似度或与主题的相关性,

        并选取评价最好的一个或几个URL进行抓取。


    .深度优先搜索

    从起始网页开始,选择一个URL进入,分析这个网页中的URL,选择一个再进入。


采集过程中的工具类—类介绍

    .CharsetUtil          编码检测

    .ClassUtil            返回类所在的路径

    .JsonUtil             JSON格式字符串转化

    .XmlUtil              XML格式字符串转化

    .ParseMD5             md5加密


Home