网络爬虫.zip
作者QQ549710689
网络爬虫又被成为网页蜘蛛、网络机器人,是一种按照一定规则自动抓取万维网的程序或脚本。
.一定的规则
.自动抓取
.网络资源
.程序或脚本
网络爬虫概述—网页搜索策略
.广度优先搜索
在完成当前层次的搜索之后才进行下一层次的搜索。认为与初始URL在一定链接距离内的网页具有主题相关性的概率越大。
.最佳优先搜索
按照一定的网页分析算法,预测候选URL与目标网页的相似度或与主题的相关性,
并选取评价最好的一个或几个URL进行抓取。
.深度优先搜索
从起始网页开始,选择一个URL进入,分析这个网页中的URL,选择一个再进入。
采集过程中的工具类—类介绍
.CharsetUtil 编码检测
.ClassUtil 返回类所在的路径
.JsonUtil JSON格式字符串转化
.XmlUtil XML格式字符串转化
.ParseMD5 md5加密