实现网络图片爬虫，只需5秒快速把整个网页上的图片全下载打包zip

　阿里云优惠券先领券再下单

我们经常需要用到互联网上的一些共享资源，图片就是资源的一种，怎么把网页上的图片批量下载下来?有时候我们需要把网页上的图片下载下来，但网页上图片那么多，怎么下载我们想要的东西呢，如果这个网页都是我们想要的图片,难道我们要一点一点一张一张右键下载吗? 当然不好，这里提供一段Java实现的网络爬虫抓图片代码,程序员同志有喜欢的记得收藏哦。

材料：必须会java开发，用到的核心jar Jsoup自己去网上下载很多。以下是我已经实现的界面化的抓取图片的在线工具，有兴趣的朋友可以按照图片地址打开看看

下图是抓取效果网络上随便找第一个美女图片网站

下面是实现代码：

/**

*模拟用户请求

public final static String UserAgent = "Mozilla/5.0 (Windows NT 6.1; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/63.0.3239.26 Safari/537.36 Core/1.63.6821.400

QQBrowser/10.3.3040.400";

*抓取全部图片地址备注：zfilepath是zip文件路径 url是网页地址 pp是img的其中属性一般是src即可

public static boolean getImgSrc(String zfilepath,String url,String pp){

boolean isb =false;

// 利用Jsoup获得连接

Connection connect = Jsoup.connect(url).timeout(5000);

connect.header("Connection", "Keep-Alive");

connect.header("Content-Type", "application/x-www-form-urlencoded");

connect.header("Accept-Encoding", "gzip, deflate, sdch");

connect.header("Accept", "*/*");

connect.header("User-Agent",Const.UserAgent);

ZipOutputStream out = null;

try {

// 得到Document对象

Document document = connect.ignoreContentType(true).timeout(5000).get();

// 查找所有img标签

Elements imgs = document.getElementsByTag("img");

File zipfile = new File(zfilepath);

out=new ZipOutputStream(new FileOutputStream(zipfile));

int i=1;

Listlistimg = new ArrayList();

for (Element element : imgs) {

//获取每个img标签URL "abs:"表示绝对路径

String imgSrc = element.attr("abs:"+pp);

listimg.add(imgSrc);

}

listimg = removeCf(listimg);

if(listimg!=null && listimg.size()>0){

for(int x=0;x<listimg.size();x++){< p="">

long stime = System.currentTimeMillis();

String imgSrc =listimg.get(x);

// 打印URL

System.out.println(imgSrc);

//下载图片到本地

boolean is = downImages(imgSrc,out);

long etime = System.currentTimeMillis();

float alltime = (float)(etime - stime)/1000;

Map<string,string> rest = new HashMap<string,string>();

rest.put("img",imgSrc);

rest.put("time",(alltime)+"");

rest.put("num",i+"");

rest.put("status","true");

if(is){

rest.put("http","成功");

}else{

rest.put("http","失败");

}

i++;

}

Map<string,string> rest1 = new HashMap<string,string>();

rest1.put("status","true");

rest1.put("msg","打包完成");

System.out.println("下载完成");

isb =true;

}else{

Map<string,string> rest1 = new HashMap<string,string>();

rest1.put("status","true");

rest1.put("msg","未抓取到数据，有可能反爬虫了");

client.sendEvent("chatevent", rest1);

}

} catch (IOException e) {

e.printStackTrace();

Map<string,string> rest = new HashMap<string,string>();

rest.put("status","false");

} catch (InterruptedException e) {

// TODO Auto-generated catch block

e.printStackTrace();

}finally{

try {

if(out!=null){

out.close();

}

} catch (IOException e) {

// TODO Auto-generated catch block

e.printStackTrace();

}

return isb;

}

/**

* 下载图片到指定目录

* @param filePath 文件路径

* @param imgUrl 图片URL

public static boolean downImages(/*String filePath,*/ String imgUrl,ZipOutputStream outStream) {

boolean is = false;

// 若指定文件夹没有，则先创建

/* File dir = new File(filePath);

if (!dir.exists()) {

dir.mkdirs();

}*/

// 截取图片文件名

String fileName = imgUrl.substring(imgUrl.lastIndexOf('/') + 1, imgUrl.length());

try {

// 文件名里面可能有中文或者空格，所以这里要进行处理。但空格又会被URLEncoder转义为加号

String urlTail = URLEncoder.encode(fileName, "UTF-8");

// 因此要将加号转化为UTF-8格式的%20

imgUrl = imgUrl.substring(0, imgUrl.lastIndexOf('/') + 1) + urlTail.replaceAll("\+", "\%20");

/**

* 验证图片格式保证获取动态图片

fileName = vidImg(fileName);

if(fileName.equals("")){

return is;

}

} catch (UnsupportedEncodingException e) {

e.printStackTrace();

}

// 写出的路径

InputStream in = null;

try {

// 获取图片URL

URL url = new URL(imgUrl);

// 获得连接

HttpURLConnection connection = (HttpURLConnection) url.openConnection();

connection.setRequestProperty("User-Agent",Const.UserAgent);

// 设置10秒的相应时间

connection.setConnectTimeout(10 * 1000);

// 获得输入流

in = connection.getInputStream();

byte[] data=readInputStream(in);

outStream.putNextEntry(new ZipEntry(fileName));

outStream.write(data);

is = true;

return is;

} catch (MalformedURLException e) {

e.printStackTrace();

} catch (IOException e) {

e.printStackTrace();

} catch (Exception e) {

// TODO Auto-generated catch block

e.printStackTrace();

}finally{

try {

outStream.closeEntry();

in.close();

} catch (IOException e) {

// TODO Auto-generated catch block

e.printStackTrace();

}

return is;

}

/**

* 去除重复的图片

* @param list

* @return

public static ListremoveCf(Listlist){

ListlistTemp = new ArrayList();

for(int i=0;i<list.size();i++){< p="">

if(!listTemp.contains(list.get(i))){

listTemp.add(list.get(i));

}

return listTemp;

}

喜欢的记得收藏哦

这个工具我已经发布了，地址就是：http://www.yzcopen.com/img/imgdown

申请创业报道，分享创业好点子。点击此处，共同探讨创业新机遇！

三叔站长工具箱上线啦

用户可以在插件市场选择自己想要的插件，下载后既可以在首页使用。

标签：

站长工具
站长大神进阶必备的九项工具介绍

这篇教程是向脚本之家的朋友介绍站长大神进阶必备的九项工具，对于建站的站长来说，是非常值得来了解的，好了，下面跟随小编来看看吧

标签：

站长工具
百度上线站长工具“百度诊站”

现在的站长圈，很多站长都吐槽百度逐渐对网站失去兴趣，但是最近松松编辑杰哥发现百度又低调了上线了一款网站工具“百度诊站”可以用来帮助站长对网站基础信息、SSL证书信息、网站安全状态、网站备案信息、企业工商等网站信息进行综合评测

标签：

站长工具

百度站长平台

百度热搜
搜索引擎蜘蛛（爬虫）工作过程及原理

搜索引擎蜘蛛首先会抓取网页信息，把抓取到的信息存放到搜索引擎临时数据库中，接着搜索引擎会根据自身的甄别原则分析信息价值，有价值的信息保留下来，没有价值的信息进行删除处理。

标签：

搜索引擎蜘蛛

爬虫

搜索引擎的工作原理
淘宝客程序发展淘宝联盟爬虫的注意点

淘宝网现在已经发展的十分成熟，也衍生了淘宝客这个行业，在此之前也是经历了很多很多的阶段才有今天的成绩，通过不断改进和迎合客户的需求和互联网的发展，一次又一次的更新才让人们看到今天的淘宝网。那么淘宝客程序经历了哪些过程呢？

标签：

淘宝客

淘宝联盟

淘宝客程序

爬虫

当前位置：首页 > 科技 > 互联网 > 正文

实现网络图片爬虫，只需5秒快速把整个网页上的图片全下载打包zip

相关文章

三叔站长工具箱上线啦

站长大神进阶必备的九项工具介绍

百度上线站长工具“百度诊站”

搜索引擎蜘蛛（爬虫）工作过程及原理

淘宝客程序发展淘宝联盟爬虫的注意点

热门排行

信息推荐

热门标签

当前位置：首页 > 科技 > 互联网 > 正文

实现网络图片爬虫，只需5秒快速把整个网页上的图片全下载打包zip

相关文章

三叔站长工具箱上线啦

站长大神进阶必备的九项工具介绍

百度上线站长工具“百度诊站”

搜索引擎蜘蛛（爬虫）工作过程及原理

淘宝客程序发展 淘宝联盟爬虫的注意点

热门排行

信息推荐

热门标签

淘宝客程序发展淘宝联盟爬虫的注意点