node.js怎么爬取知乎图片
这篇文章主要介绍“node.js怎么爬取知乎图片”的相关知识,小编通过实际案例向大家展示操作过程,操作方法简单快捷,实用性强,希望这篇“node.js怎么爬取知乎图片”文章能帮助大家解决问题。
原理
初入爬虫的坑,没有太多深奥的理论知识,要获取知乎上帖子中的一张图片,我把它归结为以下几步。
准备一个url
获取这个url的html内容,并分析其中的dom结构,遍历找到这些漂亮的妹纸图片url
获取图片内容
将图片内容写入本地文件
开始动手
大概知道原理之后我们就可以开干了
准备一个url
这个最简单了,去知乎随便一搜就是一大把,我们以
发一张你认为很漂亮的美女照片?
为例子,先来分析一下这个页面的dom结构,其实很简单,知乎的一个页面中会包含很多种类型的图片,有头像,用户评价上传的图片啥的。基本上在noscript种都可以找到对应的图片地址。
获取这个url的html内容,并且拿到当前页面noscript中的img链接
这一步我们需要会点简单的nodejs的知识,以及用到一个库叫cheerio,这个库具体是用来做什么的。
简单来说就是可以在命令行中使用jQuery来搜索遍历获取相应的元素。
那么怎样才能获取这个帖子的html呢
使用nodejs的http模块
varhttp=require('http')getAllHtml(url,callback){letsHtml='',_this=this;http.get(url,(res)=>{res.on('data',(data)=>{sHtml+=data;});res.on('end',()=>{callback.bind(_this,sHtml)();})}).on('error',(err)=>{console.log(err);});}
通过以上操作拿到网站的html之后,便是遍历出我们需要的图片地址来了
filterHtml(sHtml,filePath){let$=cheerio.load(sHtml),//将上一步拿到的网站html传入cheerio.load,便得到类似于包装过的jQuery对象,可以像jQuey的选择器一样来选择元素$Imgs=$('noscriptimg'),imgData=[],_this=this;$Imgs.each((i,e)=>{letimgUrl=$(e).attr('src');//取出对应的urlimgData.push(imgUrl);//将url传入开始下载_this.downloadImg(imgUrl,_this.filePath,function(err){console.log(imgUrl+'hasbedown');});});console.log(imgData);}
有了图片的url,如何下载到本地呢?
我们需要使用request这个库,简单的调用一下api再结合node原生写文件的api。
downloadImg(imgUrl,filePath,callback){letfileName=this.parseFileName(imgUrl);request(imgUrl).pipe(fs.createWriteStream('./'+filePath+'/'+fileName)).on('close',callback&&callback);}
关于“node.js怎么爬取知乎图片”的内容就介绍到这里了,感谢大家的阅读。如果想了解更多行业相关的知识,可以关注主机评测网行业资讯频道,小编每天都会为大家更新不同的知识点。
winlogins.exe是什么文件?winlogins.exe是不是病毒
winsock2.6.exe是什么文件?winsock2.6.exe是不是病毒
WinDefendor.dll是什么文件?WinDefendor.dll是不是病毒
系统目录是什么文件?系统目录是不是病毒
wholove.exe是什么文件?wholove.exe是不是病毒
winn.ini是什么文件?winn.ini是不是病毒
w6oou.dll是什么文件?w6oou.dll是不是病毒
winduxzawb.exe是什么文件?winduxzawb.exe是不是病毒
wuammgr32.exe是什么文件?wuammgr32.exe是不是病毒
windiws.exe是什么文件?windiws.exe是不是病毒