作者:CDQ刷百度指数 时间:2018-06-06 16:58
【广州刷百度指数】如何使用爬虫抓取百度指数里的搜索指数?
为了保护数据,网站会不时修改算法,下面的经验是过去没多久我给一高校的大数据实验室做的方案。
爬搜索指数,要解决3大技术问题:1)模拟鼠标在图表上移动,让爬虫抓取悬浮出来的信息,要使用动态爬虫技术。2)数字是图片格式的,而且不是完整的图片,要拼图。3)要用ocr把数字识别出来。详述如下:
百度指数抓取要比淘宝指数难,因为他们的数字用图片显示的。还不是普通的图片,比如,12345,这串数字不是在图片上挨着显示的,而是在一张大背景图上,好多乱码,其中包含这5个数字,用css控制,把这5个数字按照顺序“露”出来。这样,OCR程序也犯难了。我给大数据实验室这样做的:用GooSeeker把图、css参数等等抓取下来,根据css的定位,把数字小图切下来,合一起交给ocr。
【广州刷百度指数】数据抓取就是这样,只要有足够投入,很多数据都能抓,是否值得去做?我驱动火狐内核,一般来说能看到的内容基本上能抓下来,还能模拟所有需要的动作,但是,这些都需要投入费用。