最近爬书发现豆瓣的页面规则发生了变化,导致不能爬到评价人数,由此对代码进行了相应的更新,并爬了一些新的数据。
实现功能
1 可以爬下豆瓣读书标签下的所有图书
2 按评分排名依次存储
3 存储到Excel中,可方便大家筛选搜罗,比如筛选评价人数>1000的高分书籍;可依据不同的主题存储到Excel不同的Sheet
4 采用User Agent伪装为浏览器进行爬取,并加入随机延时来更好的模仿浏览器行为,避免爬虫被封(更新于 2015-5-20)
效果截图
试着小小运行了下,爬了七八万本书,结果在book_list.xlsx中,截图如下:
笔者尝试(2016/12/9)
欢迎光临 纳金网 (http://go.narkii.com/club/) | Powered by Discuz! X2.5 |