新浪微博爬虫之htmlunit
作者:英雄无敌 日期:2014-02-28
最近研究新浪微博的爬虫,微博api申请繁琐,限制很多,另想办法。
爬微博,首先要登录,httpclient可以做,麻烦,而且微博的登录密码的加密方式不停的在变化,再找找,发现了这个开源htmlunit,完全在java下模拟浏览器行为,这个方便,用来写个登录小程序,几行代码就可以登录,并获取登录后的页面内容。简单方便。
先继续琢磨一下。
爬微博,首先要登录,httpclient可以做,麻烦,而且微博的登录密码的加密方式不停的在变化,再找找,发现了这个开源htmlunit,完全在java下模拟浏览器行为,这个方便,用来写个登录小程序,几行代码就可以登录,并获取登录后的页面内容。简单方便。
先继续琢磨一下。
[本日志由 英雄无敌 于 2014-02-28 09:44 PM 编辑]
上一篇: 别人的行程下一篇: 温暖台湾-出发前
文章来自: 本站原创
引用通告: 查看所有引用 | 我要引用此文章
Tags:
相关日志:
评论: 0 | 引用: 0 | 查看次数: 10710
发表评论