【Work】

新浪微博爬虫之htmlunit

作者:英雄无敌日期:2014-02-28

字体大小: 小中大

        最近研究新浪微博的爬虫，微博api申请繁琐，限制很多，另想办法。

    爬微博，首先要登录，httpclient可以做，麻烦，而且微博的登录密码的加密方式不停的在变化，再找找，发现了这个开源htmlunit，完全在java下模拟浏览器行为，这个方便，用来写个登录小程序，几行代码就可以登录，并获取登录后的页面内容。简单方便。

      先继续琢磨一下。

[本日志由英雄无敌于 2014-02-28 09:44 PM 编辑]

上一篇: 别人的行程

下一篇: 温暖台湾-出发前

文章来自: 本站原创

引用通告: 查看所有引用 | 我要引用此文章

Tags:

相关日志:

评论: 0 | 引用: 0 | 查看次数: 12584

发表评论

昵　称:	记住我的信息
密　码:	游客发言不需要密码.
邮　箱:	邮件地址支持Gravatar头像,邮箱地址不会公开.
网　址:	输入网址便于回访.
内　容:	正在加载编辑器...
验证码:	点击获取验证码
选　项:	禁止表情转换禁止自动转换链接禁止自动转换关键字

虽然发表评论不用注册，但是为了保护您的发言权，建议您注册帐号. 字数限制 5000 字 \| UBB代码关闭 \| [img]标签关闭