[轉]新浪微博 爬取實現之微博登錄
對于新浪微博的頁面是要用戶登錄之后才能進入的,如http://weibo.com/pub/topic,那么爬蟲也必須登錄上新浪微博才能爬取內容,在這里實現下新浪微博的登錄功能,到現在還有一些問題沒解決,但可以實現必須登錄后才能進入的頁面的文本捕獲了。
先分析下微博登錄提交的內容,新浪微博主頁登錄向服務器提交的是使用POST的,post附帶的參數有
entry:weibogateway:1from:savestate:7useticket:1ssosimplelogin:1vsnf:1vsnval:su:NDY0Mjg5NTg4JTQwcXEuY29tservice:miniblogservertime:1321269451nonce:HGE0XB pwencode:wssesp:a3135915db1b5d15a47a43e550d89e1499a26a9bencoding:UTF-8url:http://weibo.com/ajaxlogin.php?framelogin=1&callback=parent.sinaSSOController.feedBackUrlCallBackreturntype:META在這些參數中su是用戶的用戶名使用base64編碼的;servertime是該動作的開始時間,nonce是隨機產生的6為隨機數,pwencode:wsse應該指的是密碼格式的編碼了,sp是密碼的通過編碼后的形式。對于我現在的應用只需要這幾個參數就好了。
接著分析下這些參數吧:
request.su=sinaSSOEncoder.base64.encode(urlencode(username)); |
用戶名通過了urlencode和base64編碼后才提交的;
servertime在哪里忘記了,通過獲取時間/1000就可以得到servertime了;
var makeNonce=function(len){var x="ABCDEFGHIJKLMNOPQRSTUVWXYZ0123456789";var str="";for(var i=0;i<len;i++){str+=x.charAt(Math.ceil(Math.random()*1000000)%x.length)}return str}; |
nonce參數是上面函數得到的;
sp的得到就相對比較麻煩一些,是通過password,servertime,nonce 共同編碼后得到的數據;使用的編碼函數是
var sinaSSOEncoder=sinaSSOEncoder||{};(function(){var i=0;var g=8;this.hex_sha1=function(j){return h(b(f(j),j.length*g))};var b=function(A,r){A[r>>5]|=128<<(24-r%32);A[((r+64>>9)<<4)+15]=r;var B=Array(80);var z=1732584193;var y=-271733879;var v=-1732584194;var u=271733878;var s=-1009589776;for(var o=0;o<A.length;o+=16){var q=z;var p=y;var n=v;var m=u;var k=s;for(var l=0;l<80;l++){if(l<16){B[l]=A[o+l]}else{B[l]=d(B[l-3]^B[l-8]^B[l-14]^B[l-16],1)}var C=e(e(d(z,5),a(l,y,v,u)),e(e(s,B[l]),c(l)));s=u;u=v;v=d(y,30);y=z;z=C}z=e(z,q);y=e(y,p);v=e(v,n);u=e(u,m);s=e(s,k)}return Array(z,y,v,u,s)};var a=function(k,j,m,l){if(k<20){return(j&m)|((~j)&l)}if(k<40){return j^m^l}if(k<60){return(j&m)|(j&l)|(m&l)}return j^m^l};var c=function(j){return(j<20)?1518500249:(j<40)?1859775393:(j<60)?-1894007588:-899497514};var e=function(j,m){var l=(j&65535)+(m&65535);var k=(j>>16)+(m>>16)+(l>>16);return(k<<16)|(l&65535)};var d=function(j,k){return(j<<k)|(j>>>(32-k))};var f=function(m){var l=Array();var j=(1<<g)-1;for(var k=0;k<m.length*g;k+=g){l[k>>5]|=(m.charCodeAt(k/g)&j)<<(24-k%32)}return l};var h=function(l){var k=i?"0123456789ABCDEF":"0123456789abcdef";var m="";for(var j=0;j<l.length*4;j++){m+=k.charAt((l[j>>2]>>((3-j%4)*8+4))&15)+k.charAt((l[j>>2]>>((3-j%4)*8))&15)}return m};this.base64={encode:function(l){l=""+l;if(l==""){return""}var j="";var s,q,o="";var r,p,n,m="";var k=0;do{s=l.charCodeAt(k++);q=l.charCodeAt(k++);o=l.charCodeAt(k++);r=s>>2;p=((s&3)<<4)|(q>>4);n=((q&15)<<2)|(o>>6);m=o&63;if(isNaN(q)){n=m=64}else{if(isNaN(o)){m=64}}j=j+this._keys.charAt(r)+this._keys.charAt(p)+this._keys.charAt(n)+this._keys.charAt(m);s=q=o="";r=p=n=m=""}while(k<l.length);return j},_keys:"ABCDEFGHIJKLMNOPQRSTUVWXYZabcdefghijklmnopqrstuvwxyz0123456789+/="}}).call(sinaSSOEncoder); |
得到得到sp的函數為
password=sinaSSOEncoder.hex_sha1(""+sinaSSOEncoder.hex_sha1(sinaSSOEncoder.hex_sha1(password))+me.servertime+me.nonce)}request.sp=password;return request}; |
必要的參數已經分析到了,只要封裝http包先服務器發送即可。我使用的是java實現,把上面一些javascript函數改寫成java函數
//用戶名編碼private String encodeAccount(String account){ return Base64.encodeBase64String(URLEncoder.encode(account).getBytes()); }//六位隨機數nonce的產生private String makeNonce(int len){ String x="ABCDEFGHIJKLMNOPQRSTUVWXYZ0123456789"; String str = ""; for(int i=0;i<len;i++){ str+=x.charAt((int) (Math.ceil(Math.random()*1000000)%x.length())); } return str; }//servertime的產生private String getServerTime(){ long servertime = new Date().getTime()/1000; return String.valueOf( servertime); }//密碼的編碼this.sp = new SinaSSOEncoder().encode(this.pwd, this.servertime, this.nonce); |
SinaSSOEncoder編碼類的實現
package com.sinaweibo;//新浪微博密碼加密的算法 public class SinaSSOEncoder { private boolean i=false; private int g=8; public SinaSSOEncoder(){ } public String encode(String psw,String servertime,String nonce){ String password; password=hex_sha1(""+hex_sha1(hex_sha1(psw))+servertime+nonce); return password; } private String hex_sha1(String j) { return h(b(f(j,j.length()*g), j.length() * g)); } private String h(int[] l){ String k = i ? "0123456789ABCDEF" : "0123456789abcdef"; String m = ""; for (int j = 0; j < l.length * 4; j++) { m += k.charAt((l[j >> 2] >> ((3 - j % 4) * 8 + 4)) & 15) + "" + k.charAt((l[j >> 2] >> ((3 - j % 4) * 8)) & 15); } return m; } private int[] b(int[] A,int r){ A[r>>5]|=128<<(24-r%32); A[((r+64>>9)<<4)+15]=r; int[] B = new int[80]; int z = 1732584193; int y = -271733879; int v = -1732584194; int u = 271733878; int s = -1009589776; for (int o = 0; o < A.length; o += 16) { int q = z; int p = y; int n = v; int m = u; int k = s; for (int l = 0; l < 80; l++) { if (l < 16) { B[l] = A[o + l]; } else { B[l] = d(B[l - 3] ^ B[l - 8] ^ B[l - 14] ^ B[l - 16], 1); } int C = e(e(d(z, 5), a(l, y, v, u)), e(e(s, B[l]), c(l))); s = u; u = v; v = d(y, 30); y = z; z = C; } z = e(z, q); y = e(y, p); v = e(v, n); u = e(u, m); s = e(s, k); } return new int[]{z,y,v,u,s}; } private int a(int k,int j,int m,int l){ if(k<20){return(j&m)|((~j)&l);}; if(k<40){return j^m^l;}; if(k<60){return(j&m)|(j&l)|(m&l);}; return j^m^l; } private int c(int j){ return(j<20)?1518500249:(j<40)?1859775393:(j<60)?-1894007588:-899497514; } private int e(int j, int m) { int l = (j & 65535) + (m & 65535); int k = (j >> 16) + (m >> 16) + (l >> 16); return (k << 16) | (l & 65535); } private int d(int j,int k){ return(j<<k)|(j>>>(32-k)); } private int[] f(String m,int r){ int[] l; int j = (1<<this.g)-1; int len=((r+64>>9)<<4)+15; int k; for(k=0;k<m.length()*g;k+=g){ len = k>>5>len?k>>5:len; } l = new int[len+1]; for(k=0;k<l.length;k++){ l[k]=0; } for(k=0;k<m.length()*g;k+=g){ l[k>>5]|=(m.charAt(k/g)&j)<<(24-k%32); } return l; }} |
得到這幾個參數后連通其他的一些參數,其他的參數內容不需要改變,一起封裝成HTTP包先服務器發送即可,到這一步,已經完成得差不多了,提交 到服務器后服務器返回了一些Cookie,有六個tgc,SUE,SUP,ALC,ALF,SUR。登錄新浪微博提交的Cookie有很多,但在訪問需要 用戶登錄的頁面只需要這里面的2個參數即可, SUE,SUP;還有一個wvr的參數,其值為4,其他的參數還沒去理解,為了方便我把所有服務器返回的Cookie全都封裝在HTTP包里了。
要訪問其他的之前需要登錄的頁面時,這需要在提交的http包的Header加上Cookie項,值為獲得的這幾個參數加上wvr=4就好了。這就會發現原來不能直接訪問的頁面,現在可以訪問了。
分析數據是個挺花時間的過程,但最終能實現還是很爽的。。。
一些其他的參數還沒去理解他們的意義,爬取微話題的主頁是沒問題的,但使用一些新浪微博api時就出現了一些問題。

