欧美伊久线香蕉线新在线,午夜精品福利视频,国内一区二区在线视频观看

Java：讀取文件不亂碼

@import url(http://m.shnenglu.com/cutesoft_client/cuteeditor/Load.ashx?type=style&file=SyntaxHighlighter.css);@import url(/css/cuteeditor.css);

最低位地址存放高位字節(jié)，可稱(chēng)高位優(yōu)先，內(nèi)存從最低地址開(kāi)始按順序存放（高數(shù)位數(shù)字先寫(xiě)）。最高位字節(jié)放最前面。

例如“漢”字的Unicode編碼是6C49。如果將6C寫(xiě)在前面，就是big endian。還是將49寫(xiě)在前面，就是little endian

Endian可讀為字節(jié)序.

0x11BB，高字節(jié)為11，低字節(jié)為BB

Big Endian: 高字節(jié)存儲(chǔ)在高位，低字節(jié)存儲(chǔ)在低位: 高字節(jié)結(jié)束存儲(chǔ): BB 11

Little Endian: 高字節(jié)存儲(chǔ)在低位，低字節(jié)存儲(chǔ)在高位: 低字節(jié)結(jié)束存儲(chǔ): 11 BB

數(shù)字的高低位與存儲(chǔ)中位置偏移的高低位正好相反. Little Endian更適合閱讀，因?yàn)?1BB存儲(chǔ)為11BB.

import java.nio.ByteOrder;

public class Test {

public static void main(String[] args) {

char c = '\u11BB';

String endian = Integer.toHexString(c & 0xFF).toUpperCase();

System.out.println(endian.equals("BB") ? "Little Endian" : "Big Endian");

System.out.println(ByteOrder.nativeOrder());

}

BOM(字節(jié)序標(biāo)志): Byte Order Mark

UTF-16是以?xún)蓚€(gè)字節(jié)為編碼單元，要考慮字節(jié)序，所以使用BOM來(lái)標(biāo)志字節(jié)序: FEFF or FFFE.

FEFF 又叫做 Zero Witdh No-Break Space，它在UCS中是不存在的字符，所以用來(lái)標(biāo)志字節(jié)序，又稱(chēng)做BOM.

FEFF: Big Endian

FFEF: Little Endian

A: The following table summarizes some of the properties of each of the UTFs.

Name	UTF-8	UTF-16	UTF-16BE	UTF-16LE	UTF-32	UTF-32BE	UTF-32LE
Smallest code point	0000	0000	0000	0000	0000	0000	0000
Largest code point	10FFFF	10FFFF	10FFFF	10FFFF	10FFFF	10FFFF	10FFFF
Code unit size	8 bits	16 bits	16 bits	16 bits	32 bits	32 bits	32 bits
Byte order	N/A	<BOM>	big-endian	little-endian	<BOM>	big-endian	little-endian
Fewest bytes per character	1	2	2	2	4	4	4
Most bytes per character	4	4	4	4	4	4	4

Windows保存的Unicode文件是含有BOM的，UTF-8編碼的文件以字節(jié)為編碼單元，不存在字節(jié)序的問(wèn)題，但可以使用BOM來(lái)表示編碼方式: 文件前3字節(jié)是EF BB BF，為UTF-8編碼。因?yàn)镕EFF在UTF-8里的編碼為EF BB BF.

Mac下的TextEdit保存為UTF-8就不含BOM

TextWrangler可以選擇是否包含有BOM

一個(gè)漢字在Unicode中用兩個(gè)字節(jié)表示，a-z等字母也是兩個(gè)字節(jié)。

UTF-8是Unicode的一種表現(xiàn)形式(Unicode編碼值使用UTF-8方式編碼存儲(chǔ))，是一種變長(zhǎng)的表達(dá)方式，把字符的Unicode編碼在文件中表現(xiàn)出來(lái)，從一個(gè)字節(jié)到三個(gè)字節(jié)不等(為了減少如a-z等ascii碼字符占用的空間，因?yàn)樗麄兂霈F(xiàn)太頻繁了).

UTF-8編碼范圍為:

0000 - 007F : 0xxxxxxx

0080 - 07FF : 110xxxxx 10xxxxxx

0800 - FFFF : 1110xxxx 10xxxxxx 10xxxxxx

如"漢"的Unicode編碼為6C49，在0800 - FFFF之間，所以要使用3字節(jié)模板: 1110xxxx 10xxxxxx 10xxxxxx

6C49的二進(jìn)制是: 0110 110001 001001

用這個(gè)二進(jìn)制流依次代替3字節(jié)模板中的x得: 1110 0110 10110001 10001001，即E6 B1 89

保存到文件中的就是3個(gè)字節(jié)E6 B1 89，而不是2個(gè)字節(jié)6C 49

// 給InputStreamReader指定要讀取的文件的編碼，讀取時(shí)就不會(huì)出現(xiàn)亂碼了.

public class TextFileReader {

public static void main(String[] args) throws Exception {

String filename = "source/demo-gb18030.txt";

String encoding = "gb18030";

printFile(filename, encoding);

}

// 打印出文件的文本內(nèi)容, 使用指定的編碼讀入文件

public static void printFile(String filename, String encoding) throws IOException {

InputStreamReader isr = new InputStreamReader(new FileInputStream(filename), encoding);

BufferedReader reader = new BufferedReader(isr);

String line = null;

while ((line = reader.readLine()) != null) {

System.out.println(line);

}

posted on 2010-12-29 06:27 逛奔的蝸牛閱讀(2633) 評(píng)論(4) 編輯收藏引用所屬分類(lèi): Java

評(píng)論

# re: Java：讀取文件不亂碼 2011-06-19 17:17 秦旭

@r X? 貄D 恤 X? @r ? 攥D ? 5 ?? 8? ? @r 愻貄D ? 愻 @r 狊 ZB ?@? 貙 €[B  ?  場(chǎng)  $ 綁 h珼 ? 輷A l B 睂B ? 悒D 綁 D 〥 L? 〥綁 0? @r 潤(rùn) z$B + ?  趔 4囇w?Au_Client  瞳很 0? \? 堁w 瘕\? Z堁w? *堁w ? ? ? 狋 ?詗0堁w*堁w爭(zhēng)襴 ? + ?  靰z 珟襴+ 聶 ;"揬笩 333333333333333333333333333333搢"搢?搢?搢劵 I 埢 h? s鋻|? "搢 8 ? 痿 4? 閽|(搢"搢?搢?搢橑愾 `? $? ? h? 閽|(搢"搢?搢?搢贈(zèng) vS 堳銙襴貆z + ?  H倆怎 !詗? + 磅 Z?R@? @r X? 貄D 恤 X? @r ? 攥D ? 5 ?? 8? ? @r 愻貄D ? 愻 @r 狊 ZB ?@? 貙 €[B  ?  場(chǎng)  $ 綁 h珼 ? 輷A l B 睂B ? 悒D 綁 D 〥 L? 〥綁 0? @r 潤(rùn) z$B + ?  趔 4囇w?Au_Client_5? 瞳很 0? \? 堁w 瘕\? Z堁w? *堁w ? ? ? 狋 ?詗0堁w*堁w爭(zhēng)襴 ? + ?  靰z 珟襴+ 聶 ;"揯鏢 -99933333333333333333333333333搢"搢?搢?搢劵 I 埢 h? s鋻|? "搢 8 ? 痿 4? 閽|(搢"搢?搢?搢橑愾 `? $? ? h? 閽|(搢"搢?搢?搢贈(zèng) vS 堳銙襴貆z + ?  H倆怎 !詗? + 磅 Z?R@? 回復(fù) 更多評(píng)論

# re: Java：讀取文件不亂碼 2012-05-15 01:35 Lory

謝了回復(fù) 更多評(píng)論

# re: Java：讀取文件不亂碼 2012-05-15 01:35 Lory

博主很謙虛，一定是個(gè)高手回復(fù) 更多評(píng)論

# re: Java：讀取文件不亂碼 2012-10-19 10:53 璇

可以解決亂碼問(wèn)題(*^__^*) 回復(fù) 更多評(píng)論

刷新評(píng)論列表

只有注冊(cè)用戶登錄后才能發(fā)表評(píng)論。


相關(guān)文章: Java：static final 變量的初始化 Java：Sublimetext格式化插件 Log4J 配置 Java：FastJson 主要API與類(lèi)型 Java：用 Java 7 運(yùn)行 IDEA 13 Java：Mavericks里安裝Java 6 Qt：編碼范圍 Java：內(nèi)存映射 Java：Java NIO之Buffer基礎(chǔ) Java：URLConnection訪問(wèn)網(wǎng)頁(yè)

網(wǎng)站導(dǎo)航: 博客園 IT新聞 BlogJava 博問(wèn) Chat2DB 管理

青青草原综合久久大伊人导航_色综合久久天天综合_日日噜噜夜夜狠狠久久丁香五月_热久久这里只有精品

逛奔的蝸牛

隨筆分類(lèi)

搜索

最新評(píng)論

評(píng)論