Java核心技术卷I基础知识3.6.6 码点与代码单元

    xiaoxiao2024-04-17  7

    3.6.6 码点与代码单元

    Java字符串由char值序列组成。从3.3.3节“char类型”已经看到,char数据类型是一个采用UTF-16编码表示Unicode码点的代码单元。大多数的常用Unicode字符使用一个代码单元就可以表示,而辅助字符需要一对代码单元表示。

    length方法将返回采用UTF-16编码表示的给定字符串所需要的代码单元数量。例如:

     

    要想得到实际的长度,即码点数量,可以调用:

     

    调用s.charAt(n)将返回位置n的代码单元,n介于0~s.length()-1之间。例如:

     

    要想得到第i个码点,应该使用下列语句

     

          注释:类似于C和C++,Java对字符串中的代码单元和码点从0开始计数。

    为什么会对代码单元如此大惊小怪?请考虑下列语句:

     

    使用UTF-16编码表示字符(U+1D546)需要两个代码单元。调用

     

    返回的不是一个空格,而是的第二个代码单元。为了避免这个问题,不要使用char类型。这太底层了。

    如果想要遍历一个字符串,并且依次查看每一个码点,可以使用下列语句:

     

    可以使用下列语句实现回退操作:

     

    显然,这很麻烦。更容易的办法是使用codePoints方法,它会生成一个int值的“流”,每个int值对应一个码点。(流将在卷Ⅱ的第2章中讨论)。可以将它转换为一个数组(见3.10节),再完成遍历。

     

    反之,要把一个码点数组转换为一个字符串,可以使用构造函数(我们将在第4章详细讨论构造函数和new操作符)。

    最新回复(0)