第3章
The Go Programming Language
基 本 数 据
毫无疑问,计算机底层全是位,而实际操作则是基于大小固定的单元中的数值,称为字(word),这些值可解释为整数、浮点数、位集(bitset)或内存地址等,进而构成更大的聚合体,以表示数据包、像素、文件、诗集,以及其他种种。Go的数据类型宽泛,并有多种组织方式,向下匹配硬件特性,向上满足程序员所需,从而可以方便地表示复杂数据结构。
Go的数据类型分四大类:基础类型(basic type)、聚合类型(aggregate type)、引用类型(reference type)和接口类型(interface type)。本章的主题是基础类型,包括数字(number)、字符串(string)和布尔型(boolean)。聚合类型——数组(array,见4.1节)和结构体(struct,见4.4节)——是通过组合各种简单类型得到的更复杂的数据类型。引用是一大分类,其中包含多种不同类型,如指针(pointer,见2.3.2节),slice(见4.2节),map(见4.3节),函数(function,见第5章),以及通道(channel,见第8章)。它们的共同点是全都间接指向程序变量或状态,于是操作所引用数据的效果就会遍及该数据的全部引用。接口类型将在第7章讨论。
3.1 整数
Go的数值类型包括了几种不同大小的整数、浮点数和复数。各种数值类型分别有自己的大小,对正负号支持也各异。我们从整数开始。
Go同时具备有符号整数和无符号整数。有符号整数分四种大小:8位、16位、32位、64
位,用int8、int16、int32、int64表示,对应的无符号整数是uint8、uint16、unint32、uint64。
此外还有两种类型int和uint。在特定平台上,其大小与原生的有符号整数\无符号整数相同,或等于该平台上的运算效率最高的值。int是目前使用最广泛的数值类型。这两种类型大小相等,都是32位或64位,但不能认为它们一定就是32位,或一定就是64位;即使在同样的硬件平台上,不同的编译器可能选用不同的大小。
rune类型是int32类型的同义词,常常用于指明一个值是Unicode码点(code point)。这两个名称可互换使用。同样,byte类型是uint8类型的同义词,强调一个值是原始数据,而非量值。
最后,还有一种无符号整数uintptr,其大小并不明确,但足以完整存放指针。uintptr类型仅仅用于底层编程,例如在Go程序与C程序库或操作系统的接口界面。第13章介绍unsafe包,将会结合uintptr举例。
int、uint和uintptr都有别于其大小明确的相似类型的类型。就是说,int和int32是不同类型,尽管int天然的大小就是32位,并且int值若要当作int32使用,必须显式转换;反之亦然。
有符号整数以补码表示,保留最高位作为符号位,n位数字的取值范围是-2n-1~
2(n-1)-1。无符号整数由全部位构成其非负值,范围是0~2n-1。例如,int8可以从-128到127取值,而unit8从0到255取值。
Go的二元操作符涵盖了算术、逻辑和比较等运算。按优先级的降序排列如下:
二元运算符分五大优先级。同级别的运算符满足左结合律,为求清晰,可能需要圆括号,或为使表达式内的运算符按指定次序计算,如mask & (1<<28)。
上述列表中前两行的运算符(如加法运算+)都有对应的赋值运算符(如+=),用于简写赋值语句。
算术运算符+、-、*、/可应用于整数、浮点数和复数,而取模运算符%仅能用于整数。取模运算符%的行为因编程语言而异。就Go而言,取模余数的正负号总是与被除数一致,于是-5%3和-5%-3都得-2。除法运算(/)的行为取决于操作数是否都为整型,整数相除,商会舍弃小数部分,于是5.0/4.0得到1.25,而5/4结果是1。
不论是有符号数还是无符号数,若表示算术运算结果所需的位超出该类型的范围,就称为溢出。溢出的高位部分会无提示地丢弃。假如原本的计算结果是有符号类型,且最左侧位是1,则会形成负值,以int8为例:
下列二元比较运算符用于比较两个类型相同的整数;比较表达式本身的类型是布尔型。
实际上,全部基本类型的值(布尔值、数值、字符串)都可以比较,这意味着两个相同类型的值可用==和!=运算符比较。整数、浮点数和字符串还能根据比较运算符排序。许多其他类型的值是不可比较的,也无法排序。后面介绍每种类型时,我们将分别说明比较规则。
另外,还有一元加法和一元减法运算符:
对于整数,+x是0+x的简写,而-x则为0-x的简写。对于浮点数和复数,+x就是x,-x为x的负数。
Go也具备下列位运算符,前四个对操作数的运算逐位独立进行,不涉及算术进位或正负号:
如果作为二元运算符,运算符^表示按位“异或”(XOR);若作为一元前缀运算符,则它表示按位取反或按位取补,运算结果就是操作数逐位取反。运算符&^是按位清除(AND NOT):表达式z=x&^y中,若y的某位是1,则z的对应位等于0;否则,它就等于x的对应位。
下面的代码说明了如何用位运算将一个uint8值作为位集(bitset)处理,其含有8个独立的位,高效且紧凑。Printf用谓词%b以二进制形式输出数值,副词08在这个输出结果前被零,补够8位。
(6.5节会介绍比单字节大得多的整数位集的实现。)
在移位运算x<<n和x>>n中,操作数n决定位移量,而且n必须为无符号型;操作数x可以是有符号型也可以是无符号型。算术上,左移运算x<<n等价于x乘以2^n;而右移运算x>>n等价于x除以2^n,向下取整。
左移以0填补右边空位,无符号整数右移同样以0填补左边空位,但有符号数的右移操作是按符号位的值填补空位。因此,请注意,如果将整数以位模式处理,须使用无符号整型。
尽管Go具备无符号整型数和相关算术运算,也尽管某些量值不可能为负,但是我们往往还采用有符号整型数,如数组的长度(即便直观上明显更应该选用uint)。下例从后向前输出奖牌名称,循环里用到了内置的len函数,它返回有符号整数:
相反,假若len返回的结果是无符号整数,就会导致严重错误,因为i随之也成为uint型,根据定义,条件i>=0将恒成立。第3轮迭代后,有i==0,语句i--使得i变为uint型的最大值(例如,可能为264-1),而非-1,导致medals[i]试图越界访问元素,超出slice范围,引发运行失败或宕机(见5.9节)。
因此,无符号整数往往只用于位运算符和特定算术运算符,如实现位集时,解析二进制格式的文件,或散列和加密。一般而言,无符号整数极少用于表示非负值。
通常,将某种类型的值转换成另一种,需要显式转换。对于算术和逻辑(不含移位)的二元运算符,其操作数的类型必须相同。虽然这有时会导致表达式相对冗长,但是一整类错误得以避免,程序也更容易理解。
考虑下面的语句,它与某些其他场景类似:
尝试编译这三个声明将产生错误消息:
类型不匹配(+的问题)有几种方法改正,最直接地,将全部操作数转换成同一类型:
2.5节已经提及,于每种类型T,若允许转换,操作T(x)会将x的值转换成类型T。很多整型–整型转换不会引起值的变化,仅告知编译器应如何解读该值。不过,缩减大小的整型转换,以及整型与浮点型的相互转换,可能改变值或损失精度:
浮点型转成整型,会舍弃小数部分,趋零截尾(正值向下取整,负值向上取整)。如果有些转换的操作数的值超出了目标类型的取值范围,就应当避免这种转换,因为其行为依赖具体实现:
不论有无大小和符号限制,源码中的整数都能写成常见的十进制数;也能写成八进制数,以0开头,如0666;还能写成十六进制数,以0x或0X开头,如0xdeadbeef。十六进制的数字(或字母)大小写皆可。当前,八进制数似乎仅有一种用途——表示POSIX文件系统的权限——而十六进制数广泛用于强调其位模式,而非数值大小。
如下例所示,如果使用fmt包输出数字,我们可以用谓词%d、%o和%x指定进位制基数和输出格式:
注意fmt的两个技巧。通常Printf的格式化字符串含有多个%谓词,这要求提供相同数目的操作数,而%后的副词[1]告知Printf重复使用第一个操作数。其次,%o、%x或%X之前的副词#告知Printf输出相应的前缀0、0x或0X。
源码中,文字符号(rune literal)的形式是字符写在一对单引号内。最简单的例子就是ASCII字符,如'a',但也可以直接使用Unicode码点(codepoint)或码值转义,稍后有介绍。
用%c输出文字符号,如果希望输出带有单引号则用%q:
相关资源:敏捷开发V1.0.pptx