Java编译器可能是指一个前端编译器(其实叫“编译器的前端”更准备一些),把*.java文件转变成*.class文件的过程;也可能是指虚拟机的后端运行期编译器(JIT编译器,Just In Time Compiler)把字节码转变成机器码的过程;还可能是指使用静态提前编译器(AOT编译器,Ahead Of Time Compiler)直接把*.java文件编译成本地机器代码的过程。例如:
前端编译器:Sun的javac,Eclipse JDT中的增量式编译器(ECJ);JIT编译器:HotSpot VM的C1、C2编译器;AOT编译器:GUN Complier for the Java(GCJ),Excelsior JET;本章我们主要针对javac编译器。
需要注意的是javac这类编译器对代码的运行效率几乎没有任何优化措施。虚拟机设计团队把对性能的优化集中到了后端的即时编译器中,这样可以让那些不是由javac产生的Class文件也同样能享受到编译器优化所带来的好处。
但是javac做了许多针对java语言编码过程的优化措施来改善程序员的编码风格和提高编码效率。相当多新生的Java语法特性,都是靠编译器的“语法糖”来实现,而不是依赖虚拟机的底层改进来支持,可以说,Java中即时编译器在运行期的优化过程对于程序运行来说更重要,而前端编译器在编译期的优化过程对于程序编码来说关系更加密切。
javac编译器本身就是一个由Java语言编写的程序。虽然Java虚拟机规范有专门的一章“Compiling for the Java Virtual Machine”,但都是以举例的形式描述,并没有对如何把Java源码文件转变为Class文件的编译过程进行十分严格的定义,这导致Class文件编译在某种程度上是与具体JDK实现相关的,在一些极端情况,可能出现一段代码javac编译器可以编译,但是ECJ编译器就不可以编译的问题。从Sun Javac的代码来看,编译过程大致可以分为3个过程:
解析与填充符号表过程插入式注解处理器的注解处理过程分析与字节码生成过程解析步骤包括了经典程序编译原理中的词法分析和语法分析两个过程。
1.词法、语法分析 词法分析是将源代码的字符流转变为标记(Token)集合,每个字符是程序编写过程的最小元素,而标记则是编译过程的最小元素,关键字、变量名、字面量、运算符都可以成为标记。如“int a=b+2”这句代码包含了6个标记,分别是int a = b + 2,虽然关键字int由3个字符构成,但是它只是一个Token,不可在拆分。
语法分析是根据Token序列构造抽象语法树的过程,抽象语法树(Abstract Syntax Tree,AST)是一种用来描述程序代码语法结构的树形表示方式,语法树的每一个节点都代表着程序代码中的一个语法结构,例如包、类型、修饰符、运算符、接口、返回值甚至代码注释等都可以使一个语法结构。
2.填充符号表 完成了语法分析和词法分析之后,下一步就是填充符号表的过程。 符号表(Symbol Table)是由一组符号地址和符号信息构成的表格。
注解与普通的java代码一样,是在运行期间发挥作用的。JDK 1.6提供了插入式注解处理器的标准API在编译期间对注解进行处理,这些API类似插件,它们可以读取、修改、添加抽象语法树中的任意元素。如果这些插件在处理注解期间对语法树进行了修改,那么编译器将回到解析及符号填充表的过程重新处理,直到所有的插入式注解处理器都没有再对语法树进行修改为止,每一次循环称为一个Round。
我们可以通过Javac命令的“-processor”参数来执行编译时需要附带的注解处理器。如果有多个注解处理器的话,用逗号分隔。还可以使用-XprintRounds和-XprintProcessorInfo参数来查看注解处理器运作的详细信息。
语法分析之后,编译器获得了程序代码的抽象语法树表示,语法树能表示一个结构正确的源程序的抽象,但无法保证源程序是符合逻辑的。而语义分析的主要任务是对结构上正确的源程序进行上下文有关性质的审查。
javac的编译过程中,语义分析过程分为标注检查和数据及控制流分析。
1.标注检查 标注检查步骤检查的内容包括诸如变量使用前是否被声明、变量与赋值之间的数据类型是否能够匹配等。 2. 数据及控制流分析 数据及控制流分析是对程序上下文逻辑更进一步的验证,它可以检查出诸如程序局部变量在使用前是否有赋值、方法的每条路径是否都有返回值、是否所有的受查异常都被正确处理了等问题。 3. 解语法糖 语法糖(Syntactic Sugar),也称糖衣语法,指在计算机语言中添加的某种语法,这种语法对语言的功能并没有影响,但是更方便程序员使用。通常来说,使用语法糖能够增加程序的可读性,从而减少程序代码出错的机会。
Java中最常用的语法糖主要是泛型、变长参数、自动装箱/拆箱等,虚拟机运行时不支持这些语法,它们在编译阶段还原回简单的基础语法结构,这个过程称为解语法糖。 4. 字节码生成 字节码生成是javac编译过程的最后一个阶段,字节码生成阶段不仅仅是把前面各个步骤锁生成的信息(语法树、符号表)转换成字节码写到磁盘中,编译器还进行了少量的代码添加和转换工作。
几乎各种语言或多或少都提供过一些语法糖来方便程序员的代码开发,这些语法糖虽然不会提供实质性的功能改进,但是它们或能提高效率,或能提升语法的严谨性,或能减少编码出错的机会。不过也有一种观点认为语法糖不一定都是有益的,大量添加和使用“含糖”的语法,容易让程序员产生依赖,无法看清语法糖的糖衣背后,程序代码的真实面目。
总而言之,语法糖可以看做是编译期实现的一些“小把戏”,这些“小把戏”可能会使得效率“大提升”,但我们也应该去了解这些“小把戏”背后的真实世界,那样才能利用好它们,而不是被它们所迷惑。
泛型的本质是参数化类型(Parametersized Type)的应用,也就是说所操作的数据类型被指定为一个参数。这种参数类型可以用在类、接口和方法的创建中,分别称为泛型类、泛型接口和泛型方法。
Java只在程序源码中存在,在编译后的字节码文件中就已经替换为原来的原生类型(Raw Type,也称为裸类型)了,并且在相应的地方插入了强制转型代码,因此,对于运行期的Java语言来说,ArrayList<int>与ArrayList<String>就是同一个类,所以泛型技术实际上是Java语言的一颗语法糖,Java语言中的泛型实现方法称为类型擦除,基于这种方法实现的泛型称为伪泛型。
另外,从Signature属性的出现还可以得出结果,擦除法所谓的擦除,仅仅是对方法的Code属性中的字节码进行擦除,实际上元数据中还是保留了泛型信息,这也是我们能通过反射手段取得参数化类型的根本依据。
本质:参数化类型的应用,也就是说所操作的数据类型被指定为一个参数。这种参数类型可以应用在类、接口和方法的创建中,分别称为泛型类、泛型接口和泛型方法。
原本的方法:在没有泛型以前,只能通过Object是所有类型的父类和类型强制转换两个特点的配合来实现类型泛化。——问题:在编译期间,编译器无法检查这个Object的强制转型是否成功,如果仅仅依赖程序员去保障这项操作的正确性,许多ClassCastException的风险就会嫁接到程序运行期之中去。
泛型分类 真实泛型:在C#语言里面,泛型无论在程序源码中、编译后的IL中(中间语言,这时候泛型是一个占位符),或是运行期的CLR中,都是切实存在的,List<int>与List<String>就是两种不同的类型,它们在系统运行期生成,有自己的虚方法表和类型数据,这种实现称为类型膨胀,基于这种方法实现的泛型称为真实泛型。
伪泛型:在Java语言里面,泛型只在程序源码中存在,在编译后的字节码文件中,就已经替换为原来的原生类型了,并且在相应的地方插入了强制转型代码。因此对于运行期的Java语言来说,ArrayList<int>与ArrayList<String>就是同一个类。所以泛型技术实际上是Java语言的一个语法糖。Java语言中的泛型实现方法称为类型擦除,基于这种方法实现的泛型称为伪泛型。
存在的问题 在泛型应用在重载中: 如上的代码是无法通过编译的,因为在编译之后参数ArrayList和ArrayList都被擦除了,变成了一样的原生类型ArrayList,擦除动作导致这两种方法的特征签名变得一模一样。因此无法重载。
当给这两个方法添加不同的返回值,发现在JDK1.8中,同样是无法通过编译的,书上说是只有Sun JDK 1.6中编译才会成功。
总结:擦除法所谓的擦除,仅仅是对方法的Code属性中的字节码进行擦除,实际上元数据中还是保留了泛型信息,这也是我们能够通过反射手段取得参数化类型的根本依据。
自动装箱、拆箱在编译之后被转化为了对应的包装和还原方法,如Integer.valueOf()与Integer.intValue()方法。 遍历循环则把代码还原成了迭代器的实现,这也是为何遍历循环需要被遍历的类实现Iterable接口的原因。 变长参数在调用的时候变成了一个数组类型的参数。
下列实例中,一共包含了泛型、自动装箱、自动拆箱、遍历循环与变成参数5中语法糖。
public class Test { public static void main(String[] args) { List<Integer> list = Arrays.asList(1,2,3,4); int sum = 0; for (int i : list) { sum += i; } System.out.println(sum); } }自动装箱、拆箱与遍历循环编译之后:
public class Test{ public static void main(String[] args){ List list = Arrays.asList(new Integer[] { Integer.valueOf(1), Integer.valueOf(2), Integer.valueOf(3), Integer.valueOf(4) }); int sum = 0; for (Iterator localIterator = list.iterator(); localIterator.hasNext(); ) { int i = ((Integer)localIterator.next()).intValue(); sum += i; } System.out.println(sum); } }自动装箱、拆箱在编译之后被转换成了对应的包装和还原方法(Integer.valueOf(),Integer.intValue()),而遍历循环则把代码还原成立了迭代器的实现,这也是为何遍历循环需要被遍历的类实现Iterable接口的原因,变长参数在调用的时候变长了一个数组类型的参数。
Java语言中条件编译的实现也是Java语言的一颗语法糖,根据布尔常量值的真假编译器将会把分支中不成立的代码块消除掉,这一工作将在编译器解除语法糖阶段完成。