我们在做文本挖掘处理的时候,需要经常把全角字符转成半角处理,今天为大家提供一个全角转半角的MaxCompute UDF,下载地址见附件。
效果如下:
MaxCompute UDF代码如下:
package com.yinlin.udf.dev; import com.aliyun.odps.udf.UDF; //import org.apache.commons.lang.StringUtils; /** * 提供对字符串的全角->半角,半角->全角转换 */ public class BCConvert extends UDF { /** * ASCII表中可见字符从!开始,偏移位值为33(Decimal) */ static final char DBC_CHAR_START = 33; // 半角! /** * ASCII表中可见字符到~结束,偏移位值为126(Decimal) */ static final char DBC_CHAR_END = 126; // 半角~ /** * 全角对应于ASCII表的可见字符从!开始,偏移值为65281 */ static final char SBC_CHAR_START = 65281; // 全角! /** * 全角对应于ASCII表的可见字符到~结束,偏移值为65374 */ static final char SBC_CHAR_END = 65374; // 全角~ /** * ASCII表中除空格外的可见字符与对应的全角字符的相对偏移 */ static final int CONVERT_STEP = 65248; // 全角半角转换间隔 /** * 全角空格的值,它没有遵从与ASCII的相对偏移,必须单独处理 */ static final char SBC_SPACE = 12288; // 全角空格 12288 /** * 半角空格的值,在ASCII中为32(Decimal) */ static final char DBC_SPACE = ' '; // 半角空格 /** * 全角字符->半角字符转换 * 只处理全角的空格,全角!到全角~之间的字符,忽略其他 */ public String evaluate(String src) { if (src == null) {return src;} StringBuilder buf = new StringBuilder(src.length()); char[] ca = src.toCharArray(); for (int i = 0; i < src.length(); i++) { if (ca[i] >= SBC_CHAR_START && ca[i] <= SBC_CHAR_END) {// 如果位于全角!到全角~区间内 buf.append((char) (ca[i] - CONVERT_STEP)); } else if (ca[i] == SBC_SPACE) {// 如果是全角空格 buf.append(DBC_SPACE); } else { // 不处理全角空格,全角!到全角~区间外的字符 buf.append(ca[i]); } } return buf.toString(); } }使用方法:
1、通过Eclipse将BCConver.java编译成Jar包,命名为BCConver.jar。
2、通过大数据开发套件,上传资源BCConver.jar;
3、通过大数据开发套件,引用第二步上传的BCConver.jar资源,注册bcconver函数;
4、通过大数据开发套件新建SQL脚本,输入SQL函数进行测试。
--创建虚拟表 CREATE TABLE IF NOT EXISTS dual (id STRING); insert into table dual select '1' from (select count(1) from dual) t; --提供对字符串的全角->半角 select bcconvert('nihaohk | nihehe ,。 78 7 ') from yinlin_demo.dual limit 1;到此为止,实验完成。
常见问题
Q:无结果?
我们在创建虚拟dual表的时候,一定要保证表中有数据。
Q:无法找到函数?
利用大数据开发套件注册函数的时候需要包名+类名,否则会找不到类。
阿里巴巴大数据-玩家社区 https://yq.aliyun.com/teams/6/
---阿里大数据博文,问答,社群,实践,有朋自远方来,不亦说乎……
相关资源:七夕情人节表白HTML源码(两款)