《Java安全编码标准》一2.9 IDS08-J净化传递给正则表达式的非受信数据

    xiaoxiao2021-04-18  166

    2.9 IDS08-J净化传递给正则表达式的非受信数据

    正则表达式在匹配文本字符串时被广泛使用。比如,在POSIX中,grep命令就支持正则表达式,使用它可以在指定文本中搜索模式。如果要了解正则表达式的基本情况,请参考Java教程[Tutorials 08]。java.util.regex包提供了Pattern?类,这个类封装了一个编译过的正则表达式和一个Matcher类,通过Matcher类这个引擎,可以使用Pattern?在CharSequence中进行匹配操作。在Java中,必须注意不能误用强大的正则表达式功能。攻击者也许会通过提供一个恶意输入对初始的正则表达式进行修改,比如使其不符合程序规定的正则表达的要求。这种攻击方式称为正则注入(regex injection),它可以影响程序控制流、导致信息泄露,并引起拒绝服务漏洞。以下这些是在使用正则表达式时,容易被利用的地方。匹配标志:非受信的输入可能覆盖匹配选项,然后可能会也可能不会传给Pattern.compile()方法。贪婪:一个非受信的输入可能试图注入一个正则表达式,通过它来改变初始的那个正则表达式,从而匹配尽可能多的字符串,从而暴露敏感信息。分组:程序员会用括号包括一部分的正则表达式以完成一组动作中某些共同的部分。攻击者可能通过提供非受信的输入来改变这种分组。非受信的输入应该在使用前净化,从而防止发生正则表达式注入。当用户必须指定正则表达式作为输入时,必须注意需要保证初始的正则表达式没有被无限制修改。在用户输入字符串提交给正则解析之前,进行白名单字符处理(比如字母和数字)是一个很好的输入净化策略。开发人员必须仅仅提供最有限的正则表达式功能给用户,从而减少被误用的可能。正则表达式注入示例假设一个系统日志文件包含一系列系统过程的输出信息。其中一些过程会产生公开的信息,而另一些会产生被标识为“private”的敏感信息。以下是这个日志文件的例子:

    10:47:03 private[423] Successful logout name: usr1 ssn: 111223333 10:47:04 public[48964] Failed to resolve network service 10:47:04 public[1](public.message[49367]) Exited with exit code: 255 10:47:43 private[423] Successful login name: usr2 ssn: 444556666 10:48:08 public[48964] Backup failed with error: 19

    用户希望搜索日志文件以寻找感兴趣的信息,然而又必须防止读取私有数据。程序可能会采用以下的方式,它允许用户将搜索文本作为下面所示正则表达式的一部分:

    (.*? +public\[\d+\] +.*<SEARCHTEXT>.*)

    然而,攻击者可以用任何字符串替代,这样他就可以通过下面的文本实现正则表达式注入:

    .*)|(.*

    注入后的正则表达式为:

    (.*? +public\[\d+\] +.*.*)|(.*.*)

    这个正则表达式会匹配日志文件中的所有信息,包括那些私有的信息。

    2.9.1 不符合规则的代码示例

    这个不符合规则的代码示例将日志文件周期性地载入内存,它通过将关键词作为参数传给suggestSearches()方法来获得关键词搜索建议。

    public class Keywords { ??private static ScheduledExecutorService scheduler ?????= Executors.newSingleThreadScheduledExecutor(); ??private static CharBuffer log; ??private static final Object lock = new Object(); ??// Map log file into memory, and periodically reload ??static ????try { ??????FileChannel channel = new FileInputStream( ?????????"path").getChannel(); ??????// Get the file’s size and map it into memory ??????int size = (int) channel.size(); ??????final MappedByteBuffer mappedBuffer = channel.map( ?????????FileChannel.MapMode.READ_ONLY, 0, size); ??????Charset charset = Charset.forName("ISO-8859-15"); ??????final CharsetDecoder decoder = charset.newDecoder(); ?????log = decoder.decode(mappedBuffer); // Read file into char buffer ??????Runnable periodicLogRead = new Runnable() { ????????@Override public void run() { ??????????synchronized(lock) {? ????????????try { ??????????????log = decoder.decode(mappedBuffer); ????????????} catch (CharacterCodingException e) { ??????????????// Forward to handler? ????????????}? ??????????} ????????} ??????}; ??????scheduler.scheduleAtFixedRate(periodicLogRead, ????????????????????????????????????0, 5, TimeUnit.SECONDS); ????} catch (Throwable t) { ??????// Forward to handler ????} ??} ??public static Set<String> suggestSearches(String search) { ????synchronized(lock) { ??????Set<String> searches = new HashSet<String>(); ??????// Construct regex dynamically from user string ??????String regex = "(.*? +public\\[\\d+\\] +.*" + search + ".*)"; ?? ??????Pattern keywordPattern = Pattern.compile(regex); ??????Matcher logMatcher = keywordPattern.matcher(log); ??????while (logMatcher.find()) { ????????String found = logMatcher.group(1); ????????searches.add(found); ??????} ??????return searches; ????}?? ??} }

    这段代码允许受信用户在公共日志信息中搜索“error”关键词。然而,这样会导致前面提到的通过正则注入进行的恶意攻击。

    2.9.2 符合规则的方案(白名单方法)

    这个符合规则的方案过滤搜索字符串中的非字母数字的字符(除了空格和单引号外),这种方案可以阻止前面介绍的正则表达式注入。

    public class Keywords { ??// ... ??public static Set<String> suggestSearches(String search) { ????synchronized(lock) { ??????Set<String> searches = new HashSet<String>(); ??????StringBuilder sb = new StringBuilder(search.length()); ??????for (int i = 0; i < search.length(); ++i) { ????????char ch = search.charAt(i); ????????if (Character.isLetterOrDigit(ch) || ????????????ch == ' ' || ????????????ch == '\ ") { ??????????sb.append(ch); ????????} ??????} ??????search = sb.toString(); ??????// Construct regex dynamically from user string ??????String regex = "(.*? +public\\[\\d+\\] +.*" + search + ".*)"; ??????// ... ????} ??} }

    这个方案同样对有效的搜索项进行限制。例如,用户不再可以使用类似“name=”这样的搜索,因为=字符会被净化掉。

    2.9.3 符合规则的方案

    另一个减少这种漏洞的方法是,在匹配前过滤敏感信息。这样的方案要求每一次日志文件定期更新时都要进行过滤,从而会产生额外的复杂性和性能损失。如果日志格式变化了,但类的设计没有反映这些变化,那么敏感数据依然可能被暴露。

    2.9.4 风险评估

    在正则表达式中,没有对非受信的数据进行净化,会导致敏感信息的泄露。

    2.9.5 相关规范

    2.9.6 参考书目


    最新回复(0)