来自
1. 概述
本文将讨论多种从字符串中移除stopwords(停用词汇)的方法。从文本中去除不需要的或禁止的单词,比如用户发布的评论。 我们将使用一个轮询、Collection.removeAll()、正则表达式。最后会使用java-microbenchmark-harness会对比这几个方法的性能。
2. 加载stopwords
首先从文本文件加载stopwords。 准备一个文件,english_stopwords.txt,里面包括准备禁用的词汇,比如I、she、he、the。 首先用Files.readAllLines()加载到List中。
@BeforeClass
public static void loadStopwords() throws IOException {
stopwords = Files.readAllLines(Paths.get("english_stopwords.txt"));
}
3.手动剔除stopwords
第一个解决方案,通过遍历每个词汇来判断其是否为stopwords:
@Test
public void whenRemoveStopwordsManually_thenSuccess() {
String original = "The quick brown fox jumps over the lazy dog";
String