我从科学文章中提取文本时遇到问题。
我使用PDFBox从pdf提取文本。的
问题不是来自提取过程,而是带有一些特殊的数学符号,当我想将提取的文本写入XML文件时会导致问题,未正确提取的特殊字符会造成麻烦。代替,
或其他类似的HTML代码将被插入XML文件并破坏整个文件。如何解决这个问题?
我的意思是HTML代码看起来像these,目前,数字218很麻烦。但是我想对于不同的数学符号,将替换不同的HTML代码,然后导致问题。
我已经尝试过以下字符串清洁,但没有帮助:
nextWord=nextWord.replaceAll("[-+.^:,]", "");
nextWord=nextWord.replaceAll("\\s+", "");
nextWord=nextWord.replaceAll("[^\\x00-\\x7F]", "");
最佳答案
您可以在将每一行写入文件之前进行预检查,以检查文本是否不包含歧义字符。下面的模式包含任何给定教科书中的所有基本字符。您可以根据自己的内容添加或删除。
public boolean isValidCharacters(String word){
String pattern= "^[a-zA-Z0-9~@#$^*()_+={}|\\,.?: -]*$";
return word.matches(pattern);
}