我正在使用Ruby打开一个URL并读取其内容我正在读取的文件的内容类型是“文本/纯文本”。
问题是这包含了一些我想转义的字符。例如,纯文本中出现的字符之一是“\240”,这是一个连字符的ascii。
我很好奇这是怎么产生的,因为我在文本中没有看到连字符但是它是无形的,当我使用puts打印控制台中的文本时,“240”出现了。
第二,我怎样才能摆脱这些奇怪角色的例子理想情况下,我想转义所有格式为“\[某些数字]”的字符我在用

"\240".gsub(Regexp.new("\\\d+"),"")

但似乎没用。
有没有更传统的方法来清理从打开URL读取的纯文本内容?

最佳答案

玩了这个之后,我发现下面的正则表达式对我很有帮助:

str.gsub(/[^\x00-\x7F]/,'')

关于ruby - 清理来自open(url).read的内容,我们在Stack Overflow上找到一个类似的问题:https://stackoverflow.com/questions/6618883/

10-11 03:01
查看更多