我正在使用node natural标记器功能,该功能将一个句子拆分为单词。通常应该以

var natural = require('natural'),
tokenizer = new natural.WordTokenizer();
console.log(tokenizer.tokenize("your dog has't flees."));
// Returns [ 'your', 'dog', 'has', 'n't, 'flees' ]


它可以正常工作,但是,当与德语或法语单词一起使用时,它将单词分成两个部分,例如

var natural = require('natural'),
tokenizer = new natural.WordTokenizer();
console.log(tokenizer.tokenize("fußball"));
// Returns ['fu', 'ball']


这是不正确的。

有人知道如何避免这种情况吗?

或者,也许您知道在JavaScript / Node.js中将句子拆分成单词的简单方法?

谢谢!

最佳答案

var data = "your fußball, hasn't! flees.";

// Remove unwanted punctuation, in this case full-stops,
// commas, and exclamation marks.
data = data.replace(/[.,!]/g, '');

// split the words up
data.split(' '); // ["your", "fußball", "hasn't", "flees"]


Demo

关于javascript - 如何避免自然地让node.js用特殊字符分割单词,我们在Stack Overflow上找到一个类似的问题:https://stackoverflow.com/questions/23563054/

10-11 00:25