`

写个简单的汉语bigram tokenizer

    博客分类:
  • Ruby
阅读更多
写个简单的汉语bigram tokenizer,基本能够满足文本挖掘的原型实验的需要。
def bigram_tokenize(text)
    tokens = []
    0.upto(text.length-1) do |i|
        tokens << text[i..i+1] if text[i..i+1] =~ /\p{Han}{2}/u
    end
    return tokens
end
分享到:
评论

相关推荐

Global site tag (gtag.js) - Google Analytics