写个简单的汉语bigram tokenizer

`

fuliang

浏览: 1638475 次
性别:
来自: 北京

最近访客更多访客>>

依然任逍遥

stephenworld

lli

samwalt

博主相关

博客

微博

相册

留言

关于我

文章分类

社区版块

存档分类

博客分类：

Ruby

Ruby

写个简单的汉语bigram tokenizer，基本能够满足文本挖掘的原型实验的需要。

def bigram_tokenize(text)
    tokens = []
    0.upto(text.length-1) do |i|
        tokens << text[i..i+1] if text[i..i+1] =~ /\p{Han}{2}/u
    end
    return tokens
end

分享到：

【备忘】机器学习和信息检索常用的东东 | Ruby简单实现K-means聚类算法

2011-01-23 23:29
浏览 1570
评论(0)
分类:编程语言
查看更多

发表评论

您还没有登录,请您登录后再发表评论

相关推荐

tokenizer.model: tokenizer.model

C++、MFC源代码tokenizer: C++、MFC源代码tokenizer

C++ Tokenizer: 为c++实现Tokenizer，就像java里面的string tokenizer

前端开源库-jeefo_tokenizer: 前端开源库-jeefo_tokenizer吉福标记器，吉福标记器

PyPI 官网下载 | tokenizer_tools-0.11.0.tar.gz: 资源来自pypi官网。资源全名：tokenizer_tools-0.11.0.tar.gz

Python-Python中速度最快最完整可自定义的tokenizer: Python中速度最快，最完整/可自定义的tokenizer

string_tokenizer_unittest.rar_tokenizer: String Tokenizer Test Source Code for Linux.

css-selector-tokenizer, 解析和 stringifies CSS选择器.zip: css-selector-tokenizer, 解析和 stringifies CSS选择器 CSS模块：CSS选择器标记器解析和 stringifies CSS选择器。import Tokenizer from "css-selector-tokenizer";let input = "a#content.act

tokenizer:一个简单的中文分词算法，可用于网游脏词过滤、搜索引擎文档解析、自然语言处理等需要中文分词的场合: 在脏词过滤的逻辑中最简单的做法是不使用分词，用所有脏词和一句话匹配，如果任意一个脏词是这句话的子串就认定为脏句，这种做法虽然避免了漏网之鱼，但是会因过于严格而让正常的句子变成脏句，分词可以改善这种问题...

python中文分词: python中文分词

LLaMA Tokenizer: LLaMA原生Tokenizer，词表大小为32000。

wink-tokenizer:多语言令牌生成器，可以自动标记每个令牌的类型: 眨眼代币多语言令牌生成器，可以自动标记每个令牌的类型使用wink-tokenizer拉丁和梵文脚本中的句子。它的一些主要功能概述如下：支持英语，法语，德语，印地语，梵语，马拉地语等等。包含多种语言单词的句子的...

tokenizer：一个小型库，用于将标记化PHP源代码转换为XML（以及其他可能的格式）: 分词器一个小型库，用于将标记化PHP源代码转换为XML。安装您可以使用将该库作为本地的，基于...$ tokenizer = new TheSeer \ Tokenizer \ Tokenizer (); $ tokens = $ tokenizer -> parse ( file_get_contents (__

tokenizer:印度尼西亚语的分词器: 它有一个简单易用的API 。演示如何安装 Sastrawi Tokenizer 可以与一起安装。打开终端（命令行）并导航到您的项目目录。以便composer.phar文件位于该目录中。将 Literary Sentence Detector 添加到您的...

bert情感分类中用tokenizer实现文本预处理: 在pytoch中，实现利用预训练BertTokenizer对影评数据集IMDB进行预处理，得到Bert模型所需输入样本特征。利用torch.utils.data将预处理结果打包为数据集，并利用pickle将数据集序列化保存至本地文件中。

PyPI 官网下载 | hanbert_tokenizer-0.1.7-py3-none-any.whl: 资源来自pypi官网。资源全名：hanbert_tokenizer-0.1.7-py3-none-any.whl

Python库 | tokenizer-1.0.3-py2.py3-none-any.whl: python库，解压后可用。资源全名：tokenizer-1.0.3-py2.py3-none-any.whl

node_tokenizer:在nodejs中实现的tf.keras令牌生成器: -save tf_node_tokenizer 或与纱线yarn add tf_node_tokenizer用法使用Tokenizer const { Tokenizer } = require ( "tf_node_tokenizer" ) ;const tokenizer = new Tokenizer ( { num_words : 5 , oov_token : "<...

tokenizer:使用Go语言编写的NLP令牌生成器: tokenizer是一个雄心勃勃的目标（与和一起）的一部分，为Gophers 带来更多AI/深度学习工具，以便他们能够坚持使用他们喜欢的语言并在生产中构建更快的软件。特征 tokenizer内置于子包中的模块中。归一化器预...

Py3-Clang-Tokenizer: Py3-Clang-Tokenizer C / C ++标记程序的Python3端口可从。添加了一些额外的功能，例如从内存中的文件缓冲区进行解析，并删除了我的用例不需要的功能。安装（Mac OSX）确保安装了最新的XCode命令行工具xcode-...

Global site tag (gtag.js) - Google Analytics

最近访客 更多访客>>

博主相关

文章分类

社区版块

存档分类

最新评论

写个简单的汉语bigram tokenizer

评论

发表评论

相关推荐

松本行弘的程序世界

Ruby HTTP/HTML parser相关资源

命令行词典

构建自己的DSL之三 抓取文件管理

构建自己的DSL之二 抓取文本处理

构建自己的DSL之一 Simple Crawler

轻松删除所有安装的gem

Ruby发送json请求

写段代码看看别人都怎么称呼你网站的？

Ruby1.9 lambda操作符

Ruby 1.9 regex (named capture group)

Ruby Enumerators

Ruby Coroutine

Ruby Proc curry化

Lazy evaluation in Ruby

One line Ruby code

函数对象作为case语句中的条件

从hash快速生成URL参数

生成长度为n的随机字符串

Returning

最近访客更多访客>>

构建自己的DSL之三抓取文件管理

构建自己的DSL之二抓取文本处理