`

机器学习常用工具

阅读更多

机器学习

Support Vector Machine

An implementation of Vapnik's Support Vector Machine
A Library for Support Vector Machines

Decision Tree

The "classic" decision-tree tool, developed by J. R. Quinlan Tutorial

Maximum Entropy

Yet Another Small MaxEnt Toolkit

Conditional Random Field

A simple, customizable, and open source implementation of Conditional Random Fields (CRFs) for segmenting/labeling sequential data

自然语言处理

综合

An organizational center for open source projects related to natural language processing
A suite of UNIX software tools to facilitate the construction and testing of statistical language models
A Java-based development package for academic use in information retrieval (IR) and text mining. Include many NLP tools
A suite of Java libraries for the linguistic analysis of human language, including
  • track mentions of entities (e.g. people or proteins);
  • link entity mentions to database entries;
  • uncover relations between entities and actions;
  • classify text passages by language, character encoding, genre, topic, or sentiment;
  • correct spelling with respect to a text collection;
  • cluster documents by implicit topic and discover significant trends over time; and
  • provide part-of-speech tagging and phrase chunking.
Open source Python modules, linguistic data and documentation for research and development in natural language processing and text analytics, with distributions for Windows, Mac OSX and Linux.
  • Advanced Natural Lange Object-oriented Processing Environment.包括一系列工具(特别c#的stanford parser)

分词

中科院的中文分词系统
A Java implementation of a CRF-based Chinese Word Segmenter

词性标注

A error-driven transformation-based tagger implemented by Eric Brill
A Java implementation of the log-linear part-of-speech taggers descriped by Kristina Toutanova, et.al.
A decision tree based tagger from the University of Stuttgart.
An HMM-based Java POS tagger from Birmingham U.

命名实体识别

A Java implementation of a Conditional Random Field sequence model, together with well-engineered features for Named Entity Recognition
Tools include statistical named-entity recognition, a heuristic sentence boundary detector, and a heuristic within-document coreference resolution engine. Java. GPL. By Bob Carpenter, Breck Baldwin and co.
SVM-based NP-chunker, also usable for POS tagging, NER, etc. C/C++ open source. Won CoNLL 2000 shared task. (Less automatic than a specialized POS tagger for an end user.)

Stemming

A process for removing the commoner morphological and inflexional endings from words in English by Martin Porter
A small string processing language designed for creating stemming algorithms for use in Information Retrieval.

句法分析

Java implementations of probabilistic natural language parsers, both highly optimized PCFG and dependency parsers, and a lexicalized PCFG parser.

文本挖掘

摘要

其他

加密

包括众多加密算法,RSA、DES、MD5、SHA等 Win32安装版

压缩

A Massively Spiffy Yet Delicately Unobtrusive Compression Library

日志

Creates and maintains open-source software related to the logging of application behavior and released at no charge to the public, including
注: log4cxx官方版本有内存泄漏问题

Unicode

A mature, widely used set of C/C++ and Java libraries providing Unicode and Globalization support for software applications

XML

A validating XML parser, including C and Java edition

多字符串匹配

  • AC in C# : Aho-Corasick string matching in C#

HTML Parser

  • Html Agility Pack , an agile HTML parser that builds a read/write DOM and supports plain XPATH or XSLT. It is a .NET code library that allows you to parse "out of the web" HTML files.
  • Majestic-12 , an open source high-performance .NET C# module that was created to parse HTML for links, indexing and other purposes. 速度快,但不生成dom树

外部联接

分享到:
评论

相关推荐

    常用的机器学习工具混淆矩阵

    常用的机器学习工具混淆矩阵常用的机器学习工具混淆矩阵常用的机器学习工具混淆矩阵常用的机器学习工具混淆矩阵常用的机器学习工具混淆矩阵常用的机器学习工具混淆矩阵常用的机器学习工具混淆矩阵常用的机器学习工具...

    机器学习工具包spider工具包

    matlab语言编写的机器学习的各种常用算法,包括svm,adboost,bagging,svm,决策树,贝叶斯准则等机器学习常用算法

    机器学习spider工具包

    机器学习的各种常用算法matlab语言编写,包括svm,adboost,bagging,svm,决策树,贝叶斯准则等机器学习常用算法

    机器学习常用算法实现.zip

    从上述所列举的应用可知,机器学习正在成为各行各业都会经常使用到的分析工具,尤其是在各领域数据量爆炸的今天,各行业都希望通过数据处理与分析手段,得到数据中有价值的信息,以便明确客户的需求和指引企业的发展...

    机器学习常用算法实现Demo.zip

    从上述所列举的应用可知,机器学习正在成为各行各业都会经常使用到的分析工具,尤其是在各领域数据量爆炸的今天,各行业都希望通过数据处理与分析手段,得到数据中有价值的信息,以便明确客户的需求和指引企业的发展...

    机器学习常用算法实现-python.zip

    从上述所列举的应用可知,机器学习正在成为各行各业都会经常使用到的分析工具,尤其是在各领域数据量爆炸的今天,各行业都希望通过数据处理与分析手段,得到数据中有价值的信息,以便明确客户的需求和指引企业的发展...

    使用机器学习、深度学习等方式进行数据挖掘时常用函数工具箱.zip

    机器学习是一种人工智能(AI)的子领域,致力于研究如何利用数据和算法让计算机系统具备学习能力,从而能够自动地完成特定任务或者改进自身性能。机器学习的核心思想是让计算机系统通过学习数据中的模式和规律来实现...

    迁移学习基础-机器学习常用算法速查手册.zip

    从上述所列举的应用可知,机器学习正在成为各行各业都会经常使用到的分析工具,尤其是在各领域数据量爆炸的今天,各行业都希望通过数据处理与分析手段,得到数据中有价值的信息,以便明确客户的需求和指引企业的发展...

    MQ2008机器学习 ltr 常用数据集 RankLib.jar 工具测试数据集

    MQ2008机器学习 ltr 常用数据集 RankLib.jar 工具测试数据集

    必须要会的机器学习常用算法实践(含例子).zip

    从上述所列举的应用可知,机器学习正在成为各行各业都会经常使用到的分析工具,尤其是在各领域数据量爆炸的今天,各行业都希望通过数据处理与分析手段,得到数据中有价值的信息,以便明确客户的需求和指引企业的发展...

    常用机器学习算法模板.zip

    从上述所列举的应用可知,机器学习正在成为各行各业都会经常使用到的分析工具,尤其是在各领域数据量爆炸的今天,各行业都希望通过数据处理与分析手段,得到数据中有价值的信息,以便明确客户的需求和指引企业的发展...

    OpenNLP 是一个机器学习工具包,用于处理自然语言文本 支持大多数常用的 NLP 任务.zip

    机器学习 机器学习使计算机能够从研究数据和统计信息中学习。 机器学习是迈向人工智能(AI)方向的其中一步。 机器学习是一种程序,可以分析数据并学习预测结果。 从何处开始? 在本教程中,我们将回到数学并研究...

    机器学习数学知识与学习心得.zip

    机器学习的特点就是:以计算机为工具和平台,以数据为研究对象,以学习方法为中心;是概率论、线性代数、数值计算、信息论、最优化理论和计算机科学等多个领域的交叉学科。所以就先介绍一下机器学习涉及到的一些最...

    机器学习的常用算法demo,包括python,cpp.zip

    从上述所列举的应用可知,机器学习正在成为各行各业都会经常使用到的分析工具,尤其是在各领域数据量爆炸的今天,各行业都希望通过数据处理与分析手段,得到数据中有价值的信息,以便明确客户的需求和指引企业的发展...

    Python 图机器学习算法库.rar

    Python提供了许多机器学习库和工具,可以用来开发各种类型的机器学习应用程序。 以下是一些常用的机器学习库和框架: 1. Scikit-learn: Scikit-learn是一个非常流行的Python机器学习库,提供了各种常用机器学习...

    A毕业设计:机器学习工程师

    2. **机器学习算法**:熟悉常用的机器学习算法和技术,包括监督学习、无监督学习、深度学习等,能够选择合适的算法来解决问题。 3. **模型建立与调优**:构建机器学习模型,进行模型训练、调参优化,提高模型的准确...

    机器学习SVM作业基于Iris鸢尾花的数据样本实现SVM分类项目源码+报告

    sklearn (scikit-learn) 是基于 Python 语言的机器学习工具,是简单高效的数据挖掘和数据分析工具,有常用的机器学习(如:广义线性模型、最近邻法、决策树等)的工具,也有一些很经典的数据集(如:波士顿房价、鸢尾...

    机器学习速查表

    Scikit-learn 算法速查表 常用算法的 Python 和 R 代码速查表 微软 Azure 机器学习算法速查卡

    实现常用的数据结构以及机器学习算法.zip

    从上述所列举的应用可知,机器学习正在成为各行各业都会经常使用到的分析工具,尤其是在各领域数据量爆炸的今天,各行业都希望通过数据处理与分析手段,得到数据中有价值的信息,以便明确客户的需求和指引企业的发展...

    采用常用的机器学习和深度学习方法来进行情感数据分类.zip

    从上述所列举的应用可知,机器学习正在成为各行各业都会经常使用到的分析工具,尤其是在各领域数据量爆炸的今天,各行业都希望通过数据处理与分析手段,得到数据中有价值的信息,以便明确客户的需求和指引企业的发展...

Global site tag (gtag.js) - Google Analytics