`

信息论学习总结(一)基础知识

阅读更多
我们考虑一下一个离散的随机变量x,当我们观察到它的一个值,能给我们带来多少信息呢?这个信息量可以看做是我们观察到x的这个值带来的惊讶程度。我们被告知一个不太可能发生的事发生了要比告知一个非常可能发生的事发生,我们获得信息要多。
所以信息量的多少依赖于概率分布p(x),所以我们可以用关于p(x)的一个函数来建模信息量h(x).那什么函数模型适合表达呢?
我们观察两个相互独立的事件x,y,我们观察它得到的信息量,要和单独观察他们得到的信息量之和相等。即
h(x,y) = h(x) + h(y)
而两个独立的时间x,y的概率关系:
p(x,y) = p(x) p(y)
基于上面的观察,信息量必须和p(x)的log函数相关。
所以我们得到:

加上负号,可以保证信息量大于等于0。注意一个小概率事件,具有更高的信息量。
log的底数选择并没有限制。信息论中大多都采用2,传输这些信息量需要的2进制位数。

如果我们想传输这个随机变量的值,我们传输的平均信息量,可以表示为关于分布
p(x)的期望:

这个表达式被称为信息熵。

在机器学习中,采用比较多的是自然对数形式,
这样


对x=0的情况,由于

所以我们让p(x)ln(x) = 0

如果对这些信息进行编码传输,我们希望概率大的使用较长的编码,概率小的我们采用较长的编码。最大熵能够达到最小长度的编码,关于熵和最短编码长度的关系,可以参考shannon的Noiseless coding theorem。

熵用来描述指定随机变量的状态,所需要的平均信息。
如果我们想最大化熵,我们利用拉格朗日乘子:

我们可以得
取得最大值,其中M是x状态数。

如果我们有一个联合分布p(x,y),如果x已经知道,那么指定y的值还需要的信息量,
可以通过-ln p(y|x)来描述,所以平均还需要的信息量,可以表示为:

被称为条件熵。我们利用乘法规则,可以得到:


相对熵和互信息:
考虑一个未知的分布p(x),假设我们使用了一个近似的分布q(x)来建模它,
如果我们使用q(x)来构建一个编码模式,用来传输x的值。那么额外需要多指定的信息:

这个式子被称为相对熵或者Kullback-Leibler divergence
相对熵描述了p(x)和q(x)两个分布的差异程度。注意:


我们考虑联合分布p(x,y),如果x,y相互独立,那么p(x,y)=p(x)p(y)
如果他们不相互独立,那么我们想知道他们的相关程度,我们可以使用KL divergence来度量:

这个表达式被称为变量x,y的互信息。从KL divergence的属性我们知道I(x,y)>= 0
当且仅当x和y相互独立时,等号成立。
我们使用加法和乘法规则得到互信息是相对于条件熵的:
分享到:
评论

相关推荐

    信息论----课程总结

    信息论 课程总结 ppt 信号,消息,数据,知识,情报。 信息的定义。(香农信息) 信息的主要特征。 信息的重要性质。 信息的分类。 信息技术的基本内容。

    信息论基础(原书第2版)

    《信息论基础》(原书第2版)是信息论领域中一本简明易懂的教材。主要内容包括:熵、信源、信道容量、率失真、数据压缩与编码理论和复杂度...统计学以及电信方面的高年级本科生和研究生学习信息论基础课程的理想教材。

    机器学习有关的数学基础知识

    总结了机器学习要学习的4个方面的基础知识。非常全面。包括线性代数、概率论、优化、信息论

    硬核!涵盖所有内容的信息论与编码期末复习提纲

    本资源将信息论与编码学这门学科整本书所要考的重点内容进行了总结,基本涵盖了考试所要考的所有内容,将知识点进行了有效的排版,从定义到性质,从例题到计算进行了具体精准的分析,具体内容有(第一章、绪论;...

    人工智能知识点总结.pdf

    人工智能是由计算机科学、控制论、信息论、神经生理学、心理学、语言学等构成。 2. 智能科学研究智能的基本理论和实现技术,是由脑科学、认知科学、人工智能等学科构 成的交叉学科。 3. 认知(cognition)是和情感、...

    论文研究 - “ Apple Teacher”计划的混合学习模型研究

    以混合学习模式和“基础知识-自测-主题学习-自我创造-总结反思”形式的学习活动中的“交流讨论+总结反思”。“国家中长期教育改革和发展计划纲要(2010-2020年)》发布以来,越来越重视我国的教育信息化。 在...

    哈工大 智能技术与自然语言处理技术课程 NLP系列课程 第02章 基础知识-数学基础与语言学基础 共75页.ppt

    第02章 基础知识-数学基础与语言学基础 共75页.ppt 第03章 汉语的分词与频度统计 共88页.pptx 第04章 汉语语料库的多级加工 共82页.pptx 第05章 n-gram语言模型 共78页.ppt 第06章 Markov模型 马尔科夫模型 共57页....

    哈工大 智能技术与自然语言处理技术课程 NLP系列课程 自然语言处理大总结 脑图总结.pdf

    第02章 基础知识-数学基础与语言学基础 共75页.ppt 第03章 汉语的分词与频度统计 共88页.pptx 第04章 汉语语料库的多级加工 共82页.pptx 第05章 n-gram语言模型 共78页.ppt 第06章 Markov模型 马尔科夫模型 共57页....

    高中化学学习方法大全.doc

    如信息论认为,学习是信息通过各种感观进入大脑,进行编码、转换、储存、组合、反馈等一系列过程。就信息输入来说,有强有弱,当学习者高度主动自觉时,大脑皮层处于兴奋状态,就能主动调节感受器官,接受各种输入...

    物联网概论学习体会.doc

    《物联网概论》课程学习总结 2014年04月起,我有幸第一次参加了XX部组织的高等学校教师网络培训。参加的是由 XX教授、XX教授主讲的《物联网概论》课程。两位教授均是在该领域经验丰富、研究颇深 的专家。通过参加...

    哈工大 智能技术与自然语言处理技术课程 NLP系列课程 一篇论文的诞生 共70页.ppt

    第02章 基础知识-数学基础与语言学基础 共75页.ppt 第03章 汉语的分词与频度统计 共88页.pptx 第04章 汉语语料库的多级加工 共82页.pptx 第05章 n-gram语言模型 共78页.ppt 第06章 Markov模型 马尔科夫模型 共57页....

    1人工智能知识点总结.pdf

    人工智能是由计算机科学、控制论、信息论、神经生理学、心理学、语言学等构成。 2. 智能科学研究智能的基本理论和实现技术,是由脑科学、认知科学、人工智能等学科构 成的交叉学科。 3. 认知(cognition)是和情感、...

    人工智能与机器学习简介.pptx

    机器学习宏观框架 机器学习(Machine Learning)基础 理论基础 VC维理论、信息论、bias-variance tradeoff(过拟合与欠拟合) 算法模型 决策树、人工神经网络、支持向量机、K-Means…… 优化算法 梯度下降(gradient ...

    个人学习ATMEGA8单片机应用及其仿真总结30例资料_51单片机(论文+开题报告+源代码+详解图).zip

    【项目资源】:包含前端、后端、移动开发、操作系统、人工智能、物联网、信息化管理、数据库、硬件开发、大数据、课程资源、音视频、网站开发等各种技术项目的源码。包括STM32、ESP8266、PHP、QT、Linux、iOS、C++、...

    计算机应用基础教学计划.doc

    主要内容是基于目前广泛应用的 Windows操作平台,包括信息技术与计算机基础知识,Windows XP的基本操作,计算机网 络基础,并简单的介绍了文字输入方法,信息在计算机中的存储和处理等内容。 2、教材重点突出。本...

    毕业设计基于-RFID-的校园一卡通系统设计总结与展望.doc

    最后,也感谢学院的老师和领 导,正是你们的辛勤耕耘,使我们的基础知识又一次得到了巩固,使理论能与实践相结 合,不仅完成了学业,充实了自己,也更有利于我今后工作的发展。 5.1 基于 RFID 的校园一卡通系统设计...

Global site tag (gtag.js) - Google Analytics