香农的信息熵公式:
p_i是某个字符的频率。
有人统计的中文频率表:
喜马拉雅:https://www.ximalaya.com/keji/6310606/
WX:dalaoli_shuxue
电邮:dalaoliliaoshuxue@gmail.com
不是能语音转文字吗?
大老李聊数学 回复 @听友235737130: 中文语音转文字,质量很差,看喜马拉雅就知道了。
黎曼:这是显而易见的, 结果,这个显而易见后人研究了几十年
用圣经来衡量中英文信息熵有失偏颇,能不能用对一项运动规则的,比如足球,铁人三项运动。
先点赞有素质
大老李这三个字如果能缩写为大李,这节目的信息传输效率就更好了。。
听友235737130 回复 @韩w_w9: O P /C C + S(E ^ -X ^ 2)?
Raed Tihs Txet
2 ^ C 'E 3 /2 2 F T l l l
《数学之美》有一章就是介绍这个的,对于不是这个领域的人来说挺开脑洞的
喜欢这个好
讲得非常好! 我作为一个学过中文又从事计算机工作的美国老外来想这个问题实在觉得太有意思。我有几个想法。第一汉字的复杂程度以及每一个字的笔画和空间分布包含的信息肯定远远超过一般的英文单词。如果我们分析一下两种文字中的每一个词或字的复杂程度,譬如说用笔画的数量来做比较,不知道会得到什么结论?第二,就文字编码的问题,我认为我们人类和科技领域的工作者没有必要把编码的问题和压缩的问题混在一起。这根本是两个问题。我们如果用某一种文字的频率来达到文档压缩的目的,然后再把这个设计近文字符号的编码中,这种眼光显然太短。谁能保障之前做的压缩方法或依靠的频率数据永远最正确?把压缩问题和编码问题分开来对待的好处很多!
大老李聊数学 回复 @7dj836ive62aqm7uvb61: 第一个是非常好的问题,我需要查点资料,以后做一期音频解答。第二个问题我同意,所以 目前霍夫曼编码主要也就用在压缩算法中,而不是一般情况下的编码方式。