百度360必应搜狗淘宝本站头条
当前位置:网站首页 > 技术文章 > 正文

信息传输背后的数学

cac55 2025-03-05 13:43 16 浏览 0 评论

我们每天都在发送信息, 无论是给亲人的短信、给朋友的电子邮件, 还是那些古老的电报.然而, 令人惊讶的是, 很少会有人问:“这些存储在云端的数据是怎样以如此清晰和快速的方式传输的?”也许借助物理学, 我们可以推测消息是通过波传输的. 然而, 这并不足以解释数据是如何以高准确度传输的.因为凭直觉, 沿着非真空介质传播的波很可能会经历扰动, 这将引入错误的传输数据.此外, 这些扰动可能是不可逆的, 也就是说, 波不会经历自我修正的机制.因此, 主要的问题是:数据是怎样以如此高的保真度传输的?换句话说, 我们每天是如何享受如此迅速而准确的通信方式的?

消息、信息和数据

事实证明, 所有这些数据或信息传输背后都有一个基础的数学理论. 从互联网到智能设备的数据传输就是一个具体例子, 这是一种从一个点到另一个点的更一般、更抽象的数据传输概念. 在这里, 点可以是发送方(即信息源)或接收方(即目的地), 例如卫星或手机.

在这一通用的信息传输模型中, 发送方首先将信息或消息发送给编码器, 编码器随后通过使用合适的数学结构对消息进行编码. 一个具有历史意义的例子是使用二进制数字(比特), 即0和1, 来编码黑白图像. 在这种编码技术中(NASA在1960年代实施), 图像被划分为等大小的方块, 每个方块要么是完全黑色, 要么是完全白色;编码器用数字1表示每个黑色方块, 用0表示每个白色方块, 从而有效地产生了一组1和0(在数学术语中称为关联矩阵(Incidence matrix)).

编码后的下一个步骤是将编码的信息(我们称之为数据)传输到接收方. 在此过程中, 数据通过介质或通道传输——在卫星的情况下, 可能是大气层和靠近地球表面的银河区域——到达接收端. 最后, 接收端对数据进行解码, 即执行编码器对信息所做的反操作. 这样, 接收方就获得了原始信息. 如图1简要描述了这一过程.

消息传输系统无疑应该更复杂, 否则, 我们肯定会质疑, 从事这一领域的数学家或工程师究竟是如何赚取薪水的.上述模型中存在两个固有的问题. 首先, 你可能已经从波扰动的例子中意识到, 通道会向数据中引入扰动或噪声.这会影响传输数据的准确性或可靠性(见图2中的A). 其次, 参考NASA的例子, 有时无法100%准确地用数学结构表示图像或信息.这就产生了我们所称的信息失真(见图2中的B).

这些问题是否得到了解决或妥善处理?答案是肯定的, 但还不是完全解决(确实很棘手!). 关于第一个问题, 也称为通道编码问题, 数学家们发现, 通过添加一些与传输数据无关的额外元素(在数学术语中称为冗余), 可以降低噪声影响数据保真度的概率. 这些冗余使数据对不可逆的或永久的扰动不那么敏感, 从而提高数据的准确性. 然而, 这会降低数据传输的速度, 因为发送方必须在每个时刻都通过通道发送额外的冗余. 最终, 必须在速度和准确性之间做出妥协, 但我们能达到的最佳妥协是什么呢?

让我们在考虑第二个问题(源编码问题)时牢记这个问题. 在通过数学结构表示我们的消息时, 我们必须使用一组符号来封装其各个不同的元素. 显然, 我们希望完整地捕捉信息而不失真, 但这需要使用更多的符号. 工程师对此非常关注, 因为他们的目标是使用尽可能少的符号,尽可能多地压缩信息. 因此, 必须做出妥协, 选择最佳妥协的问题再次浮出水面.

香农的通信理论

1948年, 数学家克劳德·艾尔伍德·香农(Claude Elwood Shannon)发表了两篇论文, 统称为《通信的数学理论》, 描述并分析了一种信息传输的通用的数学模型——实际上就是我们所描述的模型. 香农证明了数据传输速率和信息压缩程度存在基本限制. 也就是说, (i) 超过某个速率, 数据传输必然变得不可靠;(ii) 低于某个数据压缩水平(即使用尽可能少的符号), 信息必然会失真.

现在, 这些发现乍一看似乎显而易见, 但如果我们稍加深入, 就会意识到它们实际上是多么迷人. 首先, 香农利用概率理论中的思想, 深入探讨了一些数学细节. 他将发送者和发射器各自建模为一个随机变量, 每次生成一个特定元素时, 都会以某个特定的概率生成该元素. 接下来, 他巧妙地制定了一种数学度量, 来衡量消息中所含信息的量, 他称之为. 换句话说, 如果我们用随机变量X表示发射器, 那么有一个函数H, 当应用于X时会得到H(X), 这就是X的熵.

这个H(X)具有非常强大的性质, 因此, 香农建立了以下有趣的事实.

  • H(X)是信息源X在不遭受不可避免失真的情况下, 数据压缩的极限度量. 换句话说, 你的信息内容或熵越高, 就越无法压缩.

  • H函数的思想可以良好地扩展, 得出一个称为互信息(mutual information)的数学表达式. 令人意外的是, 这个互信息的值是通过通道进行可靠数据传输的极限度量. 换句话说, 互信息越高, 可靠数据传输的最大速率就越大.

此外, 虽然在计算出的互信息值以上, 数据传输会变得不可靠, 但在该值以下, 任意可靠的通信水平是可以实现的. 也就是说, 可以选择在数据传输过程中允许的特定错误程度(由噪声引起), 并且总有一个低于互信息的相应速率, 使得错误恰好达到该程度. 同样, 在熵以上的任何压缩水平上, 也可以实现任意小程度的信息失真. 或许所有这些都与我们直觉上认为的不可靠性(失真程度)与速率(压缩水平)之间是连续关系的看法相悖;实际上, 对于压缩和速率都有非常明确的阈值, 超过这些阈值将导致灾难.

我们的问题解决了吗?

考虑到香农的智力成就, 我们可能会认为通信的两个基本问题已经完全解决. 不幸的是, 我们离解决这些问题还很远.大多数人并不知道, 数学家和工程师们正在积极而持续地寻找实现压缩和速率极限的方法. 确实, 了解基本极限是一回事, 而实际达到它们则是另一回事, 而后者往往更具挑战性. 同时, 数学家们常常思考利用他们众多抽象结构的新方法来表示消息或信息. 简而言之, 数学和工程界还有许多未完成的任务.

诚然, 并不是所有人都能将香农的伟大思想与其他数学家和工程师的成就相提并论. (也许有人会略感惊讶, 香农被称为信息理论之父. )尽管如此, 至少我们现在知道, 正是由于香农理论的帮助, 我们能够在一个日益迅速和不可避免的全球化浪潮的世界中, 进行如此高效和有效的沟通.

参考文献

[1] Claude Shannon (1948). A mathematical theory of communication. Bell Systems Technical Journal, vol. 27, pp. 379–423. Available for free at: http://www.alcatel-lucent.com/bstj/vol27-1948/articles/bstj27-3-379.pdf.

[2] Raymond Hill (1990). A first course in coding theory. Oxford Applied Mathematics and Computing Science Series: Oxford University Press, New York.

[3] James Gleick (2011). The information: A history, a theory, a flood. HarperCollins.

    注释
  1. [1]在概率论和信息论中, 两个随机变量的互信息(MI)度量了两个变量之间相互依赖的程度. 具体来说, 对于两个随机变量, 互信息是一个随机变量由于已知另一个随机变量而减少的“信息量”.

  2. 作者 | ALAN J.AW

    译者 | 万物有数

    原文发布于 Plus Magazine


来源:数来数趣

编辑:紫竹小筑


转载内容仅代表作者观点

不代表中科院物理所立场

如需转载请联系原公众号



相关推荐

怎么设置电脑开机自启动项?

电脑开机自启动项是指在电脑开机时自动启动的程序。例如,我们经常使用的一些软件,如QQ、微信、迅雷等,可以设置成开机自启动,这样我们在电脑开机后就不需要再手动打开这些软件了,可以直接使用。本文将介绍如何...

Windows 10 开机自动启动程序设置全攻略

在日常使用电脑的过程中,我们经常会希望一些常用程序能够在开机时自动启动,以便提高工作效率。那么在Windows10中,如何设置开机自动启动的程序呢?今天,我们就来详细介绍几种常见的方法,帮助大家...

如何关闭电脑开机时自动弹出的右下角热点新闻窗口?

如何关闭电脑开机时自动弹出的右下角热点新闻窗口?有用户发现,当电脑开机时,桌面右下角会自动弹出一个带有热点信息的窗口。这种情况就是我们的电脑里存在一些广告程序。当我们的电脑打开并连接到互联网时,...

Mac系统自启动管理

你有没有在Mac系统安装了一个软件后,发现每次重启电脑的时候,他都自动打开来,这种情况就是有些软件打包的时候就设置了开机自动启动,个人觉得有点流氓。那么我们怎么能取消掉开机启动呢?首先,我们打开系统偏...

Windows 10下多标签的文件资源管理器来了(文件夹高效操作)

我们使用网页浏览器一般都有多标签(多选卡)功能,但文件资源浏览器却没有这个多标签功能,挺不方便的,之前有一个Clover可实现这个功能,现在360也出了一个多标签文件管理器(360文件夹),截止到20...

Win7Win10添加开机自动运行软件的技巧方法(亲测可用)

Win7管理开机启动项的方法:1、使用快捷组合键“win+R”打开“运行”;2、输入“msconfig”3、点击“确定”打开“系统配置”;4、点选“启动”项,进入到启动项管理界面,然后就可以开启或关闭...

怎么设置和禁用电脑开机自启动程序?

大家好,这篇文章给大家分享的是关于“怎么设置和警禁用电脑开机自启动程序?”的相关内容,欢迎查阅。在电脑上设置开机自启动程序可以让您的常用软件在开机后自动启动,比如常见的杀毒软件等一般都是自启动程序,他...

Win10开机启动项设置全解(下)

IT之家(www.ithome.com):Win10开机启动项设置全解(下)IT之家刚刚在《Win10开机启动项设置全解(上)》里面介绍了在Win10系统中对于启动项启用和禁用的相关操作的内容,下面我...

电脑开机后无限重启怎么办?

计算机在几秒钟内无限重启的问题更加令人头疼。那么是什么原因造成的呢?有什么解决方案?一、软件原因1、当病毒“冲击波”病毒来袭时,它将提示系统在几秒钟内自动启动。木马程序可以远程控制计算机的所有活动,包...

Clonezilla 自动化之-启动时自动挂载 Webdav 共享文件夹

1、核心结论因Webdav配置文件davfs2.conf未做参数优化,导致Clonezilla自动挂载的Webdav目录镜像恢复正常,但镜像备份报错(Linux系统可能正常),要解决这...

win10 NFS+黑群晖远程加载管理Windows文件夹(读写NTFS格式+高清播放器)

作者:火麒麟11之前也写过一篇远程加载的无奈之举,因为百度了很久教程都没有很详细的,只找到一篇高手的文章,但是我本人小白一个,按照高手的做,搞了一天都没有搞定,也不知道错在那,所以只能先远程加载应急...

Windows 10 每次开机都自动弹出 “今日热点”、“热点资讯” “360每

问题:每次打开Windows10时,都会自动弹出“今日热点”、“热点新闻”、“360天天趣”的广告窗口:很烦人,有时候正常使用的时候会自动弹出!解决方案:右键任务栏-【任务管理器】-右键【今日热门话...

Windows设置软件开机自启动

我们希望电脑开机以后自动运行一些程序,例如向日葵、ToDesk远程软件;微云同步助手等备份软件,可以帮助我们在无人操作电脑的状态下,开机就可以自动执行操作。本期简介:在Windows系统中如何设置软件...

生活小技巧006:批处理实现程序开机自动启动

这次来衡阳部署智能应用发现部署完之后需要启动很多的后台程序来支持服务的运行,这就导致每天开机都需要重复的去启动大量的程序(测试期间服务器晚上会关闭)。作为程序员的我们怎么能够容忍这种事情发生呢?开机启...

禁止Excel启动时自动新建工作簿

通过双击桌面Excel图标启动Excel时会默认自动新建一个空白工作簿,这给需要新建工作簿的用户带来方便。但大多数情况下,我们通过这种方式打开Excel后只是要对某个已存在的工作簿进行编辑,而不需要新...

取消回复欢迎 发表评论: