改进最小自由能原理为最大信息效率原理Improving the Minimum Free Energy Principle to the Maximum Information Efficiency Principle

鲁晨光中文主页 English Homapage Papers on ArXiv Recent papers about Semantic Information and Statistical Learning

2025年6月于英文Open期刊Entropy发表英文论文：《改进最小自由能原理为最大信息效率原理》

Entropy 是MDPI出版公司出版的一个专业期刊，汇集了全球许多对熵和信息感兴趣的作者和读者。这篇是我在Entropy上面发表的第6篇文章。

本文发表历经坎坷，先经两位审稿人审稿，Reviewer 1赞成改进，并鼓励我用新理论解释生物自组织。Reviewer 2可能是物理学研究者，他强烈反对，不仅反对我的改进，也反对最小自由能原理，要求我局限于机器学习讨论。不过他对第五节（结合语义信息论和统计物理分析）的苛刻要求和关于exergy的建议也改进了第五节。先后三次修改后（修改版本包括关于色觉进化和鸟类审美趣味的讨论，中文版见这里），手稿还是被学术编辑拒绝，因为我拒绝了Reviewer 2的基本要求。但是学术编辑允许我修改再投稿。再投稿保留了关于最小自由能原理相对最大熵原理的进步以及关于生物自组织促进地球有序的讨论，但是删除了关于色觉进化和鸟类审美趣味的讨论（再修改时恢复了一小段文字，说明这是新的研究方向）。第二批审稿人都赞成最小自由能原理，前一位对我的改进评价很高，用了“感谢作者..."这样的词；第二位评价没那么高，但是也同意修改发表。两位总的意见是：1）不赞成说最小自由能原理和物理学有冲突；2）叙述结构不好。修改主要是：1）改说“最小自由能”容易引起误解；2）把最小自由能原理的两个缺点改成三个缺点（添加了局限性——只用似然函数作为约束）。修改后一次性通过。我在鸣谢中表示了对各位审稿人的感谢，也表示了对熊楚瑜先生的感谢——感谢他五年前提醒我关注最小自由能原理。

这篇文章的重要意义在于：最小自由能准则和变分贝叶斯由Hintond等人提出（参看：Helmholtz Machine，VB），是无监督学习的理论基础；Friston等人把最小自由能准则发展为最小自由能原理（FEP），“被认为是‘自达尔文自然选择理论后最包罗万象的思想’，从第一性原理出发解释智能体更新认知、探索和改变世界的机制，被认为有可能成为智能的第一性原理的重要候选方案，并有望成为新时代复杂系统的大统一理论。”（见自由能原理：生命、意识与智能的统一原理）。而本文证明：VB和FEP在理论上有错，容易引起误解，并且应用有其局限性；其进步意义上是比最大熵原理能更好解释和优化生物主观预测和客观事实（或主观目的控制结果）的符合。但是，使用最大信息效率原理能保留其优点克服其缺点。所以本文必将对机器学习、通信、熵理论、神经生物学、进化论等领域产生深远影响。语义信息G理论在它问世后的35年里一直稀有关注，现在必将因此一战，崭露锋芒，势不可挡...

下面是中英文版。

改进最小自由能原理为最大信息效率原理(pdf)
发表于《熵》的专刊：机器学习和人工智能的信息理论方法

摘要:Friston提出最小自由能 (MFE) 原理，它基于Hinton等人提出的变分贝叶斯(VB)方法。该原理继承了进化系统论的基本思想，并且强调强调大脑和行为和环境相互协调，增加有序，对抗熵增大。然而，该原理有三个缺点：有一个理论缺陷，容易被误解，有一个局限性(只用似然函数作为约束）。本文首先介绍语义信息G理论和R(G)函数(R是给定语义互信息G时的最小香农互信息)——它是信息率失真函数的推广。G理论基于P-T概率框架，因此允许使用真值函数、隶属函数、相似函数和失真函数作为约束，涉及语义。本文基于R(G)函数和逻辑贝叶斯推断的研究提出语义变分贝叶斯(SVB)和最大信息效率 (MIE) 原理，用以克服VB和MFE原理的三个缺点。理论分析和计算实验证明：R–G = F-H(X|Y) ( F 是变分自由能，H(X|Y)是香农条件熵)而不是F在优化隐含变量时持续减小； SVB是优化隐含变量和主动推断(Active Inference)的简单可靠方法文中还分析了局域非平衡和平衡系统中信息、熵和自由能、变分自由能之间的关系，说明香农互信息信息相当于自由能的增量，语义互信息相当于火用(Exergy)的增量，VFE相当于物理学熵。最大信息效率原理继承了最小自由能原理的基本思想，但是更容易理解和使用；不过它也需要结合深度学习方法以便更广应用。

关键词：变分贝叶斯，最小自由能原理，香农互信息，语义互信息，信息率逼真度，EM算法，主动推断，熵，自由能，波尔茨曼分布。

Improving the Minimum Free Energy Principle to the Maximum Information Efficiency Principle

(published in Entropy；Special Issue : Information-Theoretic Approaches for Machine Learning and AI)

Abstract: Friston proposed the Minimum Free Energy Principle (FEP) based on the Variational Bayesian (VB) method. This principle emphasizes that the brain and behavior coordinate with the environment, promoting self-organization. However, it has a theoretical flaw, a possibility of being misunderstood, and a limitation (only likelihood functions are used as constraints). This paper first introduces the semantic information G theory and the R(G) function (where R is the minimum mutual information for the given semantic mutual information G). The G theory is based on the P-T probability framework and, therefore, allows for the use of truth, membership, similarity, and distortion functions (related to semantics) as constraints. Based on the study of the R(G) function and logical Bayesian Inference, this paper proposes the Semantic Variational Bayesian (SVB) and the Maximum Information Efficiency (MIE) principle. Theoretic analysis and computing experiments prove that R − G = F − H(X|Y) (where F denotes VFE, and H(X|Y) is Shannon conditional entropy) instead of F continues to decrease when optimizing latent variables; SVB is a reliable and straightforward approach for latent variables and active inference. This paper also explains the relationship between information, entropy, free energy, and VFE in local non-equilibrium and equilibrium systems, concluding that Shannon information, semantic information, and VFE are analogous to the increment of free energy, the increment of exergy, and physical conditional entropy. The MIE principle builds upon the fundamental ideas of the FEP, making them easier to understand and apply. It needs to combine deep learning methods for wider applications.

Keywords: variational Bayes; free energy principle; Shannon mutual information; semantic mutual information; information rate-fidelity; EM algorithm; active inference; entropy; free energy; Boltzmann distribution

Graphical摘要：