Skip to content
全部文字

内耗、修心与欲望

人并不是一个“只推理、不训练”的模型。

何鸿恺 11 min read
  • #修心
  • #心理
  • #AI
  • #强化学习

原载 2026 年 2 月 3 日,微信公众号“问题儿童与端水大师的日常”(仍在更新中)。

从对境到行为

人的行为并不是从理性开始的,而是从自动反应开始的。

对境 → 心念 → 行为

一、对境 → 心念:自动生成,而非选择

当人面对某个情境(对境)时,脑回路会先自动生成一组内部反应倾向:

  • 看到蛇:退缩、警惕
  • 面对挑战:兴奋 / 紧张 / 逃避
  • 看到异性:吸引 / 欣赏 / 无感

这些并不是经过思考的“想法”,而是长期经验训练出的默认、下意识反应。

更准确地说,对境并不会生成一个单一心念,而是同时激活多种冲动,最终由既有脑回路的权重,形成一个暂时占优的倾向,这才是人所感知到的“当下心念”。

这一过程具有几个稳定特征:

  • 极快
  • 低能耗
  • 几乎不受即时意志控制

二、心念 → 行为:意识的高成本干预

行为并不是心念的直接输出。

同样的心念,在不同条件下,可能被导向完全不同的行为:

  • 害怕 → 逃跑 / 硬撑
  • 疲惫 → 睡觉 / 继续加班
  • 欲望 → 发生关系 / 保持距离

在这一阶段,意识才开始介入,通过规则、价值观、社会约束、角色责任等,对行为进行延迟、修正或压制。

需要注意的是:意识并不是一个全权裁判,而是一个高成本干预模块。它很少从零决定行为,更多是在已有冲动之上“踩刹车”或“换方向”。

三、内耗的本质:反复干预,却不改底层倾向

当行为长期违背心念,人会感到压抑和别扭。

但真正造成内耗的,并不是“一次不一致”,而是:

意识层反复介入,却无法改变潜意识的生成倾向。

这会带来几个稳定后果:

  • 意志力消耗越来越快(高 Token 消耗)
  • 压抑越久,反弹越强
  • 在高压力或极端诱因下失效(jailbreak)

这不是个人修养问题,而是系统结构决定的结果。

四、三条解决路径,对应三个层级

1. 行为层控制:规矩与自律

通过明确规则,直接约束行为。

例子:

  • 明知不想健身,但靠自律强行坚持
  • 明知想放纵,但用道德或责任压住

特点:

  • 短期有效
  • 高能耗
  • 长期不可持续

这类方法解决的是行为合规,不是系统一致性。

无论是儒家的礼与角色义务,现代社会的法律与强制力,还是公司的规章制度,本质上都属于这一层的秩序治理。

2. 改变对境:环境设计

直接减少会引发冲突的输入。

例子:

  • 不把零食放在家里,而不是每天“克制不吃”
  • 远离高风险社交场景,而不是考验定力
  • 孟母择邻而居、君子不立危墙

这是通过管理输入分布,在不改内部结构的前提下,大幅降低错误输出的概率,或者降低心念与行为发生冲突的概率。

这是极其顺人性、但常被低估的一条路。

3. 改变心念:重塑脑回路

通过长期反馈,改变同一行为带来的主观标签。

例子:

  • 运动从“痛苦”变成“爽感和成就”
  • 学习从“被逼”变成“好奇和沉浸”
  • 面对诱惑,不再自动生成强烈的占有欲

当内部奖励结构发生改变,自动生成的心念就会与被鼓励的行为方向对齐,意识层的控制与干预自然会减少,达到“随心所欲而不逾矩”。

道家和佛家强调直面本心,并不和心念硬刚,而是追问:这个心念为什么会生?

通过觉察、去执、重复暴露但不强化、改变奖惩结构等方式,逐步改变脑回路本身。

五、人是一个在持续 inference 中被训练的系统

如果用大语言模型作类比,可以更精确地理解人的行为机制。

在 LLM 中:

  • 模型权重决定了对输入的第一反应分布
  • Prompt / Guardrails 只是在推理阶段对输出做临时约束

对应到人:

  • 心念,相当于在既有权重下,对当下对境做出的自动中间输出
  • 规则或理性控制,更像是推理阶段的外部修正

关键在于:

人并不是一个“只推理、不训练”的模型。

人更像是一个在持续 inference 中,被反馈信号不断微调的不间断强化学习系统。

每一次对境输入、每一次行为输出、每一次主观体验,都会成为下一轮学习的数据。

因此:

  • 自律只能短暂影响输出
  • 反复暴露的对境 + 行为后的反馈,才会改变系统本身的权重

这也是为什么,长期行为模式的改变,不可能只靠“咬紧牙关”、“想清楚”或“管住自己”完成。

六、自律的真实位置:启动器,而非训练机制

在这个模型中,自律的角色应当被严格限定。

自律的作用在于:

  • 在早期暂时推动行为发生
  • 为系统创造新的经验样本

但它并不是一个有效的训练机制。

如果:

  • 行为是被强行执行的
  • 行为后的主观体验持续是痛苦、空耗或无意义

那么系统接收到的 reward 仍然是负向反馈,权重不会朝目标方向更新,甚至可能被反向强化(厌恶、逃避)。

因此,自律的价值不在“坚持本身”,而在于:

它是否为后续的正反馈和权重调整,创造了条件。

一旦发现某件事长期只能靠意志力维持,就说明系统尚未被真正训练。

七、有效的路径:改对境,改反馈,等权重更新

如果把人视为一个持续学习的系统,那么顺人性的策略就非常清晰。

1. 改对境(既是输入,也是训练数据)

对境不仅决定当下反应,也决定系统长期接收到什么样的数据分布。

  • 减少高诱惑、高噪音、低回报的环境
  • 增加低干扰、可积累、有清晰反馈的情境
  • 主动寻找对当前学习目标更有效的对境

这不是逃避,而是在控制训练数据的质量与结构。

2. 改反馈(Reward Engineering)

系统真正更新权重的,并不是行为本身,而是行为之后的反馈。

  • 如果正确行为只伴随痛苦,权重不会正向更新
  • 只要微弱的正反馈能够持续出现或被放大,系统就会开始收敛

所谓“修心”,在行为学层面,就是让希望被偏好的行为:从负反馈逐渐变成正反馈或中性反馈。

3. 等权重改变,而不是要求立刻一致

权重级变化必然是缓慢的。

在过渡阶段:

  • 心念与行为不完全一致是正常的
  • 短期不顺,并不代表方向错误

真正的完成标志只有一个:

当正确行为不再依赖控制,甚至“不做反而难受”。

那一刻,系统才算真正被训练完成。

修心,才能修顺心意

真正顺人性的成长,不是长期用意识压制心意,

而是通过对境选择、反馈设计和时间积累,

让心念(潜意识)本身,输出与现实中可行、可持续的行为方向一致。

这不是自律的胜利,

而是系统训练完成后的自然结果。