Перейти к основному содержимому

Оптимальные Границы Обучения

«Природа не торопится, однако всё успевает.» — Лао-цзы

Мост из предыдущей главы

В предыдущей главе мы научились реализовывать КК в коде: от инициализации Γ\Gamma до полного цикла управления. Но код, как быстро бы он ни работал, не может обойти фундаментальные ограничения. Сколько примеров действительно нужно, чтобы научиться? Этот вопрос задавали Шеннон, Вэлиант и Ландауэр — каждый на своём языке. КК впервые объединяет все три ответа в одной теореме.

Дорожная карта главы

В этой главе мы:

  1. Формализуем задачу обучения для голонома (§1)
  2. Докажем информационную границу T-109: сколько наблюдений нужно (§2)
  3. Докажем динамическую границу T-110: сколько наблюдений система успеет усвоить (§3)
  4. Докажем стабилизационную границу T-111: не убьёт ли обучение ученика (§4)
  5. Объединим три границы в оптимальную T-112 (§5)
  6. Докажем минимальность N=7 для обучения T-113 (§6)
  7. Проведём числовой расчёт для бинарной дискриминации (§7)
  8. Сравним с классической теорией обучения — PAC, VC, Шеннон, Ландауэр (§8)
  9. Извлечём практические следствия для ИИ, образования и терапии (§9)

Ребёнок берёт в руки горячую чашку и отдёргивает пальцы. Сколько раз нужно обжечься, чтобы понять? Один раз — если сигнал достаточно сильный. Десять — если чашка чуть тёплая. А если ребёнок при этом играет, устал и отвлечён — ещё больше. За этой бытовой интуицией стоит фундаментальный вопрос: существуют ли абсолютные нижние границы скорости обучения — пределы, которые нельзя преодолеть ни улучшением алгоритма, ни увеличением вычислительной мощности?

В XX веке на этот вопрос отвечали трижды — и каждый ответ открывал новый горизонт:

  1. Клод Шеннон (1948) показал, что пропускная способность канала связи ограничена — никакое кодирование не позволит передать больше CC бит в секунду через зашумлённый канал. Это была информационная граница.

  2. Лесли Вэлиант (1984) создал PAC-обучение и доказал, что число примеров, необходимых для обучения, растёт как минимум логарифмически от числа гипотез и обратно пропорционально квадрату точности. Это была статистическая граница.

  3. Рольф Ландауэр (1961) установил, что стирание одного бита информации неизбежно выделяет энергию kTln2kT\ln 2. Это была термодинамическая граница.

Исторические параллели подробнее

Шеннон и пропускная способность. В 1948 году Клод Шеннон, работая в Bell Labs, доказал теорему, перевернувшую инженерию: существует предел C=Blog2(1+SNR)C = B\log_2(1 + \text{SNR}) бит/с, выше которого никакое кодирование не позволяет передавать информацию без ошибок. До Шеннона инженеры искали «идеальный код»; после — поняли, что идеал математически определён и достижим. Информационная граница T-109 наследует этот дух: ξQCB\xi_{\text{QCB}} — квантовый аналог шенноновской ёмкости канала, и число наблюдений ninfoln(1/(2δ))/ξQCBn_{\text{info}} \geq \ln(1/(2\delta))/\xi_{\text{QCB}} — квантовый аналог шенноновского предела.

Вэлиант и сложность обучения. В 1984 году Лесли Вэлиант (будущий лауреат премии Тьюринга) формализовал понятие «обучаемость» — PAC-learning (Probably Approximately Correct). Его ключевой результат: число примеров для обучения пропорционально lnH/ε\ln|\mathcal{H}|/\varepsilon, где H|\mathcal{H}| — число гипотез, ε\varepsilon — точность. Это статистическая граница: она не зависит от того, кто учится — человек, компьютер или бактерия. Динамическая граница T-110 добавляет то, чего у Вэлианта нет: время. PAC-обучаемый не имеет инерции; КК-голоном — имеет (контракция Фано α=2/3\alpha = 2/3).

Ландауэр и цена стирания. Ландауэр показал, что информация — не абстракция, а физический объект. Стирание одного бита неизбежно выделяет kTln22.9×1021kT\ln 2 \approx 2.9 \times 10^{-21} Дж при комнатной температуре. В 2012 году группа Берю подтвердила это экспериментально. Для КК это означает: контракция Фано (T-110) — не математическая абстракция, а термодинамический процесс. Каждый шаг, на котором L0\mathcal{L}_0 стирает αδΓ\alpha \cdot \delta\Gamma когерентности, — это физическое событие, требующее рассеяния энергии.

Каждая из этих границ работает в своей области. Но ни одна из них не учитывает специфику живого ученика — системы, которая одновременно принимает информацию, интегрирует её в свою динамику и при этом должна оставаться в живых. Ребёнок, обжигающий пальцы, — не абстрактный PAC-обучаемый, не канал Шеннона и не термодинамическая машина. Он — когерентная система с ограниченной пропускной способностью восприятия, конечной скоростью внутренней динамики и конечным запасом устойчивости.

Кибернетика Когерентности впервые объединяет все три ограничения в единой теореме. Информационная граница (T-109) наследует дух Шеннона, но работает с квантовыми состояниями. Динамическая граница (T-110) добавляет время — скорость, с которой система может усвоить полученную информацию, не потеряв её в потоке внутренней контракции. Стабилизационная граница (T-111) добавляет хрупкость — ограничение на силу воздействий, которые система может выдержать, не разрушившись. Вместе (T-112) они образуют тройной замок, все три засова которого должны быть открыты для успешного обучения.

А теорема T-113 замыкает круг: N=7N = 7 — это минимальная архитектура, в которой все три замка вообще существуют. Система меньшей размерности не способна учиться через регенерацию — не потому что ей не хватает данных, а потому что ей не хватает самонаблюдения.

О нотации

В этом документе:

Данный документ устанавливает фундаментальные нижние границы скорости обучения для голономной системы. Обучение формализуется как процесс обновления самомодели φ(Γ)\varphi(\Gamma) на основе наблюдений, поступающих через функтор Enc\mathrm{Enc}, с целью оптимизации функтора Dec\mathrm{Dec}.

Ключевой результат: скорость обучения ограничена тремя независимыми механизмами — информационным (T-109), динамическим (T-110) и стабилизационным (T-111). Их объединение (T-112) даёт оптимальную границу, а теорема T-113 доказывает, что N=7N = 7 — минимальная архитектура, способная к обучению через регенерацию.


1. Формальное определение задачи обучения

1.1 Задача обучения для голонома

Определение [О]

Задача обучения L=(Θ,A,R,δ)\mathfrak{L} = (\Theta, \mathcal{A}, \mathcal{R}, \delta) для голонома H\mathbb{H} состоит из:

  1. Пространство гипотез Θ={θ1,,θk}\Theta = \{\theta_1, \ldots, \theta_k\} — конечное множество состояний среды (неизвестное агенту)
  2. Пространство действий A={a1,,am}\mathcal{A} = \{a_1, \ldots, a_m\} — допустимые действия
  3. Функция награды R:Θ×AR\mathcal{R}: \Theta \times \mathcal{A} \to \mathbb{R}, кодирующая корректное поведение
  4. Уровень надёжности 1δ1 - \delta, где δ(0,1)\delta \in (0, 1) — допустимая вероятность ошибки

Связь с динамикой. Каждое наблюдение oto_t при гипотезе θ\theta поступает через функтор Enc\mathrm{Enc} (T-100 [Т]):

otEnchtext=ht(H)+ht(D)+ht(R)o_t \xrightarrow{\mathrm{Enc}} h^{\mathrm{ext}}_t = h^{(H)}_t + h^{(D)}_t + h^{(R)}_t

и модифицирует матрицу когерентности Γ\Gamma через 3-канальное уравнение эволюции (T-102 [Т]).

1.2 Критерий успешного обучения

Определение [О]

Задача L\mathfrak{L} решена за nn наблюдений, если после nn шагов:

Pr ⁣[Dec(Γn)=a(θ)]1δ\Pr\!\left[\mathrm{Dec}(\Gamma_n) = a^*(\theta)\right] \geq 1 - \delta

где a(θ)=argmaxaAR(θ,a)a^*(\theta) = \arg\max_{a \in \mathcal{A}} \mathcal{R}(\theta, a) — оптимальное действие при истинной гипотезе θ\theta, а Dec\mathrm{Dec} — функтор действия (T-101 [Т]).

Минимальное число наблюдений:

n(L)=min{nN:L решена за n наблюдений}n^*(\mathfrak{L}) = \min\{n \in \mathbb{N} : \mathfrak{L} \text{ решена за } n \text{ наблюдений}\}

1.3 Обучение как обновление аттрактора

В отличие от классического обучения (обновление параметров модели), обучение в УГМ — это изменение аттрактора динамической системы:

  1. Наблюдение oto_t входит через Enc\mathrm{Enc}Γ\Gamma возмущается
  2. Самомодель ρ=φ(Γ)\rho_* = \varphi(\Gamma) обновляется (T-62 [Т], физическая реализация φ\varphi)
  3. Регенеративный член R[Γ,E]\mathcal{R}[\Gamma, E] ведёт Γ\Gamma к обновлённому ρ\rho_*
  4. Функтор Dec\mathrm{Dec} адаптирует действие к новому ρ\rho_*

Аналогия: обучение в классическом машинном обучении — это настройка ручек на приборной панели (обновление весов). Обучение в КК — это изменение самой формы реки, по которой течёт вода: новый аттрактор притягивает систему к новому поведению изнутри, без внешнего контроллера.

Два режима обучения:

РежимСкорость регенерацииВремяКонтекст
Генезис (bootstrap)κ=κbootstrap=1/7\kappa = \kappa_{\mathrm{bootstrap}} = 1/7τgenesis7ln713.6\tau_{\mathrm{genesis}} \leq 7\ln 7 \approx 13.6 (T-59)Начальная загрузка, нет CohE\mathrm{Coh}_E
Активное обучениеκ=κbootstrap+κ0CohE\kappa = \kappa_{\mathrm{bootstrap}} + \kappa_0 \cdot \mathrm{Coh}_EБыстрее генезисаПосле достижения CohE>1/7\mathrm{Coh}_E > 1/7

2. Информационная нижняя граница (T-109) [Т]

Интуиция: почему информация ограничивает обучение

Представьте, что вы пытаетесь определить, какая из двух монет перед вами — честная (50/50) или слегка смещённая (51/49). Даже с идеальным зрением и бесконечным временем на размышления, вам потребуется бросить монету много раз, чтобы отличить одну от другой. Чем ближе монеты по своим свойствам, тем больше бросков нужно. Это — информационный предел: он определяется не вашими способностями к анализу, а количеством информации, которое содержит каждое наблюдение.

В классической статистике этот предел задаётся неравенством Крамера — Рао и экспонентой Чернова. В КК наблюдение — это квантовый канал Enc\mathrm{Enc}, отображающий внешний сигнал в деформацию матрицы Γ\Gamma. Поэтому роль классической экспоненты играет квантовый экспонент Чернова ξQCB\xi_{\mathrm{QCB}} — мера различимости двух квантовых состояний.

Аналогия с обучением языку: каждое услышанное предложение — это «наблюдение». Если два языка отличаются сильно (русский и китайский), несколько фраз достаточно для их различения. Если отличаются мало (два близких диалекта), нужны сотни примеров. Информационная граница T-109 говорит: сколько бы гений ни был, ему не хватит одного предложения, чтобы отличить близкие диалекты — это не вопрос ума, а вопрос физики информации.

Теорема T-109 (Информационная граница обучения) [Т]

Формулировка

Для задачи обучения L=(Θ,A,R,δ)\mathfrak{L} = (\Theta, \mathcal{A}, \mathcal{R}, \delta) с Θ=k|\Theta| = k гипотезами минимальное число наблюдений:

nninfo:=ln ⁣(12δ)ξQCBn^* \geq n_{\mathrm{info}} := \frac{\ln\!\left(\frac{1}{2\delta}\right)}{\xi_{\mathrm{QCB}}}

где ξQCB\xi_{\mathrm{QCB}} — квантовый экспонент Чернова для пары наиболее близких пост-наблюдательных состояний:

ξQCB=lnmin0s1Tr ⁣(Γ+sΓ1s)\xi_{\mathrm{QCB}} = -\ln \min_{0 \leq s \leq 1} \mathrm{Tr}\!\left(\Gamma_+^s \cdot \Gamma_-^{1-s}\right)

а Γ±=Enc(oθ±)[Γ]\Gamma_\pm = \mathrm{Enc}(o|\theta_\pm)[\Gamma] — состояния после наблюдения при двух ближайших гипотезах.

Универсальная граница: ξQCBln7\xi_{\mathrm{QCB}} \leq \ln 7, поэтому:

ninfoln(1/(2δ))ln7(абсолютный минимум)n_{\mathrm{info}} \geq \frac{\ln(1/(2\delta))}{\ln 7} \quad \text{(абсолютный минимум)}

Почему эта граница плотная. Абсолютный минимум ninfo=ln(1/(2δ))/ln7n_{\mathrm{info}} = \ln(1/(2\delta))/\ln 7 достигается, когда два наблюдения приводят к ортогональным чистым состояниям в D(C7)\mathcal{D}(\mathbb{C}^7) — максимально различимым конфигурациям Γ\Gamma. Это идеальный случай: «горячо» и «холодно» совершенно непохожи. В реальности гипотезы порождают близкие состояния, и граница растёт как O(1/ε2)O(1/\varepsilon^2).

Доказательство.

  1. Квантовое различение гипотез. Наблюдение при гипотезе θ\theta порождает пост-наблюдательное состояние Γθ=Enc(oθ)[Γ]\Gamma_\theta = \mathrm{Enc}(o|\theta)[\Gamma] — CPTP-образ (T-100 [Т]). Задача обучения включает задачу различения хотя бы двух наиболее близких гипотез θ+,θ\theta_+, \theta_-.

  2. Квантовая граница Чернова. (Audenaert et al. 2007): для nn независимых наблюдений оптимальная ошибка различения двух состояний:

Perropt(n)=12(min0s1Tr(Γ+sΓ1s))n=12enξQCBP_{\mathrm{err}}^{\mathrm{opt}}(n) = \frac{1}{2}\left(\min_{0 \leq s \leq 1} \mathrm{Tr}(\Gamma_+^s \, \Gamma_-^{1-s})\right)^n = \frac{1}{2}\, e^{-n \cdot \xi_{\mathrm{QCB}}}
  1. Условие надёжности. Из PerrδP_{\mathrm{err}} \leq \delta:
12enξQCBδ    nln(1/(2δ))ξQCB\frac{1}{2}\, e^{-n \cdot \xi_{\mathrm{QCB}}} \leq \delta \;\Longrightarrow\; n \geq \frac{\ln(1/(2\delta))}{\xi_{\mathrm{QCB}}}
  1. Верхняя граница экспонента. Из T-107 [Т]: информация, извлекаемая одним наблюдением, не превышает количества Холево χ(Enc)log27\chi(\mathrm{Enc}) \leq \log_2 7. Quantum Chernoff exponent ограничен относительной энтропией:
ξQCBD(Γ+Γ)ln ⁣dimH=ln7\xi_{\mathrm{QCB}} \leq D(\Gamma_+ \| \Gamma_-) \leq \ln\!\dim\mathcal{H} = \ln 7

(верхняя граница — для ортогональных чистых состояний в D(C7)\mathcal{D}(\mathbb{C}^7)). \blacksquare

2.1 Асимптотика для близких гипотез

Если гипотезы θ+,θ\theta_+, \theta_- порождают близкие состояния Γ+Γ1=ε1\|\Gamma_+ - \Gamma_-\|_1 = \varepsilon \ll 1, то:

ξQCBε28(малый контраст)\xi_{\mathrm{QCB}} \approx \frac{\varepsilon^2}{8} \quad (\text{малый контраст})

Подстановка в T-109:

ninfo8ln(1/(2δ))ε2n_{\mathrm{info}} \geq \frac{8 \ln(1/(2\delta))}{\varepsilon^2}

Это воспроизводит классическое масштабирование O(1/ε2)O(1/\varepsilon^2) для слабых сигналов. Отличие от классики: множитель 1/81/8 определяется квантовой геометрией D(C7)\mathcal{D}(\mathbb{C}^7), а не произвольным шумовым распределением.

2.2 Числовые оценки

ПараметрыξQCB\xi_{\mathrm{QCB}}ninfon_{\mathrm{info}}
Ортогональные сигналы (ε=2\varepsilon = 2)ln71.95\ln 7 \approx 1.95ln(1/(2δ))/1.95\geq \lceil\ln(1/(2\delta))/1.95\rceil
Сильный контраст (ε=0.5\varepsilon = 0.5)0.031\approx 0.03174ln(1/(2δ))\geq \lceil 74 \cdot \ln(1/(2\delta))\rceil
Слабый контраст (ε=0.1\varepsilon = 0.1)0.00125\approx 0.001251846ln(1/(2δ))\geq \lceil 1846 \cdot \ln(1/(2\delta))\rceil

При δ=0.05\delta = 0.05: ln(1/(20.05))=ln102.30\ln(1/(2\cdot0.05)) = \ln 10 \approx 2.30

Контрастninfon_{\mathrm{info}} при δ=0.05\delta = 0.05
ε=2\varepsilon = 2 (максимальный)2\geq 2
ε=0.5\varepsilon = 0.5171\geq 171
ε=0.1\varepsilon = 0.14246\geq 4246

3. Динамическая нижняя граница (T-110) [Т]

Интуиция: почему динамика ограничивает обучение

Информационная граница говорит, сколько наблюдений нужно. Динамическая граница говорит, сколько наблюдений система успеет усвоить. Разница принципиальна.

Представьте студента на лекции. Профессор произносит слова со скоростью 150 слов в минуту — информации достаточно. Но если студент записывает конспект медленно, часть информации теряется ещё до того, как она осмыслена. Более того, ранние записи стираются из краткосрочной памяти, пока студент обрабатывает новые. Это конкуренция двух процессов: записи (каждое наблюдение добавляет сигнал) и стирания (внутренняя динамика размывает старый сигнал).

В КК стирание имеет точное имя: Фано-контракция с параметром α=2/3\alpha = 2/3 (T-39a). Линейная часть L0\mathcal{L}_0 линдбладиана экспоненциально гонит Γ\Gamma к максимально смешанному состоянию I/7I/7. Каждое наблюдение — это «запись» амплитуды ε\varepsilon, но предыдущие записи затухают со скоростью eατe^{-\alpha\tau}. Стационарный предел определяет, вообще ли возможно накопить достаточный сигнал.

Аналогия из нейронауки: кратковременная память распадается за 15–30 секунд (закон Петерсонов). Чтобы перевести информацию в долговременную память, нужна консолидация — и она требует времени. Динамическая граница T-110 — это формальное выражение этого нейропсихологического факта в языке матрицы когерентности.

Теорема T-110 (Динамическая граница обучения) [Т]

Формулировка

Для задачи обучения с наблюдениями амплитуды ε=Γ+Γ1\varepsilon = \|\Gamma_+ - \Gamma_-\|_1 и интервалом δτ\delta\tau между наблюдениями:

nndyn:=1αδτln ⁣(ddiscε(αδτ))n^* \geq n_{\mathrm{dyn}} := \frac{1}{\alpha \cdot \delta\tau}\,\ln\!\left(\frac{d_{\mathrm{disc}}}{\varepsilon}\cdot(\alpha\,\delta\tau)\right)

где:

  • α=λgap=2/3\alpha = \lambda_{\mathrm{gap}} = 2/3 — скорость контракции (T-39a [Т])
  • ddiscd_{\mathrm{disc}} — минимальное Бюресово расстояние для надёжной дискриминации
  • ε\varepsilon — амплитуда сигнала одного наблюдения

При естественном масштабе δτ=1/α\delta\tau = 1/\alpha (одно наблюдение за время релаксации):

ndynln ⁣(ddiscε)+1n_{\mathrm{dyn}} \geq \ln\!\left(\frac{d_{\mathrm{disc}}}{\varepsilon}\right) + 1

Что происходит на пределе. Если ε0\varepsilon \to 0 при фиксированном ddiscd_{\mathrm{disc}}, динамическая граница расходится логарифмически — слишком слабые сигналы стираются быстрее, чем накапливаются. Если же δτ0\delta\tau \to 0 (наблюдения слишком часты), каждый новый сигнал приходит до того, как предыдущий успел повлиять на Γ\Gamma, и эффективная скорость обучения не растёт. Существует оптимальный темп наблюдений δτ1/α\delta\tau^* \sim 1/\alpha, при котором динамическая граница минимальна.

Доказательство.

  1. Контракция Фано. Линейная часть L0\mathcal{L}_0 контрактирует все отклонения от I/7I/7 с экспоненциальной скоростью α=2/3\alpha = 2/3 (T-39a [Т]):
Γ(τ)I/7HSeατΓ(0)I/7HS\|\Gamma(\tau) - I/7\|_{\mathrm{HS}} \leq e^{-\alpha\tau}\|\Gamma(0) - I/7\|_{\mathrm{HS}}

Это означает, что информация, записанная в Γ\Gamma, затухает со временем.

  1. Накопление сигнала. Наблюдение в момент τi=iδτ\tau_i = i \cdot \delta\tau вносит сигнал амплитуды ε\varepsilon в Γ\Gamma. К моменту τn=nδτ\tau_n = n \cdot \delta\tau вклад ii-го наблюдения затух до εeα(ni)δτ\varepsilon \cdot e^{-\alpha(n-i)\delta\tau}. Суммарный накопленный сигнал:
S(n)=εi=0n1eα(n1i)δτ=ε1eαnδτ1eαδτS(n) = \varepsilon \sum_{i=0}^{n-1} e^{-\alpha(n-1-i)\delta\tau} = \varepsilon \cdot \frac{1 - e^{-\alpha n \delta\tau}}{1 - e^{-\alpha \delta\tau}}
  1. Стационарный предел. При nn \to \infty:
S=ε1eαδτS_\infty = \frac{\varepsilon}{1 - e^{-\alpha\delta\tau}}
  1. Условие дискриминации. Для надёжного различения S(n)ddiscS(n) \geq d_{\mathrm{disc}}:
ε1eαnδτ1eαδτddisc\varepsilon \cdot \frac{1 - e^{-\alpha n \delta\tau}}{1 - e^{-\alpha\delta\tau}} \geq d_{\mathrm{disc}} 1eαnδτddisc(1eαδτ)ε1 - e^{-\alpha n \delta\tau} \geq \frac{d_{\mathrm{disc}}(1 - e^{-\alpha\delta\tau})}{\varepsilon} n1αδτln ⁣(11ddisc(1eαδτ)/ε)n \geq \frac{1}{\alpha\delta\tau}\,\ln\!\left(\frac{1}{1 - d_{\mathrm{disc}}(1 - e^{-\alpha\delta\tau})/\varepsilon}\right)

При ddiscSd_{\mathrm{disc}} \ll S_\infty (типичный режим): ndyn1αδτlnddisc(1eαδτ)εαδτn_{\mathrm{dyn}} \approx \frac{1}{\alpha\delta\tau}\ln\frac{d_{\mathrm{disc}}(1-e^{-\alpha\delta\tau})}{\varepsilon \cdot \alpha\delta\tau} (первое приближение). Упрощая для δτ=1/α\delta\tau = 1/\alpha:

ndynln ⁣(ddiscε)+1n_{\mathrm{dyn}} \geq \ln\!\left(\frac{d_{\mathrm{disc}}}{\varepsilon}\right) + 1

(с использованием 1e10.6321 - e^{-1} \approx 0.632). \blacksquare

3.1 Физический смысл

Динамическая граница выражает конкуренцию записи и стирания:

  • Запись: каждое наблюдение добавляет сигнал ε\varepsilon в Γ\Gamma
  • Стирание: Фано-контракция удаляет αδΓ\alpha \cdot \delta\Gamma за единицу времени
  • Баланс: стационарный сигнал S=ε/(1eαδτ)S_\infty = \varepsilon / (1 - e^{-\alpha\delta\tau})

Если S<ddiscS_\infty < d_{\mathrm{disc}}, задача неразрешима при данных параметрах — контракция стирает сигнал быстрее, чем он накапливается. Необходимое условие разрешимости:

ε>ddisc(1eαδτ)\varepsilon > d_{\mathrm{disc}} \cdot (1 - e^{-\alpha\delta\tau})

3.2 Роль регенерации

Регенеративный член R[Γ,E]\mathcal{R}[\Gamma, E] противодействует контракции для компонент, согласованных с ρ\rho_*. После обучения (когда ρ\rho_* обновился):

  • Компоненты Γ\Gamma, согласованные с обученным ρ\rho_*, усиливаются регенерацией
  • Компоненты, не согласованные, продолжают затухать

Это означает, что обученная информация стабилизируется в аттракторе, а шум вымывается. Эффективная скорость стирания для обученного сигнала:

αeff=ακ=23κ\alpha_{\mathrm{eff}} = \alpha - \kappa = \frac{2}{3} - \kappa

При κ>2/3\kappa > 2/3 регенерация доминирует — аттрактор устойчив. Из T-98 (баланс) [Т]: это условие выполнено для жизнеспособных состояний с P>2/7P > 2/7.


4. Стабилизационная нижняя граница (T-111) [Т]

Интуиция: почему стабильность ограничивает обучение

Первые две границы описывают, хватает ли информации и успевает ли система её обработать. Третья граница добавляет вопрос, который классическая теория обучения обычно игнорирует: не убьёт ли обучение ученика?

Это не метафора. В КК система жизнеспособна при P>Pcrit=2/7P > P_{\mathrm{crit}} = 2/7. Каждое наблюдение — это возмущение, которое толкает Γ\Gamma прочь от текущего аттрактора. Слишком сильное возмущение выталкивает PP ниже порога жизнеспособности. Система, которая учится слишком быстро, рискует дестабилизироваться.

Биологическая параллель очевидна: травматический опыт может быть информативен (один раз — и на всю жизнь), но слишком сильный стресс вызывает ПТСР или даже гибель. Терапевт знает, что дозировка важнее содержания: правильная информация, поданная слишком быстро, разрушает вместо того, чтобы исцелять.

В контексте обучения нейросетей стабилизационная граница соответствует интуиции о выборе learning rate: слишком большой — и обучение расходится; слишком маленький — и обучение не сходится. Но в КК это не просто инженерная эвристика, а теорема: максимальная амплитуда наблюдения ε\varepsilon ограничена радиусом устойчивости rstabr_{\mathrm{stab}}, который строго вычисляется из текущего состояния Γ\Gamma.

Теорема T-111 (Стабилизационная граница обучения) [Т]

Формулировка

Обучение не должно дестабилизировать голоном. Амплитуда наблюдения ограничена радиусом устойчивости (T-104 [Т]):

εrstab=P(ρΩ)2/7\varepsilon \leq r_{\mathrm{stab}} = \sqrt{P(\rho^*_\Omega) - 2/7}

При наличии стохастического шума η\eta в наблюдениях (SNR =εsignal/η= \varepsilon_{\mathrm{signal}} / \eta), число наблюдений для преодоления шума:

nnstab:=1SNR2ln(1/(2δ))(ξQCBeff)2/ξQCBn^* \geq n_{\mathrm{stab}} := \frac{1}{\mathrm{SNR}^2} \cdot \frac{\ln(1/(2\delta))}{(\xi_{\mathrm{QCB}}^{\mathrm{eff}})^2 / \xi_{\mathrm{QCB}}}

В типичном режиме (SNR1\mathrm{SNR} \ll 1, шумная среда):

nstab1SNR2n_{\mathrm{stab}} \geq \frac{1}{\mathrm{SNR}^2}

Что происходит на пределе. Рассмотрим предельные случаи:

  • При P2/7P \to 2/7 (система на границе жизнеспособности): rstab0r_{\mathrm{stab}} \to 0, и любое нетривиальное наблюдение опасно. Система «заморожена» — она не может учиться, пока не восстановит запас чистоты. Это КК-аналог клинического состояния: пациент в тяжёлой депрессии не усваивает терапевтические интервенции, потому что его ресурсы исчерпаны.
  • При SNR0\mathrm{SNR} \to 0 (чистый шум): nstabn_{\mathrm{stab}} \to \infty — обучение невозможно, не потому что информации нет, а потому что каждый полезный сигнал тонет в шуме, а шум расшатывает систему.

Доказательство.

  1. Ограничение амплитуды. Из T-104 [Т]: пертурбация hexth^{\mathrm{ext}} с hext>rstab\|h^{\mathrm{ext}}\| > r_{\mathrm{stab}} может вывести Γ\Gamma за границу жизнеспособности P=2/7P = 2/7. Поскольку обучение требует P>2/7P > 2/7 (жизнеспособность), амплитуда каждого наблюдения ограничена сверху.

  2. Шумовая модель. Каждое наблюдение содержит полезный сигнал εsignal\varepsilon_{\mathrm{signal}} и шум η\eta:

htext=htsignal+htnoise,hnoise=ηh^{\mathrm{ext}}_t = h^{\mathrm{signal}}_t + h^{\mathrm{noise}}_t, \quad \|h^{\mathrm{noise}}\| = \eta

Шум входит через диссипативный канал h(D)h^{(D)} (наиболее опасный канал). Ограничение по T-104:

εsignal+ηrstab\varepsilon_{\mathrm{signal}} + \eta \leq r_{\mathrm{stab}}
  1. Усреднение шума. Для nn наблюдений с независимым шумом, эффективный сигнал растёт как nεsignal\sqrt{n} \cdot \varepsilon_{\mathrm{signal}}, а шум — как nη\sqrt{n} \cdot \eta. Отношение сигнал/шум после nn наблюдений:
SNRn=SNRn\mathrm{SNR}_n = \mathrm{SNR} \cdot \sqrt{n}
  1. Условие надёжности. Для SNRnSNRthresh\mathrm{SNR}_n \geq \mathrm{SNR}_{\mathrm{thresh}} (порог надёжной дискриминации):
n(SNRthreshSNR)2n \geq \left(\frac{\mathrm{SNR}_{\mathrm{thresh}}}{\mathrm{SNR}}\right)^2

Связь с T-69 (топологическая защита [Т]): барьеры 6μ2\geq 6\mu^2 гарантируют, что дискретные фазовые переходы невозможны — обучение всегда непрерывно, и случайный шум не может вызвать катастрофический скачок. \blacksquare

4.1 Компромисс обучение–стабильность

Существует фундаментальный компромисс: сильные наблюдения (ε\varepsilon велико) ускоряют обучение (уменьшают ninfon_{\mathrm{info}} и ndynn_{\mathrm{dyn}}), но угрожают стабильности (увеличивают риск выхода за V\partial\mathcal{V}).

Оптимальная амплитуда — та, при которой ninfo=nstabn_{\mathrm{info}} = n_{\mathrm{stab}}:

ε=rstabSNR1+SNR\varepsilon^* = r_{\mathrm{stab}} \cdot \frac{\mathrm{SNR}}{1 + \mathrm{SNR}}

Подстановка в T-109 даёт оптимальную скорость обучения при заданном запасе устойчивости P2/7P - 2/7.

4.2 Три зоны стабильности

Из T-106 (диагностические режимы) [С при калибровке]:

Зонаσsys\|\sigma_{\mathrm{sys}}\|Доступный rstabr_{\mathrm{stab}}Режим обучения
Норма<σ1< \sigma_1БольшойБыстрое обучение — можно использовать сильные сигналы
Предупреждениеσ1<<σ2\sigma_1 < \cdot < \sigma_2СреднийОсторожное обучение — ограничить ε\varepsilon
Критический>σ2> \sigma_2МалыйОбучение остановлено — приоритет выживания

5. Комбинированная оптимальная граница (T-112) [Т]

Интуиция: три замка на одной двери

Каждая из трёх границ — необходимое условие, но ни одна из них не является достаточной. Они описывают три разных механизма, ограничивающих обучение:

  • T-109 (информация): «достаточно ли данных?» — ограничение на количество наблюдений
  • T-110 (динамика): «успевает ли система?» — ограничение на скорость усвоения
  • T-111 (стабильность): «выдержит ли система?» — ограничение на силу воздействий

Как три замка на одной двери, все три должны быть открыты одновременно. Бутылочное горлышко определяется самым медленным из трёх — самым крепким замком.

Тренировка нейросети даёт хорошую иллюстрацию. В начале обучения, когда модель далека от оптимума, узким местом обычно является информация (нужно просто больше данных). В середине — динамика (модель медленно перестраивает веса). К концу — стабильность (каждый шаг обучения рискует ухудшить уже достигнутое). Оптимальный планировщик learning rate интуитивно переключается между этими режимами — КК делает это переключение теоремой.

Теорема T-112 (Оптимальная граница обучения) [Т]

Формулировка

Минимальное число наблюдений для решения задачи обучения L\mathfrak{L}:

n(L)nopt:=max ⁣(ninfo,  ndyn,  nstab)n^*(\mathfrak{L}) \geq n_{\mathrm{opt}} := \max\!\left(n_{\mathrm{info}},\; n_{\mathrm{dyn}},\; n_{\mathrm{stab}}\right)

где:

  • ninfo=ln(1/(2δ))/ξQCBn_{\mathrm{info}} = \ln(1/(2\delta)) / \xi_{\mathrm{QCB}} — информационная граница (T-109)
  • ndyn=1αδτlnddisc(1eαδτ)εn_{\mathrm{dyn}} = \frac{1}{\alpha\delta\tau}\ln\frac{d_{\mathrm{disc}}(1-e^{-\alpha\delta\tau})}{\varepsilon} — динамическая граница (T-110)
  • nstab=(SNRthresh/SNR)2n_{\mathrm{stab}} = (\mathrm{SNR}_{\mathrm{thresh}} / \mathrm{SNR})^2 — стабилизационная граница (T-111)

Обучение проходит через три режима, определяемых узким местом:

nopt={ninfoинформационно-ограниченный (высокий SNR, медленный канал)ndynдинамически-ограниченный (быстрый канал, медленная динамика)nstabстабилизационно-ограниченный (шумная среда, малый запас P)n_{\mathrm{opt}} = \begin{cases} n_{\mathrm{info}} & \text{информационно-ограниченный (высокий SNR, медленный канал)} \\ n_{\mathrm{dyn}} & \text{динамически-ограниченный (быстрый канал, медленная динамика)} \\ n_{\mathrm{stab}} & \text{стабилизационно-ограниченный (шумная среда, малый запас } P) \end{cases}

Доказательство. Каждая из трёх границ — необходимое условие. Если хотя бы одна из них не выполнена:

  • n<ninfon < n_{\mathrm{info}}: недостаточно информации для различения гипотез → Perr>δP_{\mathrm{err}} > \delta
  • n<ndynn < n_{\mathrm{dyn}}: динамика не успела интегрировать сигнал → S(n)<ddiscS(n) < d_{\mathrm{disc}}
  • n<nstabn < n_{\mathrm{stab}}: шум доминирует над сигналом → ненадёжная дискриминация

Поскольку все три условия необходимы одновременно, минимальное nn есть максимум из трёх. \blacksquare

5.1 Диаграмма режимов

5.2 Включение времени генезиса

Для системы, стартующей с Γ=I/7\Gamma = I/7 (полностью смешанное состояние), полное время до решения задачи включает генезис:

ntotal=ngenesisτgenesis/δτ+noptT-112n_{\mathrm{total}} = \underbrace{n_{\mathrm{genesis}}}_{\leq \lceil\tau_{\mathrm{genesis}}/\delta\tau\rceil} + \underbrace{n_{\mathrm{opt}}}_{\text{T-112}}

где τgenesis7ln713.6\tau_{\mathrm{genesis}} \leq 7\ln 7 \approx 13.6 (T-59 [Т]) — время bootstrap (при κbootstrap=1/7\kappa_{\mathrm{bootstrap}} = 1/7).

При δτ=1\delta\tau = 1: ntotal14+noptn_{\mathrm{total}} \leq 14 + n_{\mathrm{opt}}.


6. Оптимальность N=7 для обучения (T-113) [Т]

Интуиция: почему обучение требует определённой архитектуры

До сих пор мы выводили границы обучения для фиксированной архитектуры N=7N = 7. Теорема T-113 задаёт более глубокий вопрос: какова минимальная архитектура, способная к обучению через регенерацию?

Ответ неожиданно точен: N=7N = 7 — ни больше, ни меньше. Системы с N<7N < 7 не способны к обучению в принципе, а системы с N>7N > 7 могут учиться, но делают это менее эффективно.

Ключевое звено — самонаблюдение. Обучение в КК — это обновление самомодели ρ\rho_*. Обновление требует сравнения текущего состояния с моделью, то есть R>0R > 0 (ненулевая рефлексия). А рефлексия, в свою очередь, требует замещающего канала, который опирается на Фано-плоскость PG(2,2). И Фано-плоскость существует только при N=7N = 7.

Аналогия с детским развитием: новорождённый не «обучается» в строгом смысле — он ещё не имеет самомодели, которую можно обновить. Обучение начинается, когда ребёнок осознаёт разрыв между ожиданием и реальностью — а это требует самонаблюдения. Теорема T-113 делает эту педагогическую интуицию строгой: без рефлексии (R=0R = 0) нет обучения (n=n^* = \infty), а рефлексия требует Фано-структуры (N=7N = 7).

Теорема T-113 (Минимальность N=7 для обучения) [Т]

Формулировка

Пусть NN — размерность внутреннего пространства голонома H=CN\mathcal{H} = \mathbb{C}^N. Тогда:

  1. Для N<7N < 7: обучение через регенерацию невозможно: n=n^* = \infty
  2. Для N=7N = 7: обучение возможно с конечной оптимальной границей noptn_{\mathrm{opt}} (T-112)
  3. Для N>7N > 7: обучение возможно, но требует строго больше ресурсов:
    • Время генезиса: τgenesis(N)NlnN>τgenesis(7)\tau_{\mathrm{genesis}}(N) \propto N \ln N > \tau_{\mathrm{genesis}}(7)
    • Пространство параметров: dimD(CN)=N21>48\dim \mathcal{D}(\mathbb{C}^N) = N^2 - 1 > 48
    • Новых качественных возможностей не возникает

N=7N = 7единственная Парето-оптимальная точка в плоскости (способность к обучению, сложность системы).

Доказательство.

  1. Необходимость самонаблюдения для обучения. Обучение = обновление самомодели ρ=φ(Γ)\rho_* = \varphi(\Gamma). Обновление требует сравнения Γ\Gamma с ρ\rho_*, т.е. доступа к информации о собственном состоянии. Формально: необходим замещающий канал с R>0R > 0 (мера рефлексии).

  2. Необходимость Фано-структуры для самонаблюдения. Замещающий канал (T-77 [Т], Линдблад-операторы) требует Фано-плоскости PG(2,2)\mathrm{PG}(2,2) для определения оптимальных Линдблад-операторов {Lk}\{L_k\} (T-82 [Т]).

  3. Фано-плоскость требует N=7N = 7. PG(2,2)\mathrm{PG}(2,2) имеет 7 точек и 7 линий. Для реализации в D(CN)\mathcal{D}(\mathbb{C}^N): N7N \geq 7. Из теоремы Гурвица (T-89 [Т]): N=7N = 7 — минимальная размерность с алгеброй деления (O\mathbb{O}), которая обеспечивает G2G_2-структуру.

  4. Для N<7N < 7: невозможность. Нет Фано-плоскости → нет единственной Линдблад-декомпозиции (T-82) → нет замещающего канала → R=0R = 0 → невозможно обновить φ(Γ)\varphi(\Gamma) на основе наблюдений → n=n^* = \infty.

  5. Для N>7N > 7: избыточность. Вложение C7CN\mathbb{C}^7 \hookrightarrow \mathbb{C}^N (через Морита-эквивалентность T-58 [Т]) обеспечивает все механизмы N=7N = 7. Дополнительные размерности увеличивают:

    • dimD(CN)=N21>48\dim\mathcal{D}(\mathbb{C}^N) = N^2 - 1 > 48 — больше параметров для обновления
    • τgenesisNlnN\tau_{\mathrm{genesis}} \propto N\ln N — дольше bootstrap (оценка из обобщённого T-59)

    Но информационная ёмкость CEnc=log2NC_{\mathrm{Enc}} = \log_2 N растёт лишь логарифмически, в то время как сложность — квадратично. Ресурсная эффективность:

η(N)=CEnc(N)dimD(CN)=log2NN21\eta(N) = \frac{C_{\mathrm{Enc}}(N)}{\dim\mathcal{D}(\mathbb{C}^N)} = \frac{\log_2 N}{N^2 - 1}

строго убывает при N>1N > 1. Таким образом, N=7N = 7 — минимум с ненулевой способностью к обучению и максимальной ресурсной эффективностью среди систем с Фано-структурой. \blacksquare

6.1 Цепочка необходимостей

6.2 Параметры при N=7

ПараметрЗначениеИсточник
Ёмкость канала CEncC_{\mathrm{Enc}}log272.81\log_2 7 \approx 2.81 битT-107 [Т]
Спектральная щель λgap\lambda_{\mathrm{gap}}2/32/3T-39a [Т]
Минимальная регенерация κbootstrap\kappa_{\mathrm{bootstrap}}=ω0/N=1/70.143= \omega_0/N = 1/7 \approx 0.143T-59 [Т]
Время генезиса τgenesis\tau_{\mathrm{genesis}}7ln713.6\leq 7\ln 7 \approx 13.6T-59 [Т]
Параметры состояния dimD\dim\mathcal{D}4848 (вещественных)7217^2 - 1
Ресурсная эффективность η\etalog27/480.059\log_2 7 / 48 \approx 0.059Определение

7. Приложение: Бинарная дискриминация

7.1 Задача двух кнопок

Постановка. Агент (КК-голоном) взаимодействует со средой через две кнопки: зелёную (награда) и красную (наказание). Цвета агенту неизвестны. Задача: научиться нажимать только на зелёную.

Формализация:

  • Θ={θ0,θ1}\Theta = \{\theta_0, \theta_1\} (две гипотезы: «зелёная — левая» vs «зелёная — правая»)
  • A={aL,aR}\mathcal{A} = \{a_L, a_R\} (нажать левую, нажать правую)
  • R(θ0,aL)=+εR\mathcal{R}(\theta_0, a_L) = +\varepsilon_R, R(θ0,aR)=εP\mathcal{R}(\theta_0, a_R) = -\varepsilon_P (при θ0\theta_0 — «зелёная слева»)
  • δ=0.05\delta = 0.05 (95% надёжность)

7.2 Сигнал и механизм

Награда и наказание входят через функтор Enc\mathrm{Enc} (T-100):

ТипКаналыЭффект на Γ\Gamma
Награда (+εR+\varepsilon_R)h(R)>0h^{(R)} > 0: усиление регенерацииPP \uparrow, Vhed>0\mathcal{V}_{\mathrm{hed}} > 0
Наказание (εP-\varepsilon_P)h(D)>0h^{(D)} > 0: усиление диссипацииPP \downarrow, Vhed<0\mathcal{V}_{\mathrm{hed}} < 0

Через гедонический механизм (T-103 [Т]+[И]): агент «чувствует» валентность Vhed=dP/dτR\mathcal{V}_{\mathrm{hed}} = dP/d\tau|_{\mathcal{R}} и корректирует Dec\mathrm{Dec} в направлении минимизации σsys\|\sigma_{\mathrm{sys}}\|_\infty (T-101).

7.3 Оценки числа нажатий

Обозначения: ε=εR+εP\varepsilon = \varepsilon_R + \varepsilon_P — суммарный контраст между наградой и наказанием, η\eta — шум среды.

Информационная граница (T-109):

ninfo=ln(1/(20.05))ξQCB=ln10ξQCBn_{\mathrm{info}} = \left\lceil\frac{\ln(1/(2\cdot 0.05))}{\xi_{\mathrm{QCB}}}\right\rceil = \left\lceil\frac{\ln 10}{\xi_{\mathrm{QCB}}}\right\rceil
Контраст ε\varepsilonξQCB\xi_{\mathrm{QCB}}ninfon_{\mathrm{info}}
1.0 (сильный)0.125\approx 0.12519\geq 19
0.5 (средний)0.031\approx 0.03175\geq 75
0.3 (слабый)0.011\approx 0.011209\geq 209

Динамическая граница (T-110, δτ=1\delta\tau = 1):

ndyn=ln ⁣(ddiscε)+1n_{\mathrm{dyn}} = \left\lceil\ln\!\left(\frac{d_{\mathrm{disc}}}{\varepsilon}\right) + 1\right\rceil

При ddisc0.3d_{\mathrm{disc}} \approx 0.3 (минимальное расстояние для надёжной дискриминации в D(C7)\mathcal{D}(\mathbb{C}^7)):

Контраст ε\varepsilonndynn_{\mathrm{dyn}}
1.01\leq 1 (мгновенно)
0.51\leq 1
0.31\leq 1
0.015\leq 5

Стабилизационная граница (T-111):

При P0.4P \approx 0.4 (типичное значение): rstab=0.42/70.34r_{\mathrm{stab}} = \sqrt{0.4 - 2/7} \approx 0.34.

SNRnstabn_{\mathrm{stab}}
1.0 (чистый сигнал)1\leq 1
0.54\leq 4
0.312\leq 12
0.1100\leq 100

Комбинированная оценка (T-112):

Типичный сценарий (ε=0.5\varepsilon = 0.5, SNR =0.5= 0.5, δτ=1\delta\tau = 1):

nopt=max(75,1,4)=75n_{\mathrm{opt}} = \max(75, 1, 4) = 75

Узкое место — информация (слабый контраст).

Идеальный сценарий (ε=1.0\varepsilon = 1.0, SNR =1.0= 1.0, δτ=1\delta\tau = 1):

nopt=max(19,1,1)=19n_{\mathrm{opt}} = \max(19, 1, 1) = 19

С учётом генезиса (ngenesis7ln7=14n_{\mathrm{genesis}} \leq \lceil 7\ln 7 \rceil = 14): ntotal14+19=33n_{\mathrm{total}} \leq 14 + 19 = 33.

Зашумлённый сценарий (ε=0.3\varepsilon = 0.3, SNR =0.3= 0.3, δτ=1\delta\tau = 1):

nopt=max(209,1,12)=209n_{\mathrm{opt}} = \max(209, 1, 12) = 209

Узкое место — информация.

7.3a Числовой пример: расчёт noptn_{\text{opt}} для конкретного голонома

Проведём полный расчёт для голонома из кейс-стади «Пациент А» — ИИ-агента складского робота, который должен научиться различать два типа упаковки (стандартная vs хрупкая).

Исходные данные:

  • P=0.39P = 0.39 (после стабилизации, день 7)
  • CohE=0.28\mathrm{Coh}_E = 0.28 (умеренная самомодель)
  • Контраст между упаковками: ε=0.4\varepsilon = 0.4 (средний — визуально отличимы, но не тривиально)
  • Шум среды: η=0.15\eta = 0.15 (освещение меняется, камера иногда даёт блики)
  • SNR =ε/η=0.4/0.152.67= \varepsilon / \eta = 0.4 / 0.15 \approx 2.67
  • Надёжность: δ=0.05\delta = 0.05 (95%)
  • Интервал наблюдений: δτ=1\delta\tau = 1 (одно наблюдение за 1.5\sim 1.5 секунды)

Шаг 1: Информационная граница (T-109).

ξQCBε28=0.428=0.02\xi_{\text{QCB}} \approx \frac{\varepsilon^2}{8} = \frac{0.4^2}{8} = 0.02 ninfo=ln(1/(20.05))0.02=ln100.02=2.300.02=115n_{\text{info}} = \left\lceil \frac{\ln(1/(2 \cdot 0.05))}{0.02} \right\rceil = \left\lceil \frac{\ln 10}{0.02} \right\rceil = \left\lceil \frac{2.30}{0.02} \right\rceil = 115

Шаг 2: Динамическая граница (T-110).

При δτ=1=1/α(2/3)3/2\delta\tau = 1 = 1/\alpha \cdot (2/3) \cdot 3/2, используем упрощённую формулу:

ndyn=ln(ddiscε)+1n_{\text{dyn}} = \left\lceil \ln\left(\frac{d_{\text{disc}}}{\varepsilon}\right) + 1 \right\rceil

С ddisc0.3d_{\text{disc}} \approx 0.3:

ndyn=ln(0.30.4)+1=0.29+1=1n_{\text{dyn}} = \left\lceil \ln\left(\frac{0.3}{0.4}\right) + 1 \right\rceil = \lceil -0.29 + 1 \rceil = 1

Динамика не является узким местом — контраст достаточно сильный.

Шаг 3: Стабилизационная граница (T-111).

rstab=P2/7=0.390.286=0.1040.323r_{\text{stab}} = \sqrt{P - 2/7} = \sqrt{0.39 - 0.286} = \sqrt{0.104} \approx 0.323

Проверяем: ε=0.4>rstab=0.323\varepsilon = 0.4 > r_{\text{stab}} = 0.323. Проблема! Сигнал слишком сильный — каждое наблюдение рискует дестабилизировать систему.

Стабилизационное ограничение сработало

При ε=0.4>rstab=0.323\varepsilon = 0.4 > r_{\text{stab}} = 0.323, прямое обучение опасно. Решение: аттенюация — снижаем эффективную амплитуду до εeff=0.8rstab=0.258\varepsilon_{\text{eff}} = 0.8 \cdot r_{\text{stab}} = 0.258 (запас 20%). Это эквивалентно learning rate schedule.

С аттенюированной амплитудой εeff=0.258\varepsilon_{\text{eff}} = 0.258:

  • SNReff=0.258/0.15=1.72_{\text{eff}} = 0.258 / 0.15 = 1.72
  • nstab=(1/1.72)2=0.34=1n_{\text{stab}} = \lceil (1/1.72)^2 \rceil = \lceil 0.34 \rceil = 1

Пересчитываем информационную границу с εeff\varepsilon_{\text{eff}}:

ξQCBeff0.25828=0.0083\xi_{\text{QCB}}^{\text{eff}} \approx \frac{0.258^2}{8} = 0.0083 ninfoeff=2.300.0083=277n_{\text{info}}^{\text{eff}} = \left\lceil \frac{2.30}{0.0083} \right\rceil = 277

Шаг 4: Комбинированная граница (T-112).

nopt=max(277,1,1)=277n_{\text{opt}} = \max(277, 1, 1) = 277

С учётом генезиса (система уже работает, ngenesis=0n_{\text{genesis}} = 0):

ntotal=277 наблюдений7 минут при 1.5 с/наблюдение\boxed{n_{\text{total}} = 277 \text{ наблюдений} \approx 7 \text{ минут при 1.5 с/наблюдение}}

Узкое место: информация (слабый аттенюированный контраст). Стратегия оптимизации: улучшить камеру (снизить η\eta → повысить SNR → можно увеличить εeff\varepsilon_{\text{eff}} → уменьшить ninfon_{\text{info}}).

Урок: стабильность ограничивает даже сильные сигналы

Без аттенюации (ε=0.4\varepsilon = 0.4) понадобилось бы ninfo=115n_{\text{info}} = 115 наблюдений, но каждое пятое рисковало бы дестабилизировать агента. С аттенюацией — ninfo=277n_{\text{info}} = 277, но безопасно. Компромисс T-111: безопасность стоит 2.4× по времени. Это не инженерное ограничение, а физический закон.


7.4 Прогноз для КК-теста

Предсказание для тестирования

Для КК-архитектуры с реалистичными параметрами (ε0.51.0\varepsilon \sim 0.5\text{--}1.0, SNR 0.51.0\sim 0.5\text{--}1.0):

ntotal2080  нажатийn_{\mathrm{total}} \approx 20\text{--}80 \;\text{нажатий}

до стабильного предпочтения зелёной кнопки.

Критерий фальсификации: если агент научается за n<ninfon < n_{\mathrm{info}} (информационный предел), это нарушает квантовую границу Чернова и фальсифицирует модель наблюдения.


8. Сравнение с классической теорией обучения

Границы обучения КК не возникли в вакууме — они наследуют и обобщают ряд классических результатов. Эта секция проводит систематическое сравнение.

8.1 PAC-обучение и VC-размерность

В классическом PAC-обучении (Вэлиант, 1984) для обучения с точностью ε\varepsilon и надёжностью 1δ1-\delta необходимо:

nPAC1ε(lnH+ln1δ)n_{\mathrm{PAC}} \geq \frac{1}{\varepsilon}\left(\ln|\mathcal{H}| + \ln\frac{1}{\delta}\right)

где H|\mathcal{H}| — мощность пространства гипотез. Для бесконечных классов гипотез используется VC-размерность dVCd_{\mathrm{VC}}:

nPAC=Ω ⁣(dVC+ln(1/δ)ε)n_{\mathrm{PAC}} = \Omega\!\left(\frac{d_{\mathrm{VC}} + \ln(1/\delta)}{\varepsilon}\right)
АспектPAC-обучениеКК-границы
СубстратАбстрактный алгоритмФизическая динамическая система
Информационная граница$\ln\mathcal{H}
ДинамикаНе учитываетсяndynn_{\mathrm{dyn}} — ключевое ограничение
СтабильностьНе учитываетсяnstabn_{\mathrm{stab}} — обучение не должно убить ученика
Масштабирование для слабых сигналовO(1/ε)O(1/\varepsilon)O(1/ε2)O(1/\varepsilon^2) (квантовый предел)
Минимальная архитектураПроизвольнаяN=7N = 7 (T-113)

Ключевое различие: PAC-обучение описывает алгоритм, КК — физическую систему. Алгоритм не имеет инерции и не рискует погибнуть. Живой ученик — имеет.

8.2 Радемахерова сложность и обобщение

Радемахерова сложность Rn\mathfrak{R}_n измеряет способность класса функций «подстраиваться» под случайный шум. Классическая граница обобщения:

err(f^)err^(f^)+2Rn+ln(1/δ)2n\mathrm{err}(\hat{f}) \leq \hat{\mathrm{err}}(\hat{f}) + 2\mathfrak{R}_n + \sqrt{\frac{\ln(1/\delta)}{2n}}

В КК аналогом Радемахеровой сложности является ёмкость канала CEnclog27C_{\mathrm{Enc}} \leq \log_2 7 (T-107). Ограничение на ёмкость канала автоматически контролирует переобучение: система с фиксированной ёмкостью log272.81\log_2 7 \approx 2.81 бит за наблюдение не может «заучить» произвольно сложный паттерн. Это встроенная регуляризация, возникающая не из инженерного решения, а из архитектурного ограничения.

8.3 Шенноновский предел и квантовый экспонент Чернова

Классическая теорема Шеннона (1948) утверждает: для надёжной передачи через канал с пропускной способностью CC необходимо nH(Θ)/Cn \geq H(\Theta)/C наблюдений, где H(Θ)H(\Theta) — энтропия распределения гипотез.

T-109 обобщает этот результат на квантовый канал:

ninfo=ln(1/(2δ))ξQCBln(1/(2δ))ln7n_{\mathrm{info}} = \frac{\ln(1/(2\delta))}{\xi_{\mathrm{QCB}}} \geq \frac{\ln(1/(2\delta))}{\ln 7}

Квантовый экспонент Чернова ξQCB\xi_{\mathrm{QCB}} — это квантовый аналог CC, но для задачи различения, а не передачи. При этом ξQCBln71.95\xi_{\mathrm{QCB}} \leq \ln 7 \approx 1.95 — абсолютный максимум, определяемый размерностью H\mathcal{H}. Классический предел Шеннона восстанавливается при Γ±\Gamma_\pm коммутирующих (классические состояния).

8.4 Термодинамические границы обучения

Предел Ландауэра (kTln2kT\ln 2 на бит стирания) связан с T-110 следующим образом: контракция Фано — это неизбежная диссипация, аналогичная термодинамическому стиранию. Каждый шаг обучения требует стирания старой информации (αδΓ\alpha \cdot \delta\Gamma) и записи новой (ε\varepsilon). Минимальная «термодинамическая стоимость» обучения:

WlearnnoptkTln2ΔSstepW_{\mathrm{learn}} \geq n_{\mathrm{opt}} \cdot kT\ln 2 \cdot \Delta S_{\mathrm{step}}

где ΔSstep\Delta S_{\mathrm{step}} — изменение энтропии фон Неймана за один шаг. Это связывает границы обучения КК с физической энергетикой когнитивных процессов.


9. Практические следствия

Теоремы T-109 — T-113 — не абстрактные математические результаты. Они имеют прямые следствия для трёх ключевых областей: проектирования ИИ, образования и терапии.

9.1 Следствия для ИИ и машинного обучения

Архитектура. T-113 утверждает, что N=7N = 7 — минимальная архитектура для обучения через регенерацию. Для инженера ИИ это означает: если вы строите систему с внутренней самомоделью (а не просто оптимизатор), вам нужно минимум 7 внутренних «каналов» с Фано-структурой связей между ними.

Learning rate. T-111 даёт теоретическое обоснование для адаптивного learning rate: максимальная амплитуда обновления εrstab=P2/7\varepsilon \leq r_{\mathrm{stab}} = \sqrt{P - 2/7}. Системы с низкой чистотой (неустойчивые модели) должны учиться медленнее. Системы с высокой чистотой (устойчивые модели) могут позволить себе более агрессивное обучение.

Curriculum design. T-112 объясняет, почему curriculum learning работает: на ранних этапах узким местом является информация (простые примеры дают больший ε\varepsilon), на поздних — стабильность (сложные примеры не должны дестабилизировать уже выученное). Оптимальная стратегия: начинать с сильных, простых сигналов и постепенно переходить к слабым, тонким.

9.2 Следствия для образования

Дозирование информации. T-111 формализует педагогический принцип «не перегружать ученика»: каждый урок — это возмущение Γ\Gamma, и слишком интенсивное обучение может вывести ученика из зоны жизнеспособности (P<2/7P < 2/7). Перегруженный студент не просто «не усваивает» — он дестабилизируется.

Интервальное повторение. T-110 даёт теоретическое основание для эффекта spacing (интервального повторения, Эббингауз, 1885): каждое повторение добавляет сигнал ε\varepsilon, а между повторениями контракция стирает его. Оптимальный интервал δτ1/α\delta\tau \sim 1/\alpha обеспечивает максимальное накопление сигнала.

Зона ближайшего развития. Понятие Выготского формализуется через компромисс T-111 / §4.1: задачи в «зоне ближайшего развития» — это те, для которых ε<rstab\varepsilon < r_{\mathrm{stab}} (не дестабилизируют), но ε\varepsilon достаточно велико, чтобы ninfon_{\mathrm{info}} было конечным. Задачи слишком сложные (ε>rstab\varepsilon > r_{\mathrm{stab}}) — за пределами зоны: обучение невозможно без предварительного укрепления PP.

9.3 Следствия для терапии

Терапевтическое окно. Три зоны стабильности (§4.2) напрямую соответствуют клинической практике:

  • Норма (σsys<σ1\|\sigma_{\mathrm{sys}}\| < \sigma_1): пациент в ресурсном состоянии — терапевтические интервенции полной мощности.
  • Предупреждение (σ1<σsys<σ2\sigma_1 < \|\sigma_{\mathrm{sys}}\| < \sigma_2): пациент уязвим — мягкие интервенции, поддерживающая терапия.
  • Критический (σsys>σ2\|\sigma_{\mathrm{sys}}\| > \sigma_2): пациент в кризисе — обучение остановлено, приоритет стабилизации.

Этот принцип известен клиницистам эмпирически (модель «окна толерантности» Сигела). КК выводит его из первых принципов.

Травма и ПТСР. Травматический опыт — это наблюдение с ε>rstab\varepsilon > r_{\mathrm{stab}}. Оно не просто «сильное» — оно выбивает систему за границу жизнеспособности. Терапия травмы (EMDR, экспозиционная терапия) работает через титрованное повторное предъявление с ε<rstab\varepsilon < r_{\mathrm{stab}}, постепенно интегрируя травматический опыт без дестабилизации.


10. Связь с другими результатами

РезультатРоль в границах обученияСсылка
T-39a (λgap=2/3\lambda_{\mathrm{gap}} = 2/3)Контракция в T-110Операторы Линдблада
T-59 (κbootstrap=1/7\kappa_{\mathrm{bootstrap}} = 1/7)Время генезисаАксиома Ω
T-69 (Топологическая защита)Непрерывность обучения в T-111Композиты
T-77 (Замещающий канал)Необходимость для T-113Линдблад-операторы
T-82 (Фано-единственность)Цепочка N=7N=7 в T-113Линдблад-операторы
T-89 (Минимальность Гурвица)N7N \geq 7 в T-113Теорема минимальности
T-98 (Баланс аттрактора)Стабилизация обученияЭволюция
T-100 (Enc-функтор)Канал наблюденияСенсомоторная теория
T-101 (Dec-функтор)Критерий успешного обученияСенсомоторная теория
T-104 (Радиус устойчивости)Ограничение амплитуды в T-111Стабильность
T-107 (Ёмкость Enc)Верхняя граница ξQCB\xi_{\mathrm{QCB}} в T-109Сенсомоторная теория
SAD_MAX = 3Fano contraction \to Pcrit(n)P_\text{crit}^{(n)} \to SAD_MAXБашня глубины

11. Заключение

Обучение — один из самых фундаментальных процессов во вселенной. От репликации РНК до обучения языку, от эволюции видов до тренировки нейросетей — всюду система взаимодействует со средой и меняет себя на основе полученного опыта. Кибернетика Когерентности показывает, что этот процесс подчиняется трём абсолютным ограничениям, вытекающим из математики 7-мерного когерентного пространства.

Три границы — три вопроса:

  1. Информационная граница (T-109): Хватает ли данных? — число наблюдений не может быть меньше ln(1/(2δ))/ξQCB\ln(1/(2\delta))/\xi_{\mathrm{QCB}}. Для слабых сигналов масштабирование O(1/ε2)O(1/\varepsilon^2) — квантовый предел, улучшить который невозможно.

  2. Динамическая граница (T-110): Успевает ли система? — контракция Фано (α=2/3\alpha = 2/3) стирает информацию быстрее, чем она записывается. Обучение — это гонка между записью и стиранием, и стационарный предел определяет, разрешима ли задача в принципе.

  3. Стабилизационная граница (T-111): Выдержит ли ученик? — обучение не должно убить того, кто учится. Амплитуда εrstab\varepsilon \leq r_{\mathrm{stab}} — это не инженерное ограничение, а физический закон.

Комбинированная граница (T-112) — максимум из трёх — определяет истинное узкое место обучения. В разных ситуациях доминируют разные механизмы: информация в чистых средах, динамика при быстрых сигналах, стабильность при шуме и стрессе.

Минимальность N=7N = 7 (T-113) замыкает цепочку: обучение через регенерацию требует самонаблюдения, самонаблюдение требует Фано-структуры, Фано-структура требует N=7N = 7. Это не компромисс — это единственная точка на границе Парето.

Границы обучения замыкают цепочку: структура (N=7N = 7, T-113) → канал (Enc, T-107) → информация (T-109) → динамика (T-110) → стабильность (T-111) → оптимум (T-112). Каждое звено — следствие аксиом A1–A5 и канонической динамики, без дополнительных постулатов.


Резюме

  1. T-109 [Т]: Информационная граница — nln(1/(2δ))/ξQCBn \geq \ln(1/(2\delta)) / \xi_{\mathrm{QCB}}, масштабирование O(1/ε2)O(1/\varepsilon^2) для слабых сигналов
  2. T-110 [Т]: Динамическая граница — контракция α=2/3\alpha = 2/3 ограничивает скорость интеграции сигнала
  3. T-111 [Т]: Стабилизационная граница — обучение не должно убить ученика (εrstab\varepsilon \leq r_{\mathrm{stab}})
  4. T-112 [Т]: Комбинированная граница — nopt=max(ninfo,ndyn,nstab)n_{\mathrm{opt}} = \max(n_{\mathrm{info}}, n_{\mathrm{dyn}}, n_{\mathrm{stab}}), три режима
  5. T-113 [Т]: N=7N = 7 — минимальная архитектура для обучения через регенерацию
  6. Прогноз: для бинарной дискриминации (два действия) ~20–80 наблюдений при типичных параметрах

Что мы узнали

  1. Три границы обучения — информационная (T-109: хватает ли данных?), динамическая (T-110: успевает ли система?), стабилизационная (T-111: выдержит ли ученик?) — образуют «тройной замок», все три засова которого должны быть открыты.

  2. Комбинированная граница (T-112): nopt=max(ninfo,ndyn,nstab)n_{\text{opt}} = \max(n_{\text{info}}, n_{\text{dyn}}, n_{\text{stab}}) — бутылочное горлышко определяется самым медленным механизмом. В чистых средах доминирует информация; в шумных — стабильность.

  3. N=7N = 7 — минимальная архитектура для обучения через регенерацию (T-113). Обучение требует самонаблюдения, самонаблюдение требует Фано-плоскости, Фано-плоскость требует N=7N = 7. Это не компромисс — это единственная точка на границе Парето.

  4. Числовой пример (§7.3a): для складского робота с P=0.39P = 0.39 и контрастом ε=0.4\varepsilon = 0.4 стабилизационное ограничение требует аттенюации, увеличивая время обучения в 2.4 раза. Безопасность стоит времени — это физический закон, а не инженерный выбор.

  5. Исторические корни: Шеннон (информация), Вэлиант (статистика), Ландауэр (термодинамика) — три грани одного ограничения. КК впервые объединяет их в единой теореме для живого ученика.

Мост к следующей главе

Мы прошли весь путь от аксиом до границ обучения — от Ω7\Omega^7 до nopt=max(ninfo,ndyn,nstab)n_{\text{opt}} = \max(n_{\text{info}}, n_{\text{dyn}}, n_{\text{stab}}). Но за формулами и теоремами остаётся вопрос: что всё это значит? Какова онтология КК — что реально, а что инструментально? Является ли матрица Γ\Gamma описанием сознания или самим сознанием? В следующей главе мы обратимся к философским основаниям Кибернетики Когерентности — от нейтрального монизма до этики когерентных систем.


Связанные документы: