• A
  • A
  • A
  • АБВ
  • АБВ
  • АБВ
  • А
  • А
  • А
  • А
  • А
Обычная версия сайта

Гиперкомплексные нейросети на основе Тензориальной алгебры

Даниил Дзебоев, студент Вышки и учёный нашей лаборатории, подобрал оптимальный состав тензорной свёртки, реализующей полностью функционирующий гиперкомплексный слой внимания за счёт тензориального произведения эмбеддингов по правилам изданной им тензориальной алгебры.

Гиперкомплексные нейросети на основе Тензориальной алгебры

Даниил Дзебоев

Ключевая идея: В отличие от стандартного attention-механизма в трансформерах, реализующего билинейную форму вида mi,ni → mn (скалярное произведение признаков), предложенная архитектура строит тензор внимания размерности mnk, в котором каждая пара токенов {qᵢ, kⱼ} сопоставляется не числом, а вектором — результатом тензориального произведения:A = einsum(“mi,nj,ijk->mnk”, Q, K, T)
Внешняя свёртка по токенам m,n → mn, внутренняя — по осям признаков i,j → k, что соответствует формуле Эйнштейновой свёртки mi,nj,ijk → mnk.Тензор T_{ijk} реализует закон умножения в тензориальной алгебре, а не фиксированную метрику, как в dot-product attention.
Семантическое значение:Вектор в данной архитектуре перестаёт быть статическим отображением объекта. Он представляет собой динамически активную сущность, определяемую не только координатами, но и правилами взаимодействия с другими векторами.Таким образом, слои внимания не просто измеряют сходство, а конструируют результат взаимодействия — структурно обоснованный, контекстуально насыщенный эмбеддинг.
На графике:
Синяя матрица - Q — запрос
Красная матрица - K — ключ
Цветная матрица - Q  ⊗K — внешнее произведение
Чёрный тензор - T_{ijk} — тензор алгебры
Розовый вектор - A — результат тензориального произведения между парой токенов
Преимущество заключается в алгебраизации семантики: взаимодействия между токенами не абстрактны, а формализованы как умножение в обучаемом гиперкомплексном пространстве.

Патенты:
Гиперкомплексная нейросеть
Тензориальная алгебра