Гиперкомплексные нейросети на основе Тензориальной алгебры
Даниил Дзебоев, студент Вышки и учёный нашей лаборатории, подобрал оптимальный состав тензорной свёртки, реализующей полностью функционирующий гиперкомплексный слой внимания за счёт тензориального произведения эмбеддингов по правилам изданной им тензориальной алгебры.
Ключевая идея: В отличие от стандартного attention-механизма в трансформерах, реализующего билинейную форму вида mi,ni → mn (скалярное произведение признаков), предложенная архитектура строит тензор внимания размерности mnk, в котором каждая пара токенов {qᵢ, kⱼ} сопоставляется не числом, а вектором — результатом тензориального произведения:A = einsum(“mi,nj,ijk->mnk”, Q, K, T)
Внешняя свёртка по токенам m,n → mn, внутренняя — по осям признаков i,j → k, что соответствует формуле Эйнштейновой свёртки mi,nj,ijk → mnk.Тензор T_{ijk} реализует закон умножения в тензориальной алгебре, а не фиксированную метрику, как в dot-product attention.
Семантическое значение:Вектор в данной архитектуре перестаёт быть статическим отображением объекта. Он представляет собой динамически активную сущность, определяемую не только координатами, но и правилами взаимодействия с другими векторами.Таким образом, слои внимания не просто измеряют сходство, а конструируют результат взаимодействия — структурно обоснованный, контекстуально насыщенный эмбеддинг.
На графике:
Синяя матрица - Q — запрос
Красная матрица - K — ключ
Цветная матрица - Q ⊗K — внешнее произведение
Чёрный тензор - T_{ijk} — тензор алгебры
Розовый вектор - A — результат тензориального произведения между парой токенов
Преимущество заключается в алгебраизации семантики: взаимодействия между токенами не абстрактны, а формализованы как умножение в обучаемом гиперкомплексном пространстве.
Патенты:
Гиперкомплексная нейросеть
Тензориальная алгебра