Диффузионные модели, которые лежат в основе таких инструментов как DALL·E, Imagen и Stable Diffusion, изначально создавались для воспроизведения копий изображений, на которых они обучались. Однако на практике они демонстрируют удивительную способность к импровизации, создавая совершенно новые, порой даже «осмысленные» изображения.
Два физика из Стэнфордского университета — аспирант Мейсон Камб и профессор Сурья Гангули — сделали поразительное открытие. Они доказали, что «творческие способности» ИИ являются прямым и неизбежным следствием архитектуры нейросетей, а не каким-то внезапно возникшим навыком.
Для генерации изображений диффузионные модели используют процесс, называемый шумоподавлением. Они превращают изображение в цифровой шум — бессвязный набор пикселей — а затем собирают его обратно. Это похоже на то, как если бы картину пропустили через шредер до состояния мелкой пыли, а затем собрали заново. Годами ученые недоумевали: если модели просто собирают изображения обратно, откуда тогда в них берется новизна?

Камб и Гангули обнаружили, что творчество возникает из-за двух технических особенностей диффузионных моделей. Первая — локальность: они обрабатывают только небольшие участки изображения за раз. Вторая — трансляционная эквивариантность: если сдвинуть входное изображение на несколько пикселей, система автоматически внесет такое же изменение в генерируемое изображение.
Эти особенности долго считались ограничениями, мешающими создавать идеальные копии. Но эксперты доказали обратное: именно они и порождают «творчество». Модели не видят общей картины, они сосредоточены на создании отдельных фрагментов, которые затем собираются вместе. Это объясняет и типичные ошибки ИИ — например, лишние пальцы на руках в ранних версиях генераторов изображений.
Для проверки своей гипотезы ученые создали математическую модель под названием ELS-машина, которая использует только принципы локальности и эквивариантности. Результаты оказались шокирующими: их простая модель с точностью 90% воспроизводила результаты сложнейших нейросетей. «Как только вы вводите локальность, творчество возникает автоматически; оно естественным образом вытекает из динамики системы», — говорит Камб.

Открытие может иметь далеко идущие последствия не только для развития ИИ, но и для понимания человеческого творчества. «Творчество человека и машины могут быть не такими уж разными», — считает Бенджамин Гувер, специалист по машинному обучению из Технологического института Джорджии. «Мы творим на основе того, что испытали, о чем мечтали, что видели, слышали или желали. ИИ тоже просто собирает строительные блоки из того, что он видел».
Возможно, и человеческая, и машинная креативность в основе своей связаны с неполным пониманием мира: мы все стараемся заполнить пробелы в наших знаниях, и иногда в результате создаем что-то новое и ценное. Именно это человек и называет творчеством.
Ранее ученый назвал главные риски развития ИИ для человечества.
- Искусственный интеллект
- Нейросети
Источник: hi-tech.mail.ru
