Вещи разные на другой стороне зеркала.
Текст обратный. Часы идут против часовой стрелки. Автомобили едут не по той стороне дороги. Правые руки становятся левыми руками.
Заинтригованная тем, как отражение меняет образы тонкими и не очень тонкими способами, команда исследователей из Корнельского университета использовала искусственный интеллект для исследования того, что отличает оригиналы от их отражений. Их алгоритмы научились распознавать неожиданные подсказки, такие как части волос, направление взгляда и, что удивительно, бороды — выводы, которые имеют значение для обучения моделей машинного обучения и обнаружения поддельных изображений.
«Вселенная не является симметричной. Если вы перевернете изображение, есть различия», — сказал Ноа Снейвли, доцент кафедры компьютерных наук в Cornell Tech и старший автор исследования «Visual Chirality», представленного на конференции по компьютерному зрению в 2020 году. и распознавание образов, состоявшееся практически 14-19 июня. «Я заинтригован открытиями, которые вы можете сделать с помощью новых способов сбора информации».
Жики Лин — первый автор статьи; соавторами являются Эйб Дэвис, доцент кафедры информатики, и докторская диссертация Cornell Tech Джин Сан.
Снивели сказал, что различие между исходными изображениями и отражениями является удивительно простой задачей для ИИ (для сравнения ИИ непросто создать биткоин, смотрите на биржа bitcoin) — базовый алгоритм глубокого обучения может быстро научиться классифицировать, если изображение перевернуто с точностью от 60% до 90%, в зависимости от типов используемых изображений. тренировать алгоритм. Многие из улик, которые он обнаруживает, трудно заметить людям.
Для этого исследования команда разработала технологию создания тепловой карты, которая указывает части изображения, которые представляют интерес для алгоритма, чтобы понять, как он принимает эти решения.
Неудивительно, что они обнаружили, что наиболее часто используемым ключом был текст, который выглядит по-разному в каждом письменном языке. Чтобы узнать больше, они удалили изображения с текстом из своего набора данных и обнаружили, что следующий набор характеристик, которые модель сфокусировала на наручных часах, воротниках рубашки (кнопки, как правило, находятся на левой стороне), лица и телефоны, — которые наиболее люди, как правило, держат в правой руке, а также другие факторы, раскрывающие праворукость.
Исследователи были заинтригованы тенденцией алгоритма фокусироваться на лицах, которые не кажутся явно асимметричными. «В некотором смысле, это оставило больше вопросов, чем ответов», — сказал Снейвли.
Затем они провели еще одно исследование, сосредоточенное на лицах, и обнаружили, что тепловая карта освещается в таких областях, как часть волос, глаза — большинство людей, по неизвестным исследователям причинам, смотрят влево на портретных фотографиях — и на бороды.
Снейвли сказал, что он и его члены команды понятия не имеют, какую информацию алгоритм находит в бородах, но они выдвинули гипотезу, что то, как люди расчесывают или бреют свои лица, может раскрыть руку.
«Это форма визуального открытия», — сказал Снейвли. «Если вы можете запустить машинное обучение в масштабе на миллионах и миллионах изображений, возможно, вы сможете начать открывать новые факты о мире».
Результаты показали, что каждый из этих ключей в отдельности может быть ненадежным, но алгоритм может обеспечить большую уверенность путем объединения нескольких ключей. Исследователи также обнаружили, что алгоритм использует сигналы низкого уровня, вытекающие из способа обработки изображений камерами, для принятия своих решений.
Хотя необходимы дополнительные исследования, полученные результаты могут повлиять на способ обучения моделей машинного обучения. Этим моделям требуется огромное количество изображений, чтобы научиться классифицировать и идентифицировать изображения, поэтому компьютерные ученые часто используют отражения существующих изображений, чтобы эффективно удвоить свои наборы данных.
Изучение того, как эти отраженные изображения отличаются от оригиналов, может выявить информацию о возможных погрешностях в машинном обучении, которые могут привести к неточным результатам, сказал Снейвли.
«Это приводит к открытому вопросу для сообщества компьютерного зрения: когда все в порядке, чтобы сделать это, чтобы увеличить ваш набор данных, и когда это не хорошо?» он сказал. «Я надеюсь, что это заставит людей больше думать об этих вопросах и начать разрабатывать инструменты, чтобы понять, как это смещает алгоритм».
Понимание того, как отражение меняет изображение, может также помочь ИИ идентифицировать подделанные или сфальсифицированные изображения — проблема растущей озабоченности в Интернете.
«Возможно, это новый инструмент или понимание, которое можно использовать во вселенной криминалистической экспертизы изображений, если вы хотите сказать, реально ли что-то или нет», — сказал Снейвли.
Частично это исследование поддержали филантропы Эрик Шмидт, бывший генеральный директор Google, и Венди Шмидт.