Вероятностное улучшение фотографий по нескольким пикселям: модель Google Brain / длиннопост :: интерполяция :: geek новости :: Google Brain :: повышение разрешения :: нейросеть

нейросеть повышение разрешения Google Brain geek новости интерполяция длиннопост 

Вероятностное улучшение фотографий по нескольким пикселям: модель Google Brain

нейросеть,повышение разрешения,Google Brain,geek новости,интерполяция,длиннопост


Пример работы нейросети после обучения на базе лиц знаменитостей. Слева — исходный набор изображений 8×8 пикселей на входе нейросети, в центре — результат интерполяции до 32×32 пикселей по предсказанию модели. Справа — реальные фотографии лиц знаменитостей, уменьшенные до 32×32, с которых были получены образцы для левой колонки

Можно ли повышать разрешение фотографий до бесконечности? Можно ли генерировать правдоподобные картины на основе 64 пикселей? Логика подсказывает, что это невозможно. Новая нейросеть от Google Brain считает иначе. Она действительно повышает разрешение фотографий до невероятного уровня.


Такое «сверхповышение» разрешения не является восстановлением исходного изображения по копии низкого разрешения. Это синтез правдоподобной фотографии, которая вероятно могла быть исходным изображением. Это вероятностный процесс.

Когда стоит задача «повысить разрешение» фотографии, но на ней нет деталей для улучшения, то задачей модели является генерация наиболее правдоподобного изображения с точки зрения человека. В свою очередь, сгенерировать реалистичное изображение невозможно, пока модель не создала контуры и не приняла «волевое» решение о том, какие текстуры, формы и паттерны будут присутствовать в разных частях изображения.


Для примера достаточно посмотреть на КДПВ, где в левой колонке реальные тестовые изображения для нейросети. На них отсутствуют детали кожи и волос. Их никоим образом невозможно восстановить традиционными способами интерполяции вроде линейной или бикубической. Однако если предварительной обладать глубокими знаниями о всём разнообразии лиц и их типичных очертаниях (и зная, что здесь нужно увеличить разрешение именно лица), то нейросеть способна совершить фантастическую вещь — и «нарисовать» недостающие детали, которые с наибольшей вероятностью будут там.


Специалисты подразделения Google Brain опубликовали научную работу «Рекурсивное пиксельное суперразрешение», в которой описывают полностью вероятностную модель, обученную на наборе фотографий высокого разрешения и их уменьшенных копиях 8×8 для генерации изображений размером 32×32 из маленьких образцов 8×8.


Модель состоит из двух компонентов, которые обучаются одновременно: кондиционная нейросеть (conditioning network) и приор (prior network). Первая из них эффективно накладывает изображение низкого разрешения на распределение соответствующих изображений высокого разрешения, а вторая моделирует детали высокого разрешения, чтобы сделать финальную версию более реалистичной. Кондиционная нейросеть состоит из блоков ResNet, а приор представляет собой архитектуру PixelCNN.

Схематично модель изображена на иллюстрации.


prior network (PixeICNN)
conditioning network (CNN)
logits
HR
image,нейросеть,повышение разрешения,Google Brain,geek новости,интерполяция,длиннопост


Кондиционная свёрточная нейросеть получает на входе изображения низкого разрешения и выдаёт логиты — значения, которые предсказывают кондиционную логит-вероятность для каждого пикселя изображения с высоким разрешением. В свою очередь, свёрточная нейросеть приор делает предсказания, основанные на предыдущих случайных предсказаниях (обозначены пунктирной линией на схеме). Вероятностное распределение для всей модели вычисляется как softmax-оператор поверх суммы двух наборов логитов с кондиционной нейросети и приора.

Но как оценить качество работы такой сети? Авторы научной работы пришли к выводу, что стандартные метрики типа пикового отношения сигнал/шум (pSNR) и структурного сходства (SSIM) не способны корректно оценить качество предсказания для таких задач сверхсильного увеличения разрешения. По этим метрикам выходит, что лучший результат — это размытые картинки, а не фотореалистичные изображения, на которых чёткие и правдоподобные детали не совпадают по месту размещения с чёткими деталями настоящего изображения. То есть эти метрики pSNR и SSIM крайне консервативны. Исследования показали, что люди легко отзличают реальные фотографии от размытых вариантов, созданных регрессионными методами, а вот отличить сгенерированные нейросетью образцы от реальных фотографий им не так просто.


Посмотрим, какие результаты показывает модель, разработанная в Google Brain и обученная на наборе 200 000 лиц знаменитостей (набор фотографий CelebA) и 2 000 000 спальных комнат (набор фотографий LSUN Bedrooms). Во всех случаях фотографии перед обучением системы были уменьшены до размера 32×32 пикселя, а потом ещё раз до 8×8 методом бикубической интерполяции. Нейросети на TensorFlow обучались на 8 графических процессорах.

Результаты сравнивались по двум основным базам: 1) независимая попиксельная регрессия (Regression) c архитектурой, похожей на нейросеть SRResNet, которая показывает выдающиеся результаты по стандартным метрикам оценки качества интерполяции; 2) поиск ближайшего соседнего элемента (NN), который ищет в базе учебных образцов пониженного разрешения наиболее схожее изображение по близости пикселей в евклидовом пространстве, а затем возвращает соответствующую картинку высокого разрешения, из которой был сгенерирован этот учебный образец.


Нужно заметить, что вероятностная модель выдаёт результаты разного качества, в зависимости от температуры softmax. Вручную было установлено, что оптимальные значения τ лежат между 1,1 и 1,3. Но даже если установить τ=1.2, то всё равно каждый раз результаты будут разными.


нейросеть,повышение разрешения,Google Brain,geek новости,интерполяция,длиннопост


Различные результаты при запуске модели с температурой softmax τ=1.2


Оценить качестве работы вероятностной модели можете по образцам ниже:


Сравнение результатов по спальням


нейросеть,повышение разрешения,Google Brain,geek новости,интерполяция,длиннопост


нейросеть,повышение разрешения,Google Brain,geek новости,интерполяция,длиннопост


нейросеть,повышение разрешения,Google Brain,geek новости,интерполяция,длиннопост


нейросеть,повышение разрешения,Google Brain,geek новости,интерполяция,длиннопост

нейросеть,повышение разрешения,Google Brain,geek новости,интерполяция,длиннопост


Сравнение результатов по лицам знаменитостей:

нейросеть,повышение разрешения,Google Brain,geek новости,интерполяция,длиннопост

нейросеть,повышение разрешения,Google Brain,geek новости,интерполяция,длиннопост

нейросеть,повышение разрешения,Google Brain,geek новости,интерполяция,длиннопост

нейросеть,повышение разрешения,Google Brain,geek новости,интерполяция,длиннопост

нейросеть,повышение разрешения,Google Brain,geek новости,интерполяция,длиннопост


Для проверки реалистичности результатов учёные провели опрос черед краудсорсинг. Участникам показывали две фотографии: одну настоящую, а вторую сгенерированную различными методами из уменьшенной копии 8×8 и просили указать — какая фотография сделана камерой. 


Algorithm	pSNR	SSIM	MS-SSIM	Consistency	% Fooled
Bicubic	28.92	0.84	0.76	0.006	-
NN	28.18	0.73	0.66	0.024	-
Regression	29.16	0.90	0.90	0.004	4.0 ±0.2
r = 1.0	29.09	0.84	0.86	0.008	11.0 = 0.1
r = 1.1	29.08	0.84	0.85	0.008	10.4 = 0.2
r = 1.2	29.08	0.84	0.86	0.008	10.2 = 0.1
Bicubic	28.94	0.70


Сверху в таблице — результаты для базы лиц знаменитостей, снизу — для спальных комнат. Как видим, при температуре τ = 1.2 на фотографиях спальных комнат модель показала максимальный результат: в 27,9% случаях её выдача оказалась более реалистичной, чем настоящее изображение! Это явный успех. 


На иллюстрации внизу — самые удачные работы нейросети, в которых она «побила» оригиналы по реалистичности. Для объективности — и некоторые из худших.


Ours
Ground Truth
Ours
Ground Truth
23/40 = 57%
17/40 = 42%
16/40 = 40%
1/40 - 2%
1/40 = 2%
3/40 = 7%
4/40 = 1%
34/40 = 85%
30/40 = 75%

26/40 = 65%
3/40 = 7%
1/40 = 2%,нейросеть,повышение разрешения,Google Brain,geek новости,интерполяция,длиннопост


В области генерации фотореалистичных изображений с помощью нейросетей сейчас наблюдается очень бурное развитие. В 2017 году мы наверняка услышим много новостей на эту тему.


Взято с geektimes.


Подробнее

prior network (PixeICNN) conditioning network (CNN) logits HR image











Algorithm pSNR SSIM MS-SSIM Consistency % Fooled Bicubic 28.92 0.84 0.76 0.006 - NN 28.18 0.73 0.66 0.024 - Regression 29.16 0.90 0.90 0.004 4.0 ±0.2 r = 1.0 29.09 0.84 0.86 0.008 11.0 = 0.1 r = 1.1 29.08 0.84 0.85 0.008 10.4 = 0.2 r = 1.2 29.08 0.84 0.86 0.008 10.2 = 0.1 Bicubic 28.94 0.70 0.70 0.002 - NN 28.15 0.49 0.45 0.040 - Regression 28.87 0.74 0.75 0.003 2.1 ±0.1 r = 1.0 28.92 0.58 0.60 0.016 17.7 = 0.4 r = 1.1 28.92 0.59 0.59 0.017 22.4 = 0.3 r = 1.2 28.93 0.59 0.58 0.018 27.9 = 0.3
Ours Ground Truth Ours Ground Truth 23/40 = 57% 17/40 = 42% 16/40 = 40% 1/40 - 2% 1/40 = 2% 3/40 = 7% 4/40 = 1% 34/40 = 85% 30/40 = 75% 26/40 = 65% 3/40 = 7% 1/40 = 2%
нейросеть,повышение разрешения,Google Brain,geek новости,интерполяция,длиннопост
Еще на тему
Развернуть
Производители камер для смартфонов грызут локти от ярости.
Не грызут. Если коротко - эта херня всего лишь умеет подбирать из обучающей базы изображение, наиболее подходящее под заданные пиксели. Сама она ничего генерировать не умеет и если твоего фото не было в базе - то она не сделает "ремастер пикселей" похожим на тебя. А если было - то сделает с вероятностью, отличной от нулевой.
1) Криворукий фотограф делает снимок на камеру
2) Снимок говно, но камера смотрит по базе Фликра/Котача/Фейсбука похожий снимок, сделанный прямыми руками...
3) Показывает найденный снимок фотографу...

PROFIT!!!
selma selma 09.02.201719:48 ответить ссылка 2.4
я думаю что эта проблема для встроенного шокера
LEXfes LEXfes 09.02.201721:57 ответить ссылка 0.0
...камера смотрит по базе Фликра/Котача/Фейсбука похожий снимок, сделанный прямыми руками...
И подсовывает фотографу один из примеров, показанных в статье в категории неудачных. Шок, истерика, отказ от карьеры фотографа, профит для общества. :D
Это таки охуенно.
Это прекрасно!
Ух, подозреваю, что в этом году будет дохуища ашди ремастеров старых игр.
Технологии CSI становятся реальностью
RidrichVi RidrichVi 09.02.201719:02 ответить ссылка 11.0
Давай увеличим номера на этой тачке...
ГК
Green-13 Green-13 09.02.201720:15 ответить ссылка 11.3
Был жертвой шакалов, стал пиксель-артом. Прикольно.
Alkoz Alkoz 09.02.201719:04 ответить ссылка 6.2
MaggucoH MaggucoH 09.02.201719:04 ответить ссылка 10.3
Расшакаливатель
Ro-Mu 31 Ro-Mu 31 09.02.201719:04 ответить ссылка 10.1
Дешакализатор
zzztop zzztop 09.02.201719:39 ответить ссылка 2.7
Теперь можно узнать, что скрывают японцы?
MaXM00D MaXM00D 09.02.201719:07 ответить ссылка 8.4
И по всей видимости там будут лица...
KeNiV KeNiV 09.02.201719:26 ответить ссылка 2.8
Почему же, можно обучить нейросеть на порнхабе.
Тентакли же...
Arterton Arterton 09.02.201719:08 ответить ссылка -4.3
Ура, теперь можно нормально смотреть япоонское порно, а не мысленно дорисовывать тентакль!!
Zenzaro Zenzaro 09.02.201719:10 ответить ссылка 2.8
Makkiato Makkiato 09.02.201719:17 ответить ссылка 2.1
Мне кажется ему очень больно.
ElVivel ElVivel 09.02.201719:17 ответить ссылка 4.9
Неплохой набор портретов для героев 3.
krto krto 09.02.201719:22 ответить ссылка 4.1
CSI будут в восторге.
alisher1 alisher1 09.02.201719:36 ответить ссылка -0.8
Быстро разбирайте картинки на аватарки!
ебучий гугл
шакал паршивый
Почему? Он же наоборот, расшакаливает.
Я ебусь в глаза или это действительно пока только в тестовом варианте и недоступно для обычных пользователей?
Earendur Earendur 09.02.201721:34 ответить ссылка 0.0
Присоединяюсь: где то можно его потыкать?
Только что,я увидел больше лиц, чем за последнею неделю.
nuskaru nuskaru 09.02.201723:22 ответить ссылка 0.4
Tera Patrick
Futter Futter 10.02.201714:53 ответить ссылка 0.0
Идею в Японском порно увидели?
да да. няшные нейросети. няшный AI
http://waitbutwhy.com/2015/01/artificial-intelligence-revolution-1.html
Только зарегистрированные и активированные пользователи могут добавлять комментарии.
Похожие темы

Похожие посты
ft Дополнения
superbooga: 0
Based on superbig от Кайокендева. Расширение, которое
google_translate: Q
Перевод чата, по умолчанию стоит русский.
long_rcplics: О
подробнее»

нейронные сети ChatGPT gpt локальные языковые модели llm длиннопост google colab песочница

ft Дополнения superbooga: 0 Based on superbig от Кайокендева. Расширение, которое google_translate: Q Перевод чата, по умолчанию стоит русский. long_rcplics: О
WE ARE Разбираться в коде, который тебе дали на прогерских курсах
Разбираться в коде со 51аскоуегАоуу
Разбираться в коде своих коллег
Разбираться в коде, который ты написал на прошлой неделе
подробнее»

it-юмор geek,Прикольные гаджеты. Научный, инженерный и айтишный юмор код Expanding brain

Разбираться в коде, который тебе дали на прогерских курсах Разбираться в коде со 51аскоуегАоуу Разбираться в коде своих коллег Разбираться в коде, который ты написал на прошлой неделе
imgffip.com