Я: Потому что я случайно послал вам фотку члена
НАЧАЛЬНИК [прекращая разливать вино в два бокала]: Случайно?
Пример работы нейросети после обучения на базе лиц знаменитостей. Слева — исходный набор изображений 8×8 пикселей на входе нейросети, в центре — результат интерполяции до 32×32 пикселей по предсказанию модели. Справа — реальные фотографии лиц знаменитостей, уменьшенные до 32×32, с которых были получены образцы для левой колонки
Можно ли повышать разрешение фотографий до бесконечности? Можно ли генерировать правдоподобные картины на основе 64 пикселей? Логика подсказывает, что это невозможно. Новая нейросеть от Google Brain считает иначе. Она действительно повышает разрешение фотографий до невероятного уровня.
Такое «сверхповышение» разрешения не является восстановлением исходного изображения по копии низкого разрешения. Это синтез правдоподобной фотографии, которая вероятно могла быть исходным изображением. Это вероятностный процесс.
Когда стоит задача «повысить разрешение» фотографии, но на ней нет деталей для улучшения, то задачей модели является генерация наиболее правдоподобного изображения с точки зрения человека. В свою очередь, сгенерировать реалистичное изображение невозможно, пока модель не создала контуры и не приняла «волевое» решение о том, какие текстуры, формы и паттерны будут присутствовать в разных частях изображения.
Для примера достаточно посмотреть на КДПВ, где в левой колонке реальные тестовые изображения для нейросети. На них отсутствуют детали кожи и волос. Их никоим образом невозможно восстановить традиционными способами интерполяции вроде линейной или бикубической. Однако если предварительной обладать глубокими знаниями о всём разнообразии лиц и их типичных очертаниях (и зная, что здесь нужно увеличить разрешение именно лица), то нейросеть способна совершить фантастическую вещь — и «нарисовать» недостающие детали, которые с наибольшей вероятностью будут там.
Специалисты подразделения Google Brain опубликовали научную работу «Рекурсивное пиксельное суперразрешение», в которой описывают полностью вероятностную модель, обученную на наборе фотографий высокого разрешения и их уменьшенных копиях 8×8 для генерации изображений размером 32×32 из маленьких образцов 8×8.
Модель состоит из двух компонентов, которые обучаются одновременно: кондиционная нейросеть (conditioning network) и приор (prior network). Первая из них эффективно накладывает изображение низкого разрешения на распределение соответствующих изображений высокого разрешения, а вторая моделирует детали высокого разрешения, чтобы сделать финальную версию более реалистичной. Кондиционная нейросеть состоит из блоков ResNet, а приор представляет собой архитектуру PixelCNN.
Схематично модель изображена на иллюстрации.
Кондиционная свёрточная нейросеть получает на входе изображения низкого разрешения и выдаёт логиты — значения, которые предсказывают кондиционную логит-вероятность для каждого пикселя изображения с высоким разрешением. В свою очередь, свёрточная нейросеть приор делает предсказания, основанные на предыдущих случайных предсказаниях (обозначены пунктирной линией на схеме). Вероятностное распределение для всей модели вычисляется как softmax-оператор поверх суммы двух наборов логитов с кондиционной нейросети и приора.
Но как оценить качество работы такой сети? Авторы научной работы пришли к выводу, что стандартные метрики типа пикового отношения сигнал/шум (pSNR) и структурного сходства (SSIM) не способны корректно оценить качество предсказания для таких задач сверхсильного увеличения разрешения. По этим метрикам выходит, что лучший результат — это размытые картинки, а не фотореалистичные изображения, на которых чёткие и правдоподобные детали не совпадают по месту размещения с чёткими деталями настоящего изображения. То есть эти метрики pSNR и SSIM крайне консервативны. Исследования показали, что люди легко отзличают реальные фотографии от размытых вариантов, созданных регрессионными методами, а вот отличить сгенерированные нейросетью образцы от реальных фотографий им не так просто.
Посмотрим, какие результаты показывает модель, разработанная в Google Brain и обученная на наборе 200 000 лиц знаменитостей (набор фотографий CelebA) и 2 000 000 спальных комнат (набор фотографий LSUN Bedrooms). Во всех случаях фотографии перед обучением системы были уменьшены до размера 32×32 пикселя, а потом ещё раз до 8×8 методом бикубической интерполяции. Нейросети на TensorFlow обучались на 8 графических процессорах.
Результаты сравнивались по двум основным базам: 1) независимая попиксельная регрессия (Regression) c архитектурой, похожей на нейросеть SRResNet, которая показывает выдающиеся результаты по стандартным метрикам оценки качества интерполяции; 2) поиск ближайшего соседнего элемента (NN), который ищет в базе учебных образцов пониженного разрешения наиболее схожее изображение по близости пикселей в евклидовом пространстве, а затем возвращает соответствующую картинку высокого разрешения, из которой был сгенерирован этот учебный образец.
Нужно заметить, что вероятностная модель выдаёт результаты разного качества, в зависимости от температуры softmax. Вручную было установлено, что оптимальные значения τ лежат между 1,1 и 1,3. Но даже если установить τ=1.2, то всё равно каждый раз результаты будут разными.
Различные результаты при запуске модели с температурой softmax τ=1.2
Оценить качестве работы вероятностной модели можете по образцам ниже:
Сравнение результатов по спальням
Сравнение результатов по лицам знаменитостей:
Для проверки реалистичности результатов учёные провели опрос черед краудсорсинг. Участникам показывали две фотографии: одну настоящую, а вторую сгенерированную различными методами из уменьшенной копии 8×8 и просили указать — какая фотография сделана камерой.
Сверху в таблице — результаты для базы лиц знаменитостей, снизу — для спальных комнат. Как видим, при температуре τ = 1.2 на фотографиях спальных комнат модель показала максимальный результат: в 27,9% случаях её выдача оказалась более реалистичной, чем настоящее изображение! Это явный успех.
На иллюстрации внизу — самые удачные работы нейросети, в которых она «побила» оригиналы по реалистичности. Для объективности — и некоторые из худших.
В области генерации фотореалистичных изображений с помощью нейросетей сейчас наблюдается очень бурное развитие. В 2017 году мы наверняка услышим много новостей на эту тему.
Взято с geektimes.
Помните новость?
"YouTube экспериментирует с повышением битрейта в видео с разрешением 1080p. Опция будет доступна только для подписчиков YouTube Premium." Rozetked
Похоже они всё таки сделали это или же ещё продолжают тестировать. Скоро и остальные битрейты будут отдельным прайсом.
Это 200-е видео на моем канале, так что я постарался выбрать достойное произведение.
Обработка целого часа видео заняла немало времени, но я доволен. Удалось очень хорошо увеличить картинку, убрать мусор и зерно, мерцание... почти идеально :)
Я даже сделал дополнительную версию. Удалось добиться повышения четкости изображения после апскейла, но визуальный ряд немного поменялся. Лично мне нравится эта версия.
Часовые видео до 4К будут ютубироваться долго, да и все равно что-то потеряется при перекодировании, но подписчики тега наверняка помнят про папку с моими релизами на гугл-диске - там все в лучшем виде:
https://drive.google.com/drive/folders/15Qk1xODUGfBMGQbVWaTji7GEUupfTFMd?usp=sharing
Если вам понравилось на ютубе, и собираетесь показать детям, то скачивайте из папки в наилучшем качестве. Все лучшее - детям :)
Теперь сравнения (открывайте в полном размере, дабы узреть).
Оригинал vs апскейл (с четкостью):
Апскейл vs апскейл с четкостью:Ну, и сами видео :)Апскейл:
Четкий апскейл (ваще чоткий):
А еще Великолепный Гоша (все 10 серий) давно ждет, когда его заплюсуют на главную (мои предыдущие два поста).
В рамках проекта Riffusion разработчики развивают вариант системы машинного обучения Stable Diffusion для генерации музыки вместо изображений. Мелодии можно создавать как на основе предложенного шаблона, так и с помощью текстового описания на естественном языке.
Компоненты для синтеза музыки написали на языке Python с использованием фреймворка PyTorch. Связь с интерфейсом реализовали на языке TypeScript. Компоненты доступны под лицензией MIT.
Сама модель открыта под лицензией Creative ML OpenRAIL-M, допускающей использование в коммерческих целях.
Обновлённая модель использует для генерации музыки модели «из текста в изображение» и «из изображения в изображение», но в качестве изображений выступают спектрограммы. Они отражают изменение частоты и амплитуды звуковой волны во времени. Система на выходе формирует новую спектрограмму, которая затем преобразуется в звуковое представление.
Проект Riffusion также может использовать для изменения имеющихся композиций и синтеза музыки по образцу. Этот процесс работает по аналогии с модификацией изображений в Stable Diffusion. Так, при генерации могут задаваться образцы спектрограмм с эталонным стилем, комбинироваться разные стили, выполняться плавный переход от одного стиля к другому или вноситься изменения в существующий звук для увеличения громкости отдельных инструментов, изменение ритма и т.д.
Образцы можно использовать для генерации длительно играющих композиций, создаваемых из серии близких друг к другу отрывков, немного меняющихся во времени. Они объединяются в непрерывный поток при помощи интерполяции внутренних параметров модели.
Для создания спектрограммы используется оконное преобразование Фурье. Чтобы решить проблему с определением фазы, задействован алгоритм аппроксимации Гриффина-Лима.
В ноябре Stability AI сообщила о выпуске новой версии модели Stable Diffusion 2.0. В ней улучшили качество и повысили вариативность получаемых изображений.
Новая функция GEN-2 продолжает набирать обороты: оживите свои генерации Midjourney с помощью нейросети "Runway"!
Взгляните на то, как умение анимировать изображения нейронной сети "Runway" привносит новые измерения в ваши творения Midjourney.
Запишите эту хитрость: создайте изображение в Midjourney и загрузите его в GEN-2, чтобы «пробудить» его к жизни.
Изначально новость вышла arstechnica.com, аналитическое интернет-издание на английском языке, посвящённое информационным технологиям. В которой утверждалось следующие:
«Как генеральные прокуроры наших штатов и территорий, мы глубоко и серьёзно обеспокоены безопасностью детей, находящихся под нашей юрисдикцией», — говорится в письме. «И хотя интернет-преступления против детей уже активно расследуются, мы обеспокоены тем, что ИИ создает новые границы для злоупотреблений, что затрудняет такое преследование».
В частности, технологии синтеза изображений с открытым исходным кодом, такие как Stable Diffusion, позволяют с легкостью создавать порнографию, генерируемую искусственным интеллектом, а вокруг инструментов и дополнений, расширяющих эту возможность, сформировалось большое сообщество . Поскольку эти модели ИИ общедоступны и часто используются локально, иногда нет никаких препятствий, мешающих кому-либо создавать сексуализированные изображения детей, и это вызвало тревогу у ведущих прокуроров страны. (Следует отметить, что Midjourney, DALL-E и Adobe Firefly имеют встроенные фильтры, запрещающие создание порнографического контента.)
«Создавать эти изображения стало проще, чем когда-либо, — говорится в письме, — поскольку каждый может загрузить инструменты ИИ на свой компьютер и создавать изображения, просто введя краткое описание того, что пользователь хочет видеть. И поскольку многие из этих инструментов ИИ имеют «открытый исходный код», инструменты можно запускать неограниченно и без контроля».
На самом же реддите пользователи типично разделились на два лагеря. Первые утверждали что нейросети это зло, и их нужно запретить или ограничить доступ к ним. Другие же утверждали что нейросети это не более чем инструмент, и виновата не техногия, а кто и как eё использует. Примерно после 5 часов прибывания стати модераторы закрыли комменты и начали тереть комментарии.На момент написания этой стати у стати на реддите было 11к up.
Google представила алгоритм RAISR (аббревиатура Rapid and Accurate Image Super-Resolution). Он улучшает изображения при помощи суперсемплирования. Отличие в машинном обучении — Google тренирует RAISR на 10 тысячах пар изображений в низком и высоком разрешении, чтобы затем воссоздать («додумать») утерянные детали низкокачественных снимков.
С помощью алгоритма компания хочет предоставить людям инструмент для восстановления и «ремастеринга» старых фотографий, которые были сделаны на низкокачественные камеры. Второй вариант использования — бо́льшая детализация при увеличении изображений на смартфонах; это позволит сохранить маленький размер картинок при лу́чшем качестве.
Коротко: китайский разработчик мобильных игр Rayark обвиняется в том, что он уволил всю свою арт-команду и попытался заменить ее нейросетями. На изображении пользователь указал на некоторые распространенные ошибки ИИ, которые есть в изображениях из игр Rayark.
https://twitter.com/SaltPPC/status/1661652320604803074?ref_src=twsrc%5Etfw
Многие из указанных ошибок являются распространенными проблемами в изображениях сгенерированных ИИ, например, руки со слишком большим количеством пальцев или линий и форм, которые логически не связаны. В то время как большинство людей не смогли бы сказать на первый взгляд, художники указывают на проблемы, которые кажутся более очевидными при более внимательном изучении.
Отличный комментарий!