Наткнулся на впечатляющую нейросеть. Я ввел запрос "create tetris" и мне выдало рабочий тетрис! https://websim.ai/ (требует гугл-аккаунт для работы ) Да, оно создает только внутри себя эти веб-приложения, но при желании, думаю, можно расковырять и сделать реальное на основе выдранного кода.
Разработчики ИИ стали переходить на компактные ИИ-модели — они дешевле и экономичнее
Технологические гиганты и стартапы переходят на более компактные и эффективные модели искусственного интеллекта, стремясь сократить расходы и повысить производительность. Эти модели, в отличие от своих «старших братьев», таких как GPT-4, могут обучаться на меньшем объёме данных и специализируются на решении конкретных задач.
Microsoft, Google, Apple и стартапы, такие как Mistral, Anthropic и Cohere, всё чаще обращаются к малым и средним языковым моделям искусственного интеллекта. В отличие от больших моделей (LLM), таких как GPT-4 от OpenAI, которые используют более одного триллиона параметров и их разработка оценивается далеко за 100 миллионов долларов, компактные модели обучаются на более узких наборах данных и могут стоить менее 10 миллионов долларов, при этом используя менее 10 миллиардов параметров.
Компания Microsoft, один из лидеров в области ИИ, представила семейство небольших моделей под названием Phi. По словам генерального директора компании Сатьи Наделлы (Satya Nadella), эти модели в 100 раз меньше бесплатной версии ChatGPT, но при этом справляются со многими задачами почти так же эффективно. Юсуф Мехди (Yusuf Mehdi), коммерческий директор Microsoft, отметил, что компания быстро осознала, что эксплуатация крупных моделей ИИ обходится дороже, чем предполагалось изначально, что побудило Microsoft искать более экономичные решения.
Другие технологические гиганты также не остались в стороне. Google, Apple, а также Mistral, Anthropic и Cohere выпустили свои версии малых и средних моделей. Apple, в частности, планирует использовать такие модели для запуска ИИ локально, непосредственно на смартфонах, что должно повысить скорость работы и безопасность. При этом потребление ресурсов на смартфонах будет минимальным.
Эксперты отмечают, что для многих задач, таких как обобщение документов или создание изображений, большие модели вообще могут оказаться избыточными. Илья Полосухин, один из авторов основополагающей статьи Google в 2017 году, касающейся искусственного интеллекта, образно сравнил использование больших моделей для простых задач с поездкой в магазин за продуктами на танке. «Для вычисления 2 + 2 не должны требоваться квадриллионы операций», — подчеркнул он.
Компании и потребители также ищут способы снизить затраты на эксплуатацию генеративных технологий ИИ. По словам Йоава Шохама (Yoav Shoham), соучредителя ИИ-компании AI21 Labs из Тель-Авива, небольшие модели могут отвечать на вопросы, если перевести всё в деньги, всего за одну шестую стоимости больших языковых моделей.
Интересно, что ключевым преимуществом малых моделей является возможность их тонкой настройки под конкретные задачи и наборы данных. Это позволяет им эффективно работать в специализированных областях при меньших затратах, например, только в юридической отрасли.
Однако эксперты отмечают, что компании не собираются полностью отказываться от LLM. Например, Apple объявила об интеграции ChatGPT в Siri для выполнения сложных задач, а Microsoft планирует использовать последнюю модель OpenAI в новой версии Windows. А такие компании как Experian из Ирландии и Salesforce из США, уже перешли на использование компактных моделей ИИ для чат-ботов и обнаружили, что они обеспечивают такую же производительность, как и большие модели, но при значительно меньших затратах и с меньшими задержками обработки данных.
Переход к малым моделям происходит на фоне замедления прогресса в области больших публично доступных моделей искусственного интеллекта. Эксперты связывают это с нехваткой высококачественных новых данных для обучения, и в целом, указывают на новый и важный этап эволюции индустрии.
Первым делом попробовал dandere2x (https://github.com/akai-katto/dandere2x), он основан на waifu2x. Итог: тестовый отрывок (20 секунд) обработан на машине 1 за ~5 минут, покадровое сравнение выгоды относительно просмотра видео без апскейла не выявило. Инструкции по установке, которыми я пользовался, если кому интересно:
-----
После этого я обнаружил Anime4K (https://github.com/bloc97/Anime4K), апскейлер в реальном времени, основной минус - работа с ограниченным кол-вом проигрывателей (1-3 в зависимости от ОС). Инструкции по установке и применению находятся по ссылке выше в зависимости от проигрывателя. Но я пользуюсь SMPlayer, так что вот инструкция:
1) Следуем инструкции mpv
2) Открываем файл input.conf, открываем настройки SMPlayer (ПКМ - сервис - настройки - дополнительно - MPlaeyr/mpv) и вставляем необходимый нам профиль в поле "параметры"
Очевидно, что после такого я захотел установить real-ESRGAN, потому что я хотел бы как раз сохранить себе апскельнутую версию, плюс он всё таки визуально получше.
В результате визуально качество Anime4K (я использовал пресет для higher-end gpu) и Real-ESRGAN довольно близко, но некоторую разницу при сравнении заметить можно.
Обработка тестового отрезка (20 секунд) на машине 1 заняла ~56.5 минут (заработала только на CPU), на машине 2 - ~2 минуты. Были мысли перед постом проверить работу через ZLUDA (https://github.com/vosen/ZLUDA) недавно вышедшую прослойку между CUDA и видеокартами AMD, но на Debian пока нет ROCm, так что когда-нибудь...
Дальше инструкция по установке Real-ESRGAN на Win10 и Linux и бонусные батники для винды для удобства.
Собственно инструкция:
1) Установка ffmpeg на Win10 (на linux по идее предустановлено)
# Вторая точка - часть названия, просто файлы и папки, начинающиеся с точки считаются скрытыми
# Вместо .anyname-venv можно указать любое допустимое в linux имя
3) Активация venv (Нужно будет делать каждый раз, когда захотите запустить Real-ESRGAN) (делается из директории в которой мы вводили предыдущую команду)
Windows:
- Заходим внутрь
cd anyname-venv
cd Scripts
- Активируем
activate
Linux:
source ./.anyname-venv/bin/activate
4а) Переходим в папку куда мы скачали и разархивировали Real-ESRGAN
# параметр --suffix указывает какой суффикс будет у выходного файла, по умолчанию: out. Например: исходный файл: "name.mp4", файл на выходе: "name_out.mp4" или "name_esrgan.mp4" в случае этой команды.
# параметр -i говорит какой файл обрабатывать (по идее можжно обрабатывать несколько файлов и всё такое, но оно как-то криво работает, так что только так)
# итоговые файлы будут сохраняться в папке .../Real-ESRGAN/results
6) Для WIn10 из гугл диска можно взять один из файлов с расширением .bat, чтобы облегчить себе запуск нескольких видео сразу
inference_realesrgan_video-CPU.py и inference_realesrgan_video-CUDA.py переименовать в inference_realesrgan_video.py и заменить оригинал.
Real-ESRGAN-autostart(video).bat запускает в обработку все файлы, которые находятся в папке "G:/AI/Real-ESRGAN-master/inputs/". Его надо открыть в том же блокноте и отредактировать пути на соответствующие вашим.
Отличный комментарий!