Предложение по функционалу баянометра / dev :: предложение :: баянометр :: реактор :: ExtraDJ

ExtraDJ dev реактор баянометр предложение 

Предложение по функционалу баянометра

Добавить функционал, который будет читать тексты с мемов на джое и сопостовлять их с новыми картинками и показывать в процентном соотношении совпадение текстов, например: "текст пересекается на 90%"

Приведу пример:
http://joyreactor.cc/post/4328439

и мой пост через пару часов:
http://joyreactor.cc/post/4328962

я наловил минусов за баян, что по сути правильно. но я не первый год на реакторе и все свои посты я всегда проверяю на двух баянометрах.

Подробнее
ExtraDJ,dev,реактор,баянометр,предложение
Еще на тему
Развернуть
Делай
pretoden pretoden 26.04.202015:04 ответить ссылка -0.5
я бы сделал, но кто ж мой код развернёт у себя на сервере?
А не слишком ли сложно? Это надо распознать текст из изображения. А если другие цвета, шрифт или шакальность? Как это скажется?
Ciriak Ciriak 26.04.202015:10 ответить ссылка 0.1
Ты же понимаешь, что это текст на картинке. Ты предлагаешь распознавать текст по примеру finereader'a и потом сравнивать его. Это не самая простая и ресурсоемкая задача. Баянометр взял базу всех картинок и добавляет туда новые и каждой картинке присваивает свой хэш или что-то вроде. Уникальный номер. А дальше загружая картинку в баянометр он создает ей хэш и если этот хэш есть в базе, то ловит. Если на картинке другой фон, она немного обрезана или еще что-то, то велика вероятность, что баянометр его пропустит. Только так можно быстро пройтись по тысячам тысяч картинок реактора. Тексты парсить вряд ли кто-то будет.
я не думаю, что там всё просто через хеш. хеш не даст возможности сравнивать картинки разны размеров. хотя идея с хешем быстро и легко чекнуть картинки - мне нравится :-)

ну а по парсингу текста есть много готовых решений, первая линка в гугле:
https://medium.com/@MicroPyramid/extract-text-with-ocr-for-all-image-types-in-python-using-pytesseract-ec3c53e5fc3a
Нет, там именно что просто хэш. Це ж просто общее название для алгоритмов, получающих из массива данных короткую строку, и их есть очень много разных с разными свойствами. Погугли про перцептивные хэши.
там не хэш, а усреднённые цвета по областям (кажись, на 16 частей картинка разбивается). В одном из постов про баянометр говорилось об этом. Если бы был кэш - то если картинку чуть-чуть пережать, подрезать, уменьшить - её уже не найти. Кроме того, было много лулзов на ложные срабатывания баянометров. но в интернете пока что не нашли двух осмысленных разных файлов (но не специально подогнанных) больше 0 байт, у которых был бы одинаковый хэш.
Еще раз повторяю: гугли персептивные хэши и не путай их с криптографическими
я погуглил. слово хеши преобрело ещё один смысл :-) спасибо
Мой алгоритм основан на pHash с некоторыми доработками. Второй баянометр использует какой то другой алгоритм, но тоже основанный на хеше. Почему так? Потому что есть очень больше ограничение в ресурсах. Сейчас в базе данных 4,850,000+ картинок, это не считая фреймов гифок, которых сопоставимое количество. Каждая картинка/фрейм - один хеш. Вот пример статьи на хабре, про поиск картинок более продвинутыми методами:
https://habr.com/ru/post/205398/
И что у нас говориться в примере? 190 хешей на ОДНУ картинку, на ОДНУ КАРТИНКУ, КАРЛ! Даже если максимально упростить алгоритм, не выходит меньше 40 хешей на картинку. Да и 40 это мало, потому что появляется уйма ложно-положительных срабатываний, а даже если бы и хватало, это 200 миллионов хешей, и это только на картинки, не считая гифки. Как искать быстро по такому количеству данных? Дерево, и предварительным разбором, только для этого нужно все это дерево хранить в оперативной памяти, и дополнять на лету. Дайте сервер с 32GB оперативы - я попробую чтото сделать, а так, без вариантов, к сожалению. Точнее сказать как. Варианты есть, но поиск одной гифки занимает 6-7 минут. Вот и все
Не так уж и сложно, библиотек для ocr вагон и маленькая тележка, оно даже на реактор прикручено едва ли не с самого начала. Только работать это будет очень криво, ибо очень много постов идут вообще без текста, либо с минимальным текстом, а еще есть мемы, где текст один и тот же, а меняется только фон, так что будет огромное кол-во ошибок второго рода, что сводит на нет всю пользу от этой фичи.
в посте я писал о показе процентного совпадения текста. публиковать или нет - это остается за юзером
Я понимаю твою боль, но превращать баянометр в сервис для оценки уникальности текстов, это пиздец. Ну тип окей, я знаю как сделать распознавание текста, но, сколько шуток существует с одинаковым текстом, но с разным смыслом, с разным оформлением и контекстом. Это значит тоже все баян? Или как это расценивать? Какой будет алгоритм оценки баянности текста?
Сколько постов с текстами и картинкой "Вы напугали деда", при этом с совершенно разным текстом самого поста. Они тоже баян?
"Это остается за юзером". На юзера может вывалиться 50 постов с сообщением, что пост с таким текстом на картинке уже был. Ты серьезно думаешь что ктото будет проверять эти 50 постов?
Ну крч. Идея конечно имеет право на существования, но вот как ее вообще реализовать и внедрить - это отдельный вопрос на который я даже не могу представить внятного ответа. Тут просто для картинок, обычных блядь картинок, большая часть не хочет использовать баянометр, а ты говоришь про текст на картинках
с точки зрения интерфейса это решаемая задача, например, не сравнивать 3-4 слова, или для начала сделать только если картинка для раздела "буквы на фоне" (сделать галочку и написать "нажми если в этот раздел")

но я основную боль уловил. сервака с нужными характеристиками у меня для этого, к сожалению нет и в ближайшее время не предвидится. спасибо за подробные ответы.
У джоя есть встроенный фацнридер
Только зарегистрированные и активированные пользователи могут добавлять комментарии.
Похожие темы

Похожие посты
ХРОНИКИ РЕЯКТОРЯ Новый пост
Теги:
песочница Комиксы гифки красивые картинки geek Anime Эротика котэ игры	anon личное
Введите теги (через запятую) или выберите из списка выше Заголовок: необязательно
Картинка: из Файла из URL Р1 опрос редактор Баянометр и ещё баянометр Мемгенератор и др
НАПИСАТЬ
подробнее»

dev реактор баянометр мемгенератор

Новый пост Теги: песочница Комиксы гифки красивые картинки geek Anime Эротика котэ игры anon личное Введите теги (через запятую) или выберите из списка выше Заголовок: необязательно Картинка: из Файла из URL Р1 опрос редактор Баянометр и ещё баянометр Мемгенератор и др НАПИСАТЬ