Баянометр 2.0 Рад представить новый баянометр: bayanometr.xyz / баянометр :: баянометр 2.0 :: реактор

реактор баянометр баянометр 2.0 

Баянометр 2.0

Рад представить новый баянометр: bayanometr.xyz

Как я и обещал некоторое время назад, сделал новую версию баянометра, со своими новыми плюшками
Сделал возможность поиска сразу по нескольким картинкам, без нужды перегружать страницу и вводить что либо заново
Так же важное изменение - по кадровый поиск по гифкам, хоть и со своими ограничениями. Учитываются только первые 30 кадров, чего в большинстве случаев достаточно, и дает возможность по реверсу найти оригинал.
Все это добро работает и для секретных разделов, но с своими ограничениями. Теги gay-zone, гуро, жесть, изврат идут нахуй
Поиск игнорирует различные повреждения/изменения картинки, что дает возможность имея подобное дерьмо:

реактор,баянометр,баянометр 2.0

найти оригинал: http://joyreactor.cc/post/2829385

На текущий момент проанализировано 99% всех картинок, и 70% гифок, и анализ будет окончен в ближайшее время


Подробнее

реактор,баянометр,баянометр 2.0
Еще на тему
Развернуть
Я верил, я ждал, я надеялся! Слава тебе, о великий, защиту от баянов дарующий, и да прибудет с тобой сила пруфа! Аминь!
Хорошее начало года.
Гип гип ура!
Так-же прошу писать о найденных багах/недоработках/идеях и т.п.
И если рукастые ребята - нарисуйте пожалуйста favicon, а то я совсем криворукий в это плане
Поинтересуюсь техническими деталями - как реализован поиск (всё-таки нешуточное число изображений)?
Небось первым делом сравниваешь сильно пожатые изображения или юзаешь что-нибудь для выделения вектора признаков?
Основано на: http://www.hackerfactor.com/blog/?/archives/432-Looks-Like-It.html
Со своими доработками, ибо в описанном методе есть шанс получить разный хеш для картинок с минимальными отличиями.
Если тебя интересует сам метод поиска, то http://dev.mysql.com/doc/refman/5.7/en/bit-functions.html
Спасибо, пойду повышать образованность.
И совет. Если будешь делать - не используй PHP GD. Там очень высокий шанс ошибки, и формирования разных хешей для одинаковых изображений
Не, я воздержусь. Тем более я как-то больше по питону.
Чего-то, кстати, туплю.
Если не влом - за счёт чего шанс получить разный хеш-то? Мы же :
- жмём изображение - тут вроде же проблем не должно быть
- обесцвечиваем - опять же
- считаем среднее значение - оно может и отличаться после правок, да. Но вроде же компенсируется последним шагом
- устанавливаем соответсвующий пикселю уменьшенного изображения бит в pixelColor >= meanColor, что вроде должно компенсировать различия в прошлом шаге
На этапе обесцвечивания у меня возникали проблемы.
К примеру пост: http://joyreactor.cc/post/2655590
Но при этом для маленького размера получается картинка: http://bayanometr.xyz/result_1.jpg
А для большого : http://bayanometr.xyz/result_2.jpg
Почему так - понятия не имею, но в итоге пришлось менять методы обработки картинки и заново прогонять все картинки
Можешь пояснить про бит функции - ты делаешь обычный xor (и соответственно получаешь только хэши с нулевым расстоянием) или mysql позволяет сделать что-то вроде where bit_count(x ^ value)
HAVING BIT_COUNT(`hash` ^ $hash)
Добра тебе!
Спасибо
Он будет закреплен в "О проекте" или лучше закрепить вот этот пост в избранном ?
Это уже зависит от админов. Надеюсь добавят
Лучший подарок на Новый год, теперь моя нервозность и тревога, что я где-то набоянил, наконец уснет.
Поиск игнорирует различные повреждения/изменения картинки, что дает возможность имея подобное дерьмо найти оригинал...
Перешел на оригинал, попытался оригиналом найти этот пост, чет не нашло =(
Возможно конкретно эта картинка еще не проанализирована. Даш ссылку?
Ссылку на что? Я перешел на http://joyreactor.cc/post/2829385 , сохранил у себя в папке, зашел на боянометр и вставил сохраненную картинку, выдало результат только того что я сохранил, этот пост оно не выдало
Все, понял. Просто пост этот еще не попал в базу. Там внизу указана дата последнего обновления. 01:01:43, а пост был сделан в 01:05, вот и не нашло. Пока что делаю последние настройки автоматизации
Сделал принудительное обновление. Проверь еще раз :)
Нашло, Спс. Буду баловаться, сам не люблю постить но вот указать людям на боян это приятно.
Возможно я поспешил т.к. пост только создали, просто решил проверить функционал в обратную сторону, по не по измененной пикче найти измененную ,и взять твой пример.
Насколько быстро добавляются новые посты в БД?
Раз в 5 минут
Тогда возможно я попал в 1% необработанного. Хотя странно, что на картинку - выдало пост с видео.
Давай ссылку, буду смотреть.
На вот этот пост - http://anime.reactor.cc/post/2933284
находит это - http://joyreactor.cc/post/521736
Может я чего не понимаю?
Выбрать файлы Файл не выбран Вставте и131_ картинки
я загружаю оригинал картинки. Видео остается, но находит и пост.
Выбрать файлы_ Файл не выбран Вставте картинки Сброс
Главное что находит. Погрешность с парочкой не правильных постов вполне допустима, на мой взгляд
Ну да. И я так понял комменты оно не проверяет.
Хотел сделать комменты, но там хрень получается. 90% всех картинок в комментах - мемасики повторяющиеся, и хранить все их хеши и зависимости между постов - очень уж тяжко, потому отказался. Возможно когда то сделаю
Зачем комменты включать в бояны? Очень велика вероятность, что большая часть реактора не видела картинку в комментарии под каким-то заминусованным фэндомовским постом.
На реакторе есть 3 клана:
1. картинки из комментов - бояны
2. картинки из комментов - не бояны
3. им похрен
Всё теперь выдаёт и ссылку на мой пост. Видно сохранило в БД)
Сорян. Автоматизацию еще полностью не настроил. Вот, сейчас в процессе.
Да ну, о чем ты. Такой огромный труд проделал. Я как-то читал за алгоритмы сравнения картинок... ну их нафиг)

Спасибо!
Настроил всю автоматизацию.
Выгрузка новых постов - каждые 5 минут
Проверка постов на предмет правок, за последние 4 часа - каждый час.
Проверка всех остальных постов, вызывающих вопросы - каждый день в 5 утра. Максимальный размер пачки - 5к постов.
На старом баянометре такое тоже очень часто было.
Ты это, наверное, и сам знаешь, но ты - красавчик!
А можно космическую темную тему, как Spacereactor? ну, в будущем хотя бы =)
Без проблем. Лишь бы ктото нарисовал какойто макет
попробую взять у автора фон и перепилю под баянометр. Тебе или в ЛС скину, или сюда.
Офигенно! С Новым годом и спасибо тебе! С:
>Теги gay-zone, гуро, жесть, изврат идут нахуй
>изврат
Ну все, это оскорбление. Время запилить собственный поиск по реактору. Только для gay-zone, гуро, жесть, и изврата. Завтра же начну. Или в понедельник.
Мне хотелось исключить теоретическое попадание контента который будет неприятно видеть, а иногда даже блевать хочется.
Хочешь - сделай свой, с расчлененкой, хуями и еблей миксера.
Вот нет чтобы сделать это настраиваемым, надо захардкодить. А если появится тег "#изврат_3.0", или "жесть" переквалифицируется под, внезапно, металлообработку, так сразу сорцы править? И это я еще не говорил о дискриминации секс-меньшинств.
А вообще, это все так, шуточки. За одно только то, что у тебя руки дошли и ты не бросил после пары часов - огромное тебе от меня уважение, вот.
Данные собираются по всем постам без исключения, и фильтруются уже при выдаче. Нужно будет что либо изменить - это займет минимум времени
Могу понять почему исключили изврат с их копро и жесть\гуро с кровью - это, конечно может шокировать. Но gz чем неугодил? Те же хуи что в shemale и futa, только без сисек - этим можно кого-то шокировать на реакторе?
Для многих гей-порно хуже копро.
Проще исключить из выдачи, чем перебирать недовольных. + самый непопулярный раздел секретных, так что количество недовольных по этому фильтру будет минимально
Может, лучше добавить возможность включать и выключать из поиска gz, изврат и т.д?
Может быть, но явно не в ближайшее время. Я притомился
"Завтра же начну. Или в понедельник."
Сделай еще по тегу "прокрастинация"
Лень, лол.
Вот бы так правительство работало! Еще все бухают, а уже реформы и улучшения!
КОНЕЦ БАЯНАМ НА ГЛАВНОЙ
Теперь не придётся прилагать столько усилий на поиск пробудившегося Древнего зла. Спасибо за подарок.
Что было:
- баянометр работает; баяны на главной, ибо "баянометр молчал"
- баянометр не работает; баяны на глааной
Что будет:
- баянометр 2.0 работает; баяны на главной, ибо "баянометр молчал" 2.0
Давным-давно, я видел как ты предлагал сделать свой вариант баянометра, но уже думал что ты забил, а тут раз - и это в ленте! Охуенный подарок на новый год чувак, я (и ещё дохера человек) глубочайше благодарю тебя - спасибо!
К сожалению много чего приходилось переделывать и перекачивать. Весь реактор в общей сложности перекачал раза 3-4, вот и ушло куча времени. Был бы рад сделать побыстрее, но, не получилось
А скажи нам, реактор большой?
Большой
А точнее?
Информация по постам + URL картинок + хеши + зависимости = 2.2GB
При этом анализ гифок еще не закончен, так что в итоге думаю будет ~2.5GB
Я представлял себе больше это число
Это число уже очень большое. Речь же идет о чисто текстовых данных. Представь себе конспект или доклад такого объема
А картиночки? Или я чего-то не догоняю?
У меня не храниться ни одной картинки с реактора. Любая картинка просто превращаться в хеш формата 5f6ae158f7580819
А каким образом они тогда сравниваются с новыми?
Картинки которые вбиваются в поиск тоже превращаются в хеш. И сравнение идет уже по хешам.
К примеру картинка в этом посте имеет хеш 109b303644b7bf4d, а оригинал 109b246646b73f4d
Идет преобразование хешей в десятичную систему исчисления, и хеши принимают немного другой вид.
109b303644b7bf4d - 1196603135636258637
109b246646b73f4d - 1196590147688677197

После идет побитовое сравнение этих данных, и вычисление их разницы.
Разница двух этих хешей при побитовом сравнении - 6. Разница 0 - точное совпадение. Больше 9 - скорее всего это 2 разные картинки. Больше 12 - точно 2 разные картинки.
Както так все это и работает
Ясно, спасибо!
Алгоритм такой:
- изображение скукоживается до малого размера (условно - 24x24)
- обесцвечивается
- далее - интесивность цвета для каждого пикселя подменяется 1 битом.
То есть - нам нужно :
- раз в некоторое время качать новые посты, подсчитывать хеш их изображений и сохранять хеш/адрес.
- считать хеш пользовательского изображения
- отбирать какое-то число изображений с наиболее похожим хешем (читай - как можно меньше отличающихся бит) или просто отбирать все изображения где отличается, например, менее 5 бит
- качать выбранные изображения с реактора и сравнивать.
32х32 уже мало, а 24х24 и подавно. Такой размер исходика будет давать очень много ложно-положительных результатов. Размер 128х128 уже похуже переносит различные повреждения картинки. Для себя выбрал вариант 64х64
Картинки не хранятся в его базе.
Изображение уменьшается до условного 8x8, далее - каждому пикселю урезанной картинки ставится в соответствие 1 бит. Читай - получаем 64 битное число из изображения.
Ну и адрес поста/изображения. Вангану с килобайт на изображение.
Меньше. ~300байт
Кстати, имея адрес - сравниваешь ли потом с изображениями с наиболее схожим хешем (если да - на клиентской стороне или на серверной), или сразу предлагаешь это юзеру?
В этом нету смысла. Если запрашиваемая картинка дала хороший результат, то дочерние просто его подтвердят. А если дочерние картинки дали дистанцию 6+, то просто будет куча мусора в результатах.
Понятно. Ну, большого аптайма тебе.
Спасибо
Cколько весит реактор? :D
Тоже занимался парсингом не так давно, в образовательных целях естественно)

Получилось как то так. Т.е. около 250 гиг . База конечно значительно меньше, смысла хранить при рабочем алгоритме все изображения нет. Обработано было 221046 страниц бездны. Без секретных. Изображения хранил конечно только для того чтобы если что не перекачивать все заново, а перехешировать существующее т.к. алгоритм еще не был протестирован. Гифки не хранил, это еще + столько же пространства если не больше вышло бы.

Вообще проект был больше ориентирован на поиск по цвету, там еще несколько доп полей в базе для этих целей, так что размеры базы для поисковика по хешу еще меньше 4 гиг бы вышли. И да с оптимизацией так и не смог нормально совладать. Если поиск совпадений хешей нормально отрабатывает по скорости то поиск по цветовой палитре при 2 млн. изображений уже подвисает, нужно перерабатывать индексацию \ обращения к базе, ну это уже не важно.
control lusers Ц Ш 13 §"= EH job_sessions ® Ш H parsed_authors Щ dff 12 H parsedjmages Щ iff Ц >c fjg parsedlocations Щ (§ Ц >c Д parsedmaterials ОШ й? Ш ® parsed_pages Щ tff ID ® search_cache Щ off Ц *= Щ search_sessions Щ dff 12 H site_actions Щ (?§ Щ >c fjg site_visitors Ш О® 12 H
Рекомендую посмотреть в сторону TimesTen. Для большой и быстрой БД самое то. 100мл.строк ворочает шустро. Как только в баянометре, в базе количество картинок перевалит за 4мл. - буду переделывать под нее
спасибо за инфу. Буду пробовать
2017 только что стал лучше предыдущего. Вот бы всё продолжилось в том же духе
просто комментарий, чтобы не забыть, что я был здесь когда проснусь.
Можно ссылку на боянонометр?
Всё не надо, я сразу не заметил что она в названии.
Офигенное начало года. Спасибо.
Не работает
А какой механизм посика? Насколько хорошо он будет отмечать ПОХОЖИЕ картинки?
Добра тебе, держи плюсик
Я тупой. Куда нажимать, чтобы он начал поиск?
Кажись понял, нужно ентер жать. ExtraDJ, а мог бы ты сделать автоматический пуск поиска при добавлении файла?
У меня сразу по добавлении файла/URL начинает поиск.
Поиск должен начинаться автоматически
Наконец-то, теперь можно кидать ссылки на "было" кармодрочерам.
Добавил редирект на .xyz, хай будет.
Спасибо
Не прожевал: http://joyreactor.cc/post/2450423 и http://joyreactor.cc/post/1672848
При выборе любой из гифок не даёт ссылку на пост с другой
Как и указал в посте, не все гифки еще проанализированы. Конкретно этих двоих еще нет в базе
Спасибо, товарищ! Нужна ли вам медаль нашего фандома?
Медальку нужно заслужить. Не отказался бы от медальки "За развитие" или типа того, а за посты которые я не постил - нет. Но спасибо
я тут занимаюсь прогой для сохранения себе картинокь с реактора и уже юзал алгоритм для сравнения, но не юзал базу, оставлю комент, чтобы потом глянуть инфу, спасибо тебе чел, с НГ! =)
Запили еще получение ссылки через GET и плагин для хрома в меню по правой кнопке и вообще заебца будет!
@ © 1 O' ¡il' □ Открыть картинку в новой вкладке Сохранить картинку как... Копировать картинку Копировать URL картинки Найти картинку (Google) Заблокировать элемент Копировать URL Найти картинку (Яндекс) IQDB image search Search for this image on Karma Decay Search Image on TinEye The Great
Звучит прикольно. Можно сделать. 5$ только найду после НГ на ак разработчика
А еще неплохо бы в dev написать, чтобы в подвал сайта ссылку на баянометр добавили, и в идеале прикрутили его для проверки при создании новых постов )
А можно оригинал изображения реактор-тян?
Открой инфо, там указаны авторы
В секретных разделах не хочет искать баяны.
Чет он у меня на некоторые картинки тупит и не хочет в упор выдавать результат, чем дело-то
Только зарегистрированные и активированные пользователи могут добавлять комментарии.
Похожие темы

Похожие посты
Копировать изображение Кодировать ссылку на изображение Сохранить изображение как... Отправить изображение по почте... Сделать фоновым рисунком рабочего стола... Информация об изображении Исследовать элемент Bayanometr Search
подробнее»

баянометр

Копировать изображение Кодировать ссылку на изображение Сохранить изображение как... Отправить изображение по почте... Сделать фоновым рисунком рабочего стола... Информация об изображении Исследовать элемент Bayanometr Search
Дамы и господа, спасибо, что согласились потратить своё время на наш проект: годы исследований и, конечно же, ваши щедрые пожертвования принесли свои плоды. Рад представить вам детёныша стегозавра! Наконец-то, после миллионов лет, динозавры вернутся на землю!
подробнее»

динозавры астероид Смешные комиксы,веб-комиксы с юмором и их переводы see mike draw seemikedraw

Дамы и господа, спасибо, что согласились потратить своё время на наш проект: годы исследований и, конечно же, ваши щедрые пожертвования принесли свои плоды. Рад представить вам детёныша стегозавра! Наконец-то, после миллионов лет, динозавры вернутся на землю!
СМОТРИ ОНА ИА сей ма< АОКА* Открыть ссылку в новой вкладке Открыть ссылку в новом окне Открыть ссылку в окне в режиме инкогнито Сохранить ссылку как... Копировать адрес ссылки Открыть картинку в новой вкладке Сохранить картинку как... Копировать картинку Копировать URL картинки Найти картинк
подробнее»

баянометр

СМОТРИ ОНА ИА сей ма< АОКА* Открыть ссылку в новой вкладке Открыть ссылку в новом окне Открыть ссылку в окне в режиме инкогнито Сохранить ссылку как... Копировать адрес ссылки Открыть картинку в новой вкладке Сохранить картинку как... Копировать картинку Копировать URL картинки Найти картинк
Симфония Холстинина - Фрагменты треков,Music,Ария,Симфония Холстинина,Работа над юбилейным альбомом к 60-летию основателя и гитариста группы «АРИЯ» близится к завершению! Сегодня мы рады представить вам фрагменты готовых треков, которые можно будет услышать на пластинке!
подробнее»

Metal,Metal фэндомы Симфония Холстинина тизер Елфимов Егоров Лобашёв Синев ария Холстинин

Симфония Холстинина - Фрагменты треков,Music,Ария,Симфония Холстинина,Работа над юбилейным альбомом к 60-летию основателя и гитариста группы «АРИЯ» близится к завершению! Сегодня мы рады представить вам фрагменты готовых треков, которые можно будет услышать на пластинке!
Журналист Первого канала спросила Петра Порошенко о ходе расследования трагедии 2 мая в Одессе Пер,Film,,Журналист Первого канала спросила Петра Порошенко о ходе расследования трагедии 2 мая в Одессе На большой пресс-конференции Петра Порошенко прозвучал вопрос корреспондента Первого канала, хотя
подробнее»

Я Ватник,# я ватник, разное video порошенко прессконференция

Журналист Первого канала спросила Петра Порошенко о ходе расследования трагедии 2 мая в Одессе Пер,Film,,Журналист Первого канала спросила Петра Порошенко о ходе расследования трагедии 2 мая в Одессе На большой пресс-конференции Петра Порошенко прозвучал вопрос корреспондента Первого канала, хотя