Баянометр 2.0 Рад представить новый баянометр: bayanometr.xyz / баянометр :: баянометр 2.0 :: реактор

реактор баянометр баянометр 2.0 

Баянометр 2.0

Рад представить новый баянометр: bayanometr.xyz

Как я и обещал некоторое время назад, сделал новую версию баянометра, со своими новыми плюшками
Сделал возможность поиска сразу по нескольким картинкам, без нужды перегружать страницу и вводить что либо заново
Так же важное изменение - по кадровый поиск по гифкам, хоть и со своими ограничениями. Учитываются только первые 30 кадров, чего в большинстве случаев достаточно, и дает возможность по реверсу найти оригинал.
Все это добро работает и для секретных разделов, но с своими ограничениями. Теги gay-zone, гуро, жесть, изврат идут нахуй
Поиск игнорирует различные повреждения/изменения картинки, что дает возможность имея подобное дерьмо:

реактор,баянометр,баянометр 2.0

найти оригинал: http://joyreactor.cc/post/2829385

На текущий момент проанализировано 99% всех картинок, и 70% гифок, и анализ будет окончен в ближайшее время


Подробнее

реактор,баянометр,баянометр 2.0
Еще на тему
Развернуть
Я верил, я ждал, я надеялся! Слава тебе, о великий, защиту от баянов дарующий, и да прибудет с тобой сила пруфа! Аминь!
ltybcs ltybcs 01.01.201702:07 ответить ссылка 12.0
Хорошее начало года.
romanbug romanbug 01.01.201702:08 ответить ссылка 12.3
Гип гип ура!
Grifin Grifin 01.01.201702:08 ответить ссылка 1.7
Так-же прошу писать о найденных багах/недоработках/идеях и т.п.
И если рукастые ребята - нарисуйте пожалуйста favicon, а то я совсем криворукий в это плане
ExtraDJ ExtraDJ 01.01.201702:11 ответить ссылка 3.8
Поинтересуюсь техническими деталями - как реализован поиск (всё-таки нешуточное число изображений)?
Небось первым делом сравниваешь сильно пожатые изображения или юзаешь что-нибудь для выделения вектора признаков?
alex4321 alex4321 01.01.201702:13 ответить ссылка 0.2
Основано на: http://www.hackerfactor.com/blog/?/archives/432-Looks-Like-It.html
Со своими доработками, ибо в описанном методе есть шанс получить разный хеш для картинок с минимальными отличиями.
Если тебя интересует сам метод поиска, то http://dev.mysql.com/doc/refman/5.7/en/bit-functions.html
Спасибо, пойду повышать образованность.
И совет. Если будешь делать - не используй PHP GD. Там очень высокий шанс ошибки, и формирования разных хешей для одинаковых изображений
Не, я воздержусь. Тем более я как-то больше по питону.
Чего-то, кстати, туплю.
Если не влом - за счёт чего шанс получить разный хеш-то? Мы же :
- жмём изображение - тут вроде же проблем не должно быть
- обесцвечиваем - опять же
- считаем среднее значение - оно может и отличаться после правок, да. Но вроде же компенсируется последним шагом
- устанавливаем соответсвующий пикселю уменьшенного изображения бит в pixelColor >= meanColor, что вроде должно компенсировать различия в прошлом шаге
На этапе обесцвечивания у меня возникали проблемы.
К примеру пост: http://joyreactor.cc/post/2655590
Но при этом для маленького размера получается картинка: http://bayanometr.xyz/result_1.jpg
А для большого : http://bayanometr.xyz/result_2.jpg
Почему так - понятия не имею, но в итоге пришлось менять методы обработки картинки и заново прогонять все картинки
Можешь пояснить про бит функции - ты делаешь обычный xor (и соответственно получаешь только хэши с нулевым расстоянием) или mysql позволяет сделать что-то вроде where bit_count(x ^ value)
Yuutsu Yuutsu 01.01.201702:47 ответить ссылка 0.1
HAVING BIT_COUNT(`hash` ^ $hash)
Добра тебе!
Amaurea Amaurea 01.01.201702:20 ответить ссылка -0.1
Спасибо
Xanac Xanac 01.01.201702:21 ответить ссылка 0.0
Он будет закреплен в "О проекте" или лучше закрепить вот этот пост в избранном ?
Это уже зависит от админов. Надеюсь добавят
Лучший подарок на Новый год, теперь моя нервозность и тревога, что я где-то набоянил, наконец уснет.
Поиск игнорирует различные повреждения/изменения картинки, что дает возможность имея подобное дерьмо найти оригинал...
Перешел на оригинал, попытался оригиналом найти этот пост, чет не нашло =(
Возможно конкретно эта картинка еще не проанализирована. Даш ссылку?
Ссылку на что? Я перешел на http://joyreactor.cc/post/2829385 , сохранил у себя в папке, зашел на боянометр и вставил сохраненную картинку, выдало результат только того что я сохранил, этот пост оно не выдало
Все, понял. Просто пост этот еще не попал в базу. Там внизу указана дата последнего обновления. 01:01:43, а пост был сделан в 01:05, вот и не нашло. Пока что делаю последние настройки автоматизации
Сделал принудительное обновление. Проверь еще раз :)
Нашло, Спс. Буду баловаться, сам не люблю постить но вот указать людям на боян это приятно.
Возможно я поспешил т.к. пост только создали, просто решил проверить функционал в обратную сторону, по не по измененной пикче найти измененную ,и взять твой пример.
Насколько быстро добавляются новые посты в БД?
kir_san kir_san 01.01.201702:33 ответить ссылка 0.0
Раз в 5 минут
Тогда возможно я попал в 1% необработанного. Хотя странно, что на картинку - выдало пост с видео.
Давай ссылку, буду смотреть.
На вот этот пост - http://anime.reactor.cc/post/2933284
находит это - http://joyreactor.cc/post/521736
Может я чего не понимаю?
Выбрать файлы
Файл не выбран
Вставте и131_ картинки
я загружаю оригинал картинки. Видео остается, но находит и пост.
Выбрать файлы_ Файл не выбран
Вставте картинки

Сброс
Главное что находит. Погрешность с парочкой не правильных постов вполне допустима, на мой взгляд
Ну да. И я так понял комменты оно не проверяет.
Хотел сделать комменты, но там хрень получается. 90% всех картинок в комментах - мемасики повторяющиеся, и хранить все их хеши и зависимости между постов - очень уж тяжко, потому отказался. Возможно когда то сделаю
Зачем комменты включать в бояны? Очень велика вероятность, что большая часть реактора не видела картинку в комментарии под каким-то заминусованным фэндомовским постом.
Romin Romin 01.01.201705:19 ответить ссылка 1.0
На реакторе есть 3 клана:
1. картинки из комментов - бояны
2. картинки из комментов - не бояны
3. им похрен
Всё теперь выдаёт и ссылку на мой пост. Видно сохранило в БД)
Сорян. Автоматизацию еще полностью не настроил. Вот, сейчас в процессе.
Да ну, о чем ты. Такой огромный труд проделал. Я как-то читал за алгоритмы сравнения картинок... ну их нафиг)

Спасибо!
Настроил всю автоматизацию.
Выгрузка новых постов - каждые 5 минут
Проверка постов на предмет правок, за последние 4 часа - каждый час.
Проверка всех остальных постов, вызывающих вопросы - каждый день в 5 утра. Максимальный размер пачки - 5к постов.
На старом баянометре такое тоже очень часто было.
Ты это, наверное, и сам знаешь, но ты - красавчик!
А можно космическую темную тему, как Spacereactor? ну, в будущем хотя бы =)
Без проблем. Лишь бы ктото нарисовал какойто макет
попробую взять у автора фон и перепилю под баянометр. Тебе или в ЛС скину, или сюда.
SamTrevor SamTrevor 01.01.201702:48 ответить ссылка 19.9
Офигенно! С Новым годом и спасибо тебе! С:
>Теги gay-zone, гуро, жесть, изврат идут нахуй
>изврат
Ну все, это оскорбление. Время запилить собственный поиск по реактору. Только для gay-zone, гуро, жесть, и изврата. Завтра же начну. Или в понедельник.
Мне хотелось исключить теоретическое попадание контента который будет неприятно видеть, а иногда даже блевать хочется.
Хочешь - сделай свой, с расчлененкой, хуями и еблей миксера.
Вот нет чтобы сделать это настраиваемым, надо захардкодить. А если появится тег "#изврат_3.0", или "жесть" переквалифицируется под, внезапно, металлообработку, так сразу сорцы править? И это я еще не говорил о дискриминации секс-меньшинств.
А вообще, это все так, шуточки. За одно только то, что у тебя руки дошли и ты не бросил после пары часов - огромное тебе от меня уважение, вот.
Данные собираются по всем постам без исключения, и фильтруются уже при выдаче. Нужно будет что либо изменить - это займет минимум времени
Могу понять почему исключили изврат с их копро и жесть\гуро с кровью - это, конечно может шокировать. Но gz чем неугодил? Те же хуи что в shemale и futa, только без сисек - этим можно кого-то шокировать на реакторе?
Для многих гей-порно хуже копро.
Проще исключить из выдачи, чем перебирать недовольных. + самый непопулярный раздел секретных, так что количество недовольных по этому фильтру будет минимально
Может, лучше добавить возможность включать и выключать из поиска gz, изврат и т.д?
Может быть, но явно не в ближайшее время. Я притомился
"Завтра же начну. Или в понедельник."
Сделай еще по тегу "прокрастинация"
Лень, лол.
Вот бы так правительство работало! Еще все бухают, а уже реформы и улучшения!
КОНЕЦ БАЯНАМ НА ГЛАВНОЙ
Ура
Теперь не придётся прилагать столько усилий на поиск пробудившегося Древнего зла. Спасибо за подарок.
Что было:
- баянометр работает; баяны на главной, ибо "баянометр молчал"
- баянометр не работает; баяны на глааной
Что будет:
- баянометр 2.0 работает; баяны на главной, ибо "баянометр молчал" 2.0
muted muted 01.01.201703:16 ответить ссылка 3.0
Давным-давно, я видел как ты предлагал сделать свой вариант баянометра, но уже думал что ты забил, а тут раз - и это в ленте! Охуенный подарок на новый год чувак, я (и ещё дохера человек) глубочайше благодарю тебя - спасибо!
Hellfie Hellfie 01.01.201704:14 ответить ссылка 1.4
К сожалению много чего приходилось переделывать и перекачивать. Весь реактор в общей сложности перекачал раза 3-4, вот и ушло куча времени. Был бы рад сделать побыстрее, но, не получилось
А скажи нам, реактор большой?
Большой
А точнее?
Информация по постам + URL картинок + хеши + зависимости = 2.2GB
При этом анализ гифок еще не закончен, так что в итоге думаю будет ~2.5GB
Я представлял себе больше это число
Это число уже очень большое. Речь же идет о чисто текстовых данных. Представь себе конспект или доклад такого объема
А картиночки? Или я чего-то не догоняю?
У меня не храниться ни одной картинки с реактора. Любая картинка просто превращаться в хеш формата 5f6ae158f7580819
А каким образом они тогда сравниваются с новыми?
Картинки которые вбиваются в поиск тоже превращаются в хеш. И сравнение идет уже по хешам.
К примеру картинка в этом посте имеет хеш 109b303644b7bf4d, а оригинал 109b246646b73f4d
Идет преобразование хешей в десятичную систему исчисления, и хеши принимают немного другой вид.
109b303644b7bf4d - 1196603135636258637
109b246646b73f4d - 1196590147688677197

После идет побитовое сравнение этих данных, и вычисление их разницы.
Разница двух этих хешей при побитовом сравнении - 6. Разница 0 - точное совпадение. Больше 9 - скорее всего это 2 разные картинки. Больше 12 - точно 2 разные картинки.
Както так все это и работает
Ясно, спасибо!
Алгоритм такой:
- изображение скукоживается до малого размера (условно - 24x24)
- обесцвечивается
- далее - интесивность цвета для каждого пикселя подменяется 1 битом.
То есть - нам нужно :
- раз в некоторое время качать новые посты, подсчитывать хеш их изображений и сохранять хеш/адрес.
- считать хеш пользовательского изображения
- отбирать какое-то число изображений с наиболее похожим хешем (читай - как можно меньше отличающихся бит) или просто отбирать все изображения где отличается, например, менее 5 бит
- качать выбранные изображения с реактора и сравнивать.
32х32 уже мало, а 24х24 и подавно. Такой размер исходика будет давать очень много ложно-положительных результатов. Размер 128х128 уже похуже переносит различные повреждения картинки. Для себя выбрал вариант 64х64
Картинки не хранятся в его базе.
Изображение уменьшается до условного 8x8, далее - каждому пикселю урезанной картинки ставится в соответствие 1 бит. Читай - получаем 64 битное число из изображения.
Ну и адрес поста/изображения. Вангану с килобайт на изображение.
Меньше. ~300байт
Кстати, имея адрес - сравниваешь ли потом с изображениями с наиболее схожим хешем (если да - на клиентской стороне или на серверной), или сразу предлагаешь это юзеру?
В этом нету смысла. Если запрашиваемая картинка дала хороший результат, то дочерние просто его подтвердят. А если дочерние картинки дали дистанцию 6+, то просто будет куча мусора в результатах.
Понятно. Ну, большого аптайма тебе.
Спасибо
Cколько весит реактор? :D
Тоже занимался парсингом не так давно, в образовательных целях естественно)

Получилось как то так. Т.е. около 250 гиг . База конечно значительно меньше, смысла хранить при рабочем алгоритме все изображения нет. Обработано было 221046 страниц бездны. Без секретных. Изображения хранил конечно только для того чтобы если что не перекачивать все заново, а перехешировать существующее т.к. алгоритм еще не был протестирован. Гифки не хранил, это еще + столько же пространства если не больше вышло бы.

Вообще проект был больше ориентирован на поиск по цвету, там еще несколько доп полей в базе для этих целей, так что размеры базы для поисковика по хешу еще меньше 4 гиг бы вышли. И да с оптимизацией так и не смог нормально совладать. Если поиск совпадений хешей нормально отрабатывает по скорости то поиск по цветовой палитре при 2 млн. изображений уже подвисает, нужно перерабатывать индексацию \ обращения к базе, ну это уже не важно.
control lusers	Ц	Ш	13	§"=	EH
job_sessions	®	Ш	H
parsed_authors	Щ	dff	12	H
parsedjmages	Щ iff Ц >c fjg
parsedlocations	Щ	(§	Ц	>c	Д
parsedmaterials	ОШ	й?	Ш	®
parsed_pages	Щ	tff	ID	®
search_cache	Щ	off	Ц	*=	Щ
search_sessions	Щ	dff	12	H
site_actions	Щ	(?§	Щ	>c	fjg
site_visitors	Ш	О®	12	H
Рекомендую посмотреть в сторону TimesTen. Для большой и быстрой БД самое то. 100мл.строк ворочает шустро. Как только в баянометре, в базе количество картинок перевалит за 4мл. - буду переделывать под нее
спасибо за инфу. Буду пробовать
2017 только что стал лучше предыдущего. Вот бы всё продолжилось в том же духе
Romin Romin 01.01.201705:20 ответить ссылка 0.1
просто комментарий, чтобы не забыть, что я был здесь когда проснусь.
Genocide Genocide 01.01.201706:19 ответить ссылка -1.5
Можно ссылку на боянонометр?
Всё не надо, я сразу не заметил что она в названии.
Офигенное начало года. Спасибо.
Regret Regret 01.01.201711:28 ответить ссылка 0.0
Не работает
А какой механизм посика? Насколько хорошо он будет отмечать ПОХОЖИЕ картинки?
MaXM00D MaXM00D 01.01.201712:27 ответить ссылка 0.0
Добра тебе, держи плюсик
Я тупой. Куда нажимать, чтобы он начал поиск?
Finalist Finalist 01.01.201713:00 ответить ссылка 0.3
Кажись понял, нужно ентер жать. ExtraDJ, а мог бы ты сделать автоматический пуск поиска при добавлении файла?
У меня сразу по добавлении файла/URL начинает поиск.
22->23 22->23 01.01.201715:48 ответить ссылка 0.0
Поиск должен начинаться автоматически
Наконец-то, теперь можно кидать ссылки на "было" кармодрочерам.
GumBeat GumBeat 01.01.201713:29 ответить ссылка 0.0
Добавил редирект на .xyz, хай будет.
malgalad malgalad 01.01.201715:08 ответить ссылка 0.0
Спасибо
Не прожевал: http://joyreactor.cc/post/2450423 и http://joyreactor.cc/post/1672848
При выборе любой из гифок не даёт ссылку на пост с другой
Batonych Batonych 01.01.201716:19 ответить ссылка 0.0
Как и указал в посте, не все гифки еще проанализированы. Конкретно этих двоих еще нет в базе
Спасибо, товарищ! Нужна ли вам медаль нашего фандома?
Yoshir Yoshir 01.01.201717:55 ответить ссылка 0.0
Медальку нужно заслужить. Не отказался бы от медальки "За развитие" или типа того, а за посты которые я не постил - нет. Но спасибо
я тут занимаюсь прогой для сохранения себе картинокь с реактора и уже юзал алгоритм для сравнения, но не юзал базу, оставлю комент, чтобы потом глянуть инфу, спасибо тебе чел, с НГ! =)
site-pro site-pro 02.01.201712:32 ответить ссылка 0.0
Запили еще получение ссылки через GET и плагин для хрома в меню по правой кнопке и вообще заебца будет!
@ © 1 O' ¡il' □
Открыть картинку в новой вкладке Сохранить картинку как...
Копировать картинку Копировать URL картинки Найти картинку (Google)
Заблокировать элемент Копировать URL Найти картинку (Яндекс)
IQDB image search
Search for this image on Karma Decay Search Image on TinEye
The Great
Звучит прикольно. Можно сделать. 5$ только найду после НГ на ак разработчика
А еще неплохо бы в dev написать, чтобы в подвал сайта ссылку на баянометр добавили, и в идеале прикрутили его для проверки при создании новых постов )
А можно оригинал изображения реактор-тян?
Открой инфо, там указаны авторы
В секретных разделах не хочет искать баяны.
Чет он у меня на некоторые картинки тупит и не хочет в упор выдавать результат, чем дело-то
Только зарегистрированные и активированные пользователи могут добавлять комментарии.
Похожие темы

Похожие посты
Ш1_ ФАЙЛ ■гч ОТМЕНА ПОИСК >URL http://img08.deviantart.net/480e/i/2016/037/4/d/rose_andJissa_by_may12324-d9qot0v.jpg ФАЙЛ ч/ I Начать поиск картинки Сервер не может загрузить картинку; undefined ■ Картинка не выбрана Картинка не выбрана Картинка не выбрана Сервис недоступен. КАК ЭТО РАБОТАЕТ
подробнее»

баянометр баянометр молчал баг не работает dev реактор

URL http://img08.deviantart.net/480e/i/2016/037/4/d/rose_andJissa_by_may12324-d9qot0v.jpg ФАЙЛ ч/ I Начать поиск картинки Сервер не может загрузить картинку; undefined ■ Картинка не выбрана Картинка не выбрана Картинка не выбрана Сервис недоступен. КАК ЭТО РАБОТАЕТ