@ExtraDJ, стоит ли нам ждать баянометр и когда?
в принципе, пока ты там в глубокой отладке, я могу попробовать на коленке за недельку-другую поднять поиск по phash со своими нюансами и запустить его у себя (если кто расскажет мне как с одного адреса спарсить все картинки реактора, не улетая в автобан по IP).
ну и опрос, насколько это актуально
Нужен ли третий баянометр?
Да, ExtraDJ набрал донатов и спился нахуй, а кармадрочеры не видят берегов
429(60,25%)
Нет, я ньюфаг и то, что для других баяны, для мня ново
83(11,66%)
Нет, я кармадрочер и баянометр мне будет только мешать
25(3,51%)
Это я, ExtraDJ, и со дня на день я запущу баянометр 2.0 вновь
175(24,58%)
интернет_не_нужон.gif
Тут уже 13 ExtraDJ'ев набралось. Походу кто-то пиздит.
47 и продолжает расти - это кармасосы, которые не хотят палиться и не хотят возвращения баянометра.
Даже если ты и сольешь все пикчи, тебе надо будет кроном дергать новые постояннно с постов. Без прямого доступа к серваку это жуткий гемор будет. Кстати, через пхэш гифки не прогонишь же?
нуууу... в целом не слишком удобно, но не критично.
postId тут автоинкрементный, поэтому достаточно просто каждые n минут брать последний спарсенный пост и проходить увеличивая значение в адресе пока не получишь в ответ 404, например,
последний пост в у нас в бд - 3216667
http://old.reactor.cc/post/3216668 - 200 OK, разбираем на картинки
http://old.reactor.cc/post/3216669 - 200 ОК, разбираем на картинки
http://old.reactor.cc/post/3216670 - 404 Not Found, спим минутку-другу.
гифки можно бить на кадры и считать хеш для каждого кадра, но...
не знаю, может это и есть та самая проблема, из-за которой ExtraDJ до сих пор не выкатил обновленный баянометр (хотя я думаю, что проблема скорее в том, что Чем дольше я работаю с PHP, тем сильнее убеждаюсь в том, какая же это помойка. Короче новый баянометр будет написан на nodejs с использованием websocket(c) ).
короче о гифках я пока не думал и меня больше интересуют нюансы поиска дистанции хешей в бд.
первый баянометр, насколько я помню, работал очень-очень резво, сравнивая со вторым, и хотелось бы знать его секрет. ну да StackOverflow driven development топ методология и, я думаю, я что-то с ее помощью таки соображу:)
postId тут автоинкрементный, поэтому достаточно просто каждые n минут брать последний спарсенный пост и проходить увеличивая значение в адресе пока не получишь в ответ 404, например,
последний пост в у нас в бд - 3216667
http://old.reactor.cc/post/3216668 - 200 OK, разбираем на картинки
http://old.reactor.cc/post/3216669 - 200 ОК, разбираем на картинки
http://old.reactor.cc/post/3216670 - 404 Not Found, спим минутку-другу.
гифки можно бить на кадры и считать хеш для каждого кадра, но...
не знаю, может это и есть та самая проблема, из-за которой ExtraDJ до сих пор не выкатил обновленный баянометр (хотя я думаю, что проблема скорее в том, что Чем дольше я работаю с PHP, тем сильнее убеждаюсь в том, какая же это помойка. Короче новый баянометр будет написан на nodejs с использованием websocket(c) ).
короче о гифках я пока не думал и меня больше интересуют нюансы поиска дистанции хешей в бд.
первый баянометр, насколько я помню, работал очень-очень резво, сравнивая со вторым, и хотелось бы знать его секрет. ну да StackOverflow driven development топ методология и, я думаю, я что-то с ее помощью таки соображу:)
Чтобы не забанили по айпи, подними на сервачке тор проксю, и ходи через нее, каждые n+ random(m) проси прокю сделать новый айпи.
"Чем дольше я работаю с PHP, тем сильнее убеждаюсь в том, какая же это помойка. Короче новый баянометр будет написан на nodejs с использованием websocket(c) )." - ха ха ха
А если серьезно, пиши на чем хочешь, а бы работало.
"меня больше интересуют нюансы поиска дистанции хешей в бд." - а меня больше интересует есть ли какой то признак у уже существующих картинок, чтобы понять это баян или нет. тогда можно было бы попробовать сравнивать разные подходы.
и вообще надо запилить хакатончик!
"Чем дольше я работаю с PHP, тем сильнее убеждаюсь в том, какая же это помойка. Короче новый баянометр будет написан на nodejs с использованием websocket(c) )." - ха ха ха
А если серьезно, пиши на чем хочешь, а бы работало.
"меня больше интересуют нюансы поиска дистанции хешей в бд." - а меня больше интересует есть ли какой то признак у уже существующих картинок, чтобы понять это баян или нет. тогда можно было бы попробовать сравнивать разные подходы.
и вообще надо запилить хакатончик!
>А если серьезно, пиши на чем хочешь, а бы работало.
не моя фраза, а автора прошлого баянометра:)
>а меня больше интересует есть ли какой то признак у уже существующих картинок, чтобы понять это баян или нет.
всмысле?
>тогда можно было бы попробовать сравнивать разные подходы.
вообще вариантов море. и считать pHash или что-то в этом духе и искать их дистанцию это самый примитивный, но это можно сделать относительно быстро, не закупая vds и мне не впадлу.
ну и предыдущие оба баянометра вроде работали по этому принципу и многих устраивало.
не моя фраза, а автора прошлого баянометра:)
>а меня больше интересует есть ли какой то признак у уже существующих картинок, чтобы понять это баян или нет.
всмысле?
>тогда можно было бы попробовать сравнивать разные подходы.
вообще вариантов море. и считать pHash или что-то в этом духе и искать их дистанцию это самый примитивный, но это можно сделать относительно быстро, не закупая vds и мне не впадлу.
ну и предыдущие оба баянометра вроде работали по этому принципу и многих устраивало.
где пункт "Единая Россия"?
Ты его уже выбрал
Токиотрийский
Вот вопрос такой. Парсер постов я написал, работает отлично, с обычных картинок хеши генерирую, всё пашет. Остаётся лишь сделать хеш гифок и в планах ещё детектить Коубы и видосики с Ю\Рутуба, посредством хотя-бы сверки ссылки\ид.
Единственное что, я хочу сделать возможность фильтрации SFW/NSFW. И тут немного я затух, ибо некоторые посты, хотя и являются NSFW не имеют такового тега, т.к. они имеют свой тег, который якобы тоже NSFW, например http://joyreactor.cc/tag/%D0%B0%D1%80%D1%82+%D0%B1%D0%B0%D1%80%D1%8B%D1%88%D0%BD%D1%8F
Какие вообще есть ВСЕ ещё теги которые являются NSFW? Эротика, сиськи... что ещё туда попадает? Я ручками просто заебусь их прописывать...
Единственное что, я хочу сделать возможность фильтрации SFW/NSFW. И тут немного я затух, ибо некоторые посты, хотя и являются NSFW не имеют такового тега, т.к. они имеют свой тег, который якобы тоже NSFW, например http://joyreactor.cc/tag/%D0%B0%D1%80%D1%82+%D0%B1%D0%B0%D1%80%D1%8B%D1%88%D0%BD%D1%8F
Какие вообще есть ВСЕ ещё теги которые являются NSFW? Эротика, сиськи... что ещё туда попадает? Я ручками просто заебусь их прописывать...
по человечески ты с nsfw не разберешься никак.
на момент парсинга еще может не быть nsfw тега. или наоборот он может быть, а его уберут.
еще можно жестко вырезать порно, но такое - только ручками.
кстати, тег по твоей ссылке не режется nsfw фильтром.
расскажи лучше как ты индексируешь хеши.
на момент парсинга еще может не быть nsfw тега. или наоборот он может быть, а его уберут.
еще можно жестко вырезать порно, но такое - только ручками.
кстати, тег по твоей ссылке не режется nsfw фильтром.
расскажи лучше как ты индексируешь хеши.
>кстати, тег по твоей ссылке не режется nsfw фильтром.
в смысле при переходе по тегу его не прячем как прон.
в смысле при переходе по тегу его не прячем как прон.
Автоинкремент и pHash.
что автоинкремент и pHash?
тебе нужно найти хеши, которые находятся на расстояннии от твоего, пусть hd < 5.
само собой, что твоя бд вряд ли дружит с BK или VP индексами.
а еще, скорее всего, ты даже не задавался таким вопросом.
в итоге ты имеешь таблицу на 3-5кк, по которой либо ты запускаешь SELECT * FROM hashes where pHash = 'my-hash', но ты проебываешь половину смысла использования pHash и половину картинок с особо жирными вотермарками, либо ты запускаешь поиск хешей с нужным расстоянием, что дает отличный результат, но вызывает фуллскан всей таблицы. да да, 3-5кк записей будут перебираться каждый раз.
короче думай над этим
тебе нужно найти хеши, которые находятся на расстояннии от твоего, пусть hd < 5.
само собой, что твоя бд вряд ли дружит с BK или VP индексами.
а еще, скорее всего, ты даже не задавался таким вопросом.
в итоге ты имеешь таблицу на 3-5кк, по которой либо ты запускаешь SELECT * FROM hashes where pHash = 'my-hash', но ты проебываешь половину смысла использования pHash и половину картинок с особо жирными вотермарками, либо ты запускаешь поиск хешей с нужным расстоянием, что дает отличный результат, но вызывает фуллскан всей таблицы. да да, 3-5кк записей будут перебираться каждый раз.
короче думай над этим
Есть ли какой-то вариант тут получить ПОСЛЕДНИЙ пост? Именно что-то типа /last или аналогичное?
офк нет, тут даже рсс на все посты нету.
в чем проблема проходить по 100-200 постов каждые 5 минут, начиная с последнего в бд + 1 ?
в чем проблема проходить по 100-200 постов каждые 5 минут, начиная с последнего в бд + 1 ?
Сам подумай над этим принципом? Ты будет возможно делать 150 запросов в которых просто тупо будешь получать 404 ошибку ибо таких ещё просто не существует. Это не экономно, батенька!
150 запросов, на которые реактор отдаст пустые страницы это порядка секунды-двух.
в чем проблема, если ты каждую минуту будешь так дергать и тратить 1-2 секунды, а остальные 58-59 простаивать? парсить страницы их не нужно, нагрузка на cpu минимальная, только на разбор заголовков.
в чем проблема, если ты каждую минуту будешь так дергать и тратить 1-2 секунды, а остальные 58-59 простаивать? парсить страницы их не нужно, нагрузка на cpu минимальная, только на разбор заголовков.
Опять же вот такой момент... например есть пост с овердохуя картинками, аля паравоз: http://joyreactor.cc/post/3219662
Брать только первую картинку в расчёт или все? А если кто-то позже запостит только одну картинку которая есть в этом паравозе, считается ли тогда это баяном?
Брать только первую картинку в расчёт или все? А если кто-то позже запостит только одну картинку которая есть в этом паравозе, считается ли тогда это баяном?
>например есть пост с овердохуя картинками, аля паравоз: http://joyreactor.cc/post/3219662
та то еще хуйня,
я полный sg фотосет лил http://old.reactor.cc/post/2740401
>Брать только первую картинку в расчёт или все?
офк все.
>А если кто-то позже запостит только одну картинку которая есть в этом паравозе, считается ли тогда это баяном?
само собой.
та то еще хуйня,
я полный sg фотосет лил http://old.reactor.cc/post/2740401
>Брать только первую картинку в расчёт или все?
офк все.
>А если кто-то позже запостит только одну картинку которая есть в этом паравозе, считается ли тогда это баяном?
само собой.
У меня сейчас достаточно много сложностей в личной жизни, изза чего в очередной раз никак не могу закончить все это добро
Заново парсер собирает весь реактор уже месяц, и работ осталось практически с гулькин нос. Так что скоро будет
Заново парсер собирает весь реактор уже месяц, и работ осталось практически с гулькин нос. Так что скоро будет
На тему донатов. Все что я получил с момента отключения баянометра - 13$ на патреоне и 50 грн на webmoney, о чем готов предоставить скриншоты. Думаю очевидно, что это ни о чем)
После создания нового баянометра я скорее всего выложу алгоритм поиска в общий доступ, на случай, если со мной чтото случиться, или просто ктото захочет сделать баянометр по личной коллекции
привет. сорь, увидел сообщения еще вчера, но совсем вылетело из головы ответить на них.
про донаты то была шютка для привлечения внимания, не бери близко к сердцу). в духе будто бы ты из-за тех 13 долларов скрываешься в мексике)
если будет, то хорошо. все же у тебя была рабочая версия, которая справлялась со своей задачей. и значит, что у тебя будет несравнимо меньше косяков, чем если кто-нибудь набросал бы свой с нуля. поэтому приоритет отдается тебе и только тебе.
>я скорее всего выложу алгоритм поиска
кстати да, было бы здорово. на реакторе довольно много людей близких к теме и я думаю многим было бы интересно почитать. ну и лично мне было бы интересно узнать как ты решил проблему поиска хешей с расстоянием хемминга
про донаты то была шютка для привлечения внимания, не бери близко к сердцу). в духе будто бы ты из-за тех 13 долларов скрываешься в мексике)
если будет, то хорошо. все же у тебя была рабочая версия, которая справлялась со своей задачей. и значит, что у тебя будет несравнимо меньше косяков, чем если кто-нибудь набросал бы свой с нуля. поэтому приоритет отдается тебе и только тебе.
>я скорее всего выложу алгоритм поиска
кстати да, было бы здорово. на реакторе довольно много людей близких к теме и я думаю многим было бы интересно почитать. ну и лично мне было бы интересно узнать как ты решил проблему поиска хешей с расстоянием хемминга
Тем не менее тебе когда еще говорили - выложи старую рабочую версию и пили новую, была бы видимость работы были бы и донаты
Чтобы написать коммент, необходимо залогиниться