Что это?Это CLI crawler, для выкачивания изображений (включая фул), gif, mp4, webm из страницы, кото / reactor-crw :: сделал сам (нарисовал сам, сфоткал сам, написал сам, придумал сам, перевел сам) :: парсер

парсер сделал сам песочница reactor-crw 

Воспользовавшись избытком свободного времени и неисправимой привычкой лепить велосипеды, решил реализовать удобный, хотя бы для себя, способ выкачивания годноты с реактора. Плюс иметь возможность спасти то, что возможно уже завтра будет потерто копирастами или другими "обеспокоенными".

парсер,сделал сам,нарисовал сам, сфоткал сам, написал сам, придумал сам, перевел сам,песочница,reactor-crw

Я видел несколько схожих решений и они либо не уже поддерживаются, либо являются подключаемыми библиотеками. Какие-то generic решения я не искал (см. пункт про велосипеды).

Что это?

Это CLI crawler, для выкачивания изображений (включая фул), gif, mp4, webm из страницы, которую вы укажите и сохранит все куда скажете. Если crawler найдет на странице пагинацию, то он попытается выкачать каждую страницу. Хотя вы можете указать так не делать.

Ссылка на проект на github.

Как начать?

Скачайте билд и запустите его из командной строки (для windows тоже). Windows может ругаться потому как это хрен пойми чей билд. Мак может ругаться потому что не может проверить поставщика. Линуксу насрать. Выполните .\reactor-crw_0.0.1_Windows_64bit.exe --help (либо ознакомьтесь с доступными флагами на странице github).

Пример запуска на windows:

Краткий FAQ

В:Какие страницы можно передавать?
О:Любые. Передайте ссылку на тег и будет выкачан весь контент по нему. Или ссылку на закладки. Если передать ссылку на конкретный пост, не забудьте указать флаг -o (--single-page).
В:Почему некоторые изображения не скачались?
О:Если качаете NSFW, то не забудьте указать флагом свои куки (посмотреть куки можно в браузере).
В:Что делает флаг -w (--workers)?
О: Насколько шустро все отработает. Укажите слишком большое значение и реактор вас накажет. Для тега в ~4500 изображений я ставил 3.
В:Ничего не работает/не качает. Какая-то ошибка и все.
О:Текущая версия далека от идеала. Если поделитесь деталями ошибки - буду весьма признателен.
В:Можно ли человеческий UI для всего этого?
О:Можно. Если кто-то умеет в UI, то я только за.
Если остались вопросы, постараюсь ответить в комментариях.

Подробнее


парсер,сделал сам,нарисовал сам, сфоткал сам, написал сам, придумал сам, перевел сам,песочница,reactor-crw
Еще на тему
Развернуть
Занятная вещица. А все, что я отложил в избранное оно сможет скачать?
Legolazz Legolazz 18.10.202100:11 ответить ссылка -1.1
Так точно. -p "http://joyreactor.cc/user/ник/favorite". Но не забудьте указать куки -с.
Порождение винтов больших обьемов...
Он работает на контенте скрытом "заблочено по запросу правопидорасов"? Или он скачивает только то что и сам можешь увидеть?
agri agri 18.10.202100:13 ответить ссылка 1.3
А разве оно скрытое, а не удалённое?
Id поста есть? есть? значит пост на месте
Если инет тупит, то иногда может погрузится сам контент. А уже потом веселый экран. И так же иногда вылезает от побочных тегов. И через KellyC открывается. крч все муторно.
По сути, только то что "сам видишь". Т.е. то что все видят плюс то что видно через твой акк, если используешь куки флагом -с.
Через апи можно вытащить потертые копирастами, цензурой изображения.
ivdos ivdos 18.10.202101:39 ответить ссылка 0.3
Или через m.joyreactor.cc
В будущем думал добавить краулер и для апи, но пока просто html.
Стоп, стоп, стоп.. у джойчика есть апишечка?? О_О
Включите torghost && сделайте запрос через онион реактора.
FEAR2k FEAR2k 18.10.202106:46 ответить ссылка 0.0
KellyC Image Downloader работает на заблокированном по авторскому, по роскомпозорному; + позволяет писать комментарии/читать
просматривается в браузере, и есть возможность выкачивания (видео -инструкция https://disk.yandex.ru/d/E8TGuQoWOHW2yg )
https://chrome.google.com/webstore/detail/kellyc-image-downloader/mbhkdmjolnhcppnkldbdfaomeabjiofm
совместим с AutoPagerize https://chrome.google.com/webstore/detail/autopagerize/igiofjhpmpihnifddepnpngfjhkfenbp
и отдельно рекомендую еще поставить редирект с всяких непонятных поддоменнов на богоподобный old.reactor.cc - https://greasyfork.org/users/675552
TLD228 TLD228 23.10.202102:31 ответить ссылка 0.4
творение радиоволны с недавних пор очень плохо работает если более 100 страниц нужно для загрузки, надеюсь хоть тут нормально.
SWaad SWaad 23.10.202113:45 ответить ссылка 0.0
я не скачиваю по 100 страниц, ну т.е это смешно мало и обычно никогда с таким количеством проблем не возникало. даже проблем с выкачиванием 3911 страниц нет, если по 1200 загружать профили. однако ситуация меняется если один профиль будет содержать столько страниц.
раньше я вручную подгружал все страницы AutoPagerize и с помощью wget уже загружал по прямому линку изображения, но поскольку ркн и авторскому не отображалось, то эти пикчи скипались.
если затестишь этот cli и он нормально работает, то отпиши. тоже попробую, но пока что радиоволны для меня лучший вариант))
а под остальные сайты - pixiv, twitter; использую gallery-dl
TLD228 TLD228 23.10.202115:57 ответить ссылка 0.0
Добра тебе.
Russ_Dry Russ_Dry 18.10.202100:40 ответить ссылка 4.6
Работает только с реактором?
agri agri 18.10.202101:00 ответить ссылка 0.1
Да. Ссылку можно указать какую угодно, но правила парсера заточены именно под реактор.
Оно не украдет мой пароль?
Все уже давно знают твой пароль. Можешь смело использовать, ты нам нужен не до такой степени, чтобы ещё раз портить тебе акк.
Нет. Но опять таки, код открыт. При должном упорстве можно самостоятельно убедиться.
такие штуки не будут забивать канал сервера, делая остальным проблемы с доступом к реактору?
Mahin Mahin 18.10.202101:20 ответить ссылка -0.7
Главное не злоупотреблять флагом -w (--workers). По умолчанию 1. Рекомендую ставить не больше 4 и только там где действительно много контента. Но даже если создать большую нагрузку, сервер реактора быстро заблочит тебя (ненадолго).
Как то настроить под ВПН можно?
MAJI9R MAJI9R 18.10.202101:30 ответить ссылка 0.0
Есть какие-то особенности работы реактора под vpn? Я иногда сижу под vpn, но на работу парсера это никак не влияло.
О. Думал сам написать, но всё мотивации не было. Надо бы потестить.
есть же уже KellyC ?
Есть, но если я правильно понял, там можно работать только с тем, что добавлено в закладки. Я бы не хотел весь nsfw по ведьмаку добавлять в закладки только что бы скачать (тогда уж сразу скачивать проще). Здесь же можно просто указать ссылку и будет выкачан весь тег.
нет, у меня рядом с постом кнопочка скачать, без добавления в избранное
Ну вот... 64 бита... :(
Приехала моя кобылка
KeepClear KeepClear 18.10.202108:48 ответить ссылка -0.3
Как-то писал подобный скрипт, который качал все картинки с лисами из фэндома с ними, и сортировал по видам, отбрасывал рисунки и в общем неплохо ориентировался в тэгах. Но в какой то момент понял, что реактора для этого мало и отказался от этой идеи
Erop1928 Erop1928 18.10.202109:25 ответить ссылка 0.0
А ничего, что есть встроенный wget? А?
Vinegar Vinegar 18.10.202109:36 ответить ссылка 0.1
Оп, кодопидор. Угомонись, днищенский вгет не всем удобен
skavem skavem 18.10.202110:11 ответить ссылка 1.1
Так у автора поста, поди тупо обертка над тем же wget-ом стоит, причем консольная. А команда будет отличаться на один аргумент.
Vinegar Vinegar 18.10.202111:11 ответить ссылка -0.5
43
44
45
46
47
48
49
50
51
52
53
54
55
56
57
58
59
60 61 62
63
64
65
66
67
68
func (t *HttpTransport) FetchData(url string) (io.ReadCloser, error) { req, err := t.prepareRequest(http.MethodGet, url) if err != nil {
return nil, err
>
res, err := t.client.Do(req) if err !=
y2k_ y2k_ 18.10.202109:55 ответить ссылка 0.5
* Что то на програмистском
jjmara jjmara 18.10.202110:32 ответить ссылка 0.8
надо еще возможность докачивать дельту.
Т.к. ради новых картинок, не хотелось бы докачивать еще раз все что там есть.
Да, это можно.
Чувак, работает на любой странице? А в ТОРе? а по ссылкам выкачивает?
На любой. В торе не пробовал, но должно быть все ок. Главное иметь возможноть получить респонс в html и парсер все вытащит. "а по ссылкам выкачивает?" собственно он сам находит ссылки на контент и скачивает.
Надо стащить.
У меня вопрос: а где взять избыток свободного времени?
Memfus Memfus 18.10.202114:23 ответить ссылка 0.2
Уволиться.
А говорили что нельзя интернет скачать.
Можно ли выкачать комменты ?
Нет, но если такая фича действительно нужна, то можно сделать. Как собственно и скачивание текстовых постов. Проблема только в формате, т.е. в каком виде это будет сохраняться у конечного пользователя. Если есть виденье как это можно реализовать - https://github.com/reactor-joy/reactor-crw/issues (создать issue и описать суть и результат), либо напишите тут коментом.
Я как лох и пидр сделал issue =)

напиши еще куда тебе донат кинуть
Все ок, так и надо. Донатов не надо, для реакторчан все безвозмездно.
Почему-то некоторые картинки неоткрываются и разрешение файла указано как 0х0 это недокачались получается?, можно как-то перекачать недоскачанные без повторного скачивания всех?
sporki sporki 19.10.202100:54 ответить ссылка 0.0
Пока что скачанные файлы не учитываются. Постараюсь как можно быстрее это поправить. Насчет битых файлов, то тут только нужно у себя воспроизвести. Скиньте ссылку на страницу/тег/пост (можно в личку).
Спасибо, уже разобрался файлы вроде не битые в тотал коммандере предпросмотром открываются, а в просмотрщике картинок FSViewer- нет, и через просмотрщик фотографий встроенный тоже открываются
sporki sporki 19.10.202117:31 ответить ссылка 0.0
И еще вопрос вот например по тегу написано 1000 сообщений а скачивается всего 400 , и я так понял это изза куков, я не понимаю как их правильно указать и какого они должны быть вида?
sporki sporki 19.10.202117:34 ответить ссылка 0.1
Нужен флаг -с. Типа так: -c "__utma=что-то; __utmz=что-то; _ga=что-то; showVideoGif3=1; joyreactor_sess3=id сессии; _gid=GA1.2.996184876.1634569741; __utmc=что-то; __utmb=что-то; __utmt=1"

Нужное значение кук можно увидеть например в консоли браузера (f12 для включения). Загрузите страницу с включенной консолью и во вкладке сеть одним из запросов будет joyreactor.cc. Кликнув по этому полю, будут показаны параметры запроса/ответа. Вкладка "заголовки", "заголовки запроса".
Во спасибо а то я просто вводил __utma, получается все куки нужно перечислить
sporki sporki 20.10.202106:26 ответить ссылка 0.0
а чего не сделал как у JDownloader чтобы с помощью https://www.editthiscookie.com/ экспортировать все в буфер обмена и затем вставлялся в какой-нить блокнот, директорию которой указываешь вместо "Типа так"
или некоторые юзают Get cookies.txt, тк сразу сохраняет в текстовой файл
TLD228 TLD228 23.10.202102:37 ответить ссылка 0.0
О. Это что за шелл на винде такой симпатичный?
Raz0r Raz0r 19.10.202117:36 ответить ссылка 0.0
Это Windows Terminal. Можно поставить через microsoft store. Затем на него накатывается https://ohmyposh.dev/docs/ . Довольно много гайдов уже есть.
Но по сути это все тот же powershell.
Во, Oh My Posh -- это здорово, спасибо.
Raz0r Raz0r 19.10.202120:25 ответить ссылка 0.0
А какие куки надо вставлять, чет не понял
RaCc0oN RaCc0oN 20.10.202101:02 ответить ссылка 0.0
Смотрите мой ответ sporki выше.
А как работать с поиском?
Можно ли ускорить процесс подсчета и скачивания?
http://joyreactor.cc/tag/pixiv110714, http://pornreactor.cc/tag/less - эти 2 тега реально не качает или я что то не так делаю? часто nsfw качает и без указания куки, но иногда не качает теги с какими ни будь лендскейпами - No links were found. Stopping...
glukkain glukkain 20.10.202115:15 ответить ссылка 0.4
Спасибо. Проверю.
Хочу поделиться простым способом вытасикивания кук при использовании линукса:

sudo tcpdump -vvAls0 | grep 'Cookie'

( из браузера мне их в виде строчки получить не удавалось )
Только зарегистрированные и активированные пользователи могут добавлять комментарии.
Похожие темы

Похожие посты
Реактор - это...
^¿ОоуР1еас1:ог
УС Реминисценция и ригидность
...новые знания
подробнее»

реактор - это... сделал сам,нарисовал сам, сфоткал сам, написал сам, придумал сам, перевел сам

Реактор - это... ^¿ОоуР1еас1:ог УС Реминисценция и ригидность ...новые знания
Итак, мне нужен рисунок тян реактора, который наиболее отображает действительность! hentai
□
X
Поделиться Вид	v О
							
		Н0	- • > domains > pars.hentai	V	О		Р Поиск: pars.hentai
Имя	Дата изменения	Тип	Размер
comieses	28.01.2021 0:01	Папка с файлами	
css	27.01.2021 23:59	Папка с файлами	
□ арр	27.01.2021 23:38	Файл "РНР"	2 КБ
□ index	27.01.2021 1:11	Файл "РНР"	2 КБ
□
подробнее»

php языки программирования парсер NSFW allhentai.ru сделал сам,нарисовал сам, сфоткал сам, написал сам, придумал сам, перевел сам

hentai □ X Поделиться Вид v О Н0 - • > domains > pars.hentai V О Р Поиск: pars.hentai Имя Дата изменения Тип Размер comieses 28.01.2021 0:01 Папка с файлами css 27.01.2021 23:59 Папка с файлами □ арр 27.01.2021 23:38 Файл "РНР" 2 КБ □ index 27.01.2021 1:11 Файл "РНР" 2 КБ □
zedns »
Посты
Секс-террор!
Учительница заставляла учеников делать ей..
Комментарии
Я зарабатываю по 760$ в день!
Зарегистрировал счет и теперь рублю бабло каждый день...
НОВЫЙ ПОСТ
Теги:
песочница Комиксы гифки красивые картинки geek Anime Эротика котэ игры
Введите теги (через запятую) ил
подробнее»

рисовал сам сделал сам,нарисовал сам, сфоткал сам, написал сам, придумал сам, перевел сам жизнь боль

zedns » Посты Секс-террор! Учительница заставляла учеников делать ей.. Комментарии Я зарабатываю по 760$ в день! Зарегистрировал счет и теперь рублю бабло каждый день... НОВЫЙ ПОСТ Теги: песочница Комиксы гифки красивые картинки geek Anime Эротика котэ игры Введите теги (через запятую) ил