Search like a pro! / dev :: реактор

dev реактор 

Search like a pro!

Реактор переехал на новый полнотекстовый движок - elasticsearch!

dev,реактор

Теперь можно использовать упрощённый синтаксис для поиска. Полное его описание можно найти тут.

Приведу пример: вы ищете котов и делаете запрос кот. Первым ответом идёт Батон кота. Но вы не хотите батон, поэтому делаете запрос кот +-батон (плюс немного не интуитивен, но в полной документации объяснено, почему он нужен). Теперь там котики одессы, и чтобы их тоже исключить из поиска, делаем запрос кот +-батон +-одессы.

В ранжирование добавлен рейтинг - то есть посты с хорошим рейтингом стоят выше при прочих равных. Если вам нужно добавить в поиск какой-нибудь фильтр по рейтингу, то выскажите свои мысли в комментах.

Готовятся к выкату новые большие буковки для нового дизайна. 


Подробнее

dev,реактор
Еще на тему
Развернуть
То то он лагал последние дни и грузился с трудом.
Ну добро, слава Вождю!
Ояебу. А зачем такой большой шрифт?
*при написании коммента
+++
Я аж теряюсь, нахуй.
да, в форме написания коммента чего-то большой шрифт вылез, поправим.
И в постах также огромный стал. нафиг надо.
ну так и сделали бы на олде шрифт побольше
стало совсем нечитабельно
Как по мне это просто дело привычки
нет. тут нужно поиграть со шрифтами
You Died
Играл со шрифтами, проиграл.
Эсука бля, не трогай бляй олд он идеален.
олд вообще не трогают
читать кстати удобнее стало
не согласен
читать стало тяжелее

а ещё очень бесит, что набираешь коммент одним размером шрифта, а публикуется другим
А у меня все норм норм вроде, я вообще изменений не заметил.
ну тут на вкус и цвет. было бы хорошо,если б можно было этот шрифт включать и выключать как сейв режим-все в плюсе
Точно, у меня теперь глаза вытекают.
О.
А есть техподробности?
Какого размера кластер, есть ли ротация инедксов, какие аналайзы висят на поисковых полях?
Пишите наживую или отложено батчами?
не выёбывайся
2 сервера в кластере, что такое ротация индексов и аналайзы я не знаю.
Пока пишется раз в день, возможно частоту увеличу. Обновлять вживую навряд ли в ближайшее время буду.
Поcлe определенного количества документов в индексе, эластик начинает тормозить на запись и чтение. Обычно делят индексы по месяцам. Аналайзы - analyzer. Нужно как-то нормализовывать текс для поиска. Хотя бы простейшее стемирование, ну или морфологию, как советуют ниже.
на самом деле эластик по дефолту очень хорошо это делает. тюнить надо аналайзы только когда явная херня происходит и ты понимаешь чо ты делаешь
Не работал с кириллицей в эластике. Для буржуйских языков приходится принудително выбирать стемеры и раскладывать результаты в разные поля.
от задач зависит, если тебе не уперлось прям семантический поиск, то автоматом эластик неплохо справляется. если есть задача строить типа гугл, то тогда надо извращаться. я к тому что если я например буду искать сисьски, одним словом, то мне с 99% вероятностью хватит и того как эластик автоматом распарсит чо в него закинули и найдет и там.
У меня словоформы есть и иногда пользователь опечатывается, так что приходится тыкать во все это.
это партизация таблицы называется(деление таблицы по времени или по количеству записей)
в яластике нема таблиц, это ж nosql, там индексы
в основном индексе 4321243 документов, 14.3gb данных. Пока скорость устраивает.

Аналазйер:

'tokenizer' => 'standard',
'filter' => [
'english_possessive_stemmer',
'lowercase',
'russian_stop',
'english_stop',
'russian_stemmer',
'english_stemmer',
],
весь реактор за все время 14 гигов в индексе? тогда вообще не парься за ротацию, мы например ротируем когда индекс за сотню вылазит, а иногда и за две, обычно это три-четыре недели
О, чувак, подскажи ламеру по эластику - прирост примерно по 100к записей в день, как правильно все это сконфигурировать чтобы потом искать? Запросы по поиску обычно либо в пределах 7-14 дней, либо в пределах месяца. Очень редко когда надо за более старые даты искать (сейчас - примерно никогда, в будущем, возможно, будет немного чаще).

Сейчас у меня единый индекс на 24млн записей/31 гиг и я бы, конечно, не сказал что по нему медленно ищется (в пределах 1 секунды), но если можно оптимизировать - с удовольствием сделал бы оптимизацию этого дела. Просто даже не знаю с какой стороны подступиться.
да легко, делаешь разбивку на индексы по дням, с одинаковым паттерном, типа moymegaindex-2020-12-07 , а потом просто когда делаешь поисковый запрос указываешь в качестве индекса для поиска moymegaindex-* или moymegaindex-2020-* ну ты понял принцип, можно и посложнее типа через запятую индексы перечислять, например, просто как два пальца. сорри что не отвечал, ток от вых отошел
Ок, спасибо! Буду ковырять на новогодних праздниках.
>4321243
А скролами ищете или max_result_window выкручен?
не знаком с этими людьми
max_result_window по дефолту 10000. в тот момент, когда from + size будет больше этого значения эластик скажет "Э"
скролл - это когда ты создаешь сущность с определенным запросом и идентификатором и дальше при пагинации просто получаешь следующую пачку документов из эластика по идентификатору скролла.
У нас всего 100 страниц по 10 постов может показываться. То, что дальше - игнорируется.
Сентимент анализ к постав будете делать как метрику?
Что насчёт извлечения терминов для формирования дополнительных тэгов?
ротация индексов это когда у тебя по какому-то триггеру закрывается индекс, возможно архивируется, а вместо него открывается новый. аналайзы это как у тебя поля парсятся, просто правила на то чо в поле должно быть, нужно для специфической фигни типа поле поделить на ноль или посчитать кол-во строк в текстовом поле, типа если неправильно распарсилось(проанализировалось) то не даеть делать такое шаманство
а старый шрифт оставить можно?
можно, оставляй
1. изменить шрифт
2. добавить боярскую функцию "вернуть старый шрифт"
.
.
.
profit
Блять, я зашел с компа на реактор и хочу сказать, что новый шрифт реактора — кромешный пиздец
ура, наконец-то, спасибо
немного стремновато использовать этот плагин для 6.0 на текущей версии элкстика (7.10). Поэтому я использую их встроенный русский анализатор.
Там сказано использовать Hunspell для версии >=6.0
we've got lé problém
10-е место +56.97 от TesterTester
Ну всё логично - тестер нашел баг верстки.
сейчас вбиваю в поиск по избранному посты с тегами секретных разделов, и выдает "нет записей", хотя они определенно точно есть, на тег подписан, режим nsfw
это как-то связано с обновой?
а вообще, было бы круто, если бы была функция поиска с опцией игнора блоков тегов или игнора блоков пользователей.
хуйня.
захожу в свое избранное, на первой же странице вижу контент из секреток.
что ты на это скажешь, старая пизда?
А где на реакторе раздел избранное?
ооо дякую. Это синоним закладок.
секретные разделы будут видны только на порнреакторе в поиске
that's painful.
а чего? не проще сделать везде видно, а в поиск при включеном нсфв просто добавлять автоматом +-nsfw ?
А если все эти свистоперделки несомненно важные нововведения оставить на основном рекаторе и его ответвлениях, а на олде оставить как было?
ёптваюмать у тебя избранного.
Я только-только 200 страниц у себя разгреб и свел до пары десятков.
Добавить эту информацию на страницу поиска.
Что со шрифтами? Мне страшно!
Не было печали, апдейтов накачали.
О, а как реализовал обновление рейтинга в эластике? он же достаточно часто меняется
А под мобильную версию шрифты поболбше тоже завезут?
17:41 I 9,2 КБ/с «“.il СЮ û A rri.joyreactor.cc/post/4601C © Полная версия Joy Rea cto г I п"ввет-ка|а I Новое (+9 Хорошее Лучшее (+1-1616) Бездна кока dey реактор. Search like a pro! =еактсэ переехал на новый пслнэ-екстэеый движок - elasiicsearcM В * elastic Теперь можно нспсльзсзетъ
собираем теперь на алмазный бронепоезд. в аждйу слаффа)
А можно подсказку на строке поиска? +- неинтуитивно, не узнал бы никогда. И ещё автодополнение тегов при наборе? позязя
ссылку на описание синтаксиса я давал - https://www.elastic.co/guide/en/elasticsearch/reference/current/query-dsl-simple-query-string-query.html#simple-query-string-syntax

позже в хелпу добавим краткий перевод.
хочу напомнить, что перевод так и не добавили
а его бы на страницу результатов поиска кратенько вкинуть не помешало
я вот уже полчаса не могу найти комикс. потому что по дефолту поиск работает так как хочет, а не так как нужно.
пришлось вот даже твою инструкцию искать
У них так со всей документацией, не только с поиском.
Можно, пожалуйста цвет текста понасыщенее? А то даже в очках ахуеть как тяжело его читать.
Да пожалуйста, зайка.
О чё вспомнил - а где тот прикольный чел который полгода назад всех бесил цветными комментариями? Блять ник не вспомню, Витаминус что-ли
Vаlikon его звали. Он пропал после того, как из-за его фонтанирующей деятельности на глагне функцию блокировки пользователя распространили и на комментарии.
Эх, весело было смотреть как с него у всех горели жопы. Хоть и не могу припомнить ни 1го комментария и того о чём он там писал
Да вон он припёрся, точнее один из его левых акков, Светононосец который.
Не пизди! Я твинк Мишванды!
We all are.
Ну и хули тут веселого? Вон мастера все вспоминают как деда без таблеток, который выстреливает в комментах 50/50 (или дрочит себя твинками).
А валидол чо? Да ничо. Даже имя его никто не помнит, Валинора этого.
Я уже испугался, что ты сделал это при помощи верстки, а не гифкой
Так, паажди, щас попробуем
Этот черный недостаточно черный?
В самих комментах норм. Но кагда коммент пишешь - он серый пиздец, и текст в посте тоже. Как будто пепел насыпали.
Кот ± батон =
И комментарии редактировать можно будет? И при написании окошко появится с шрифтами, размерами и цветами текста? И аватарки теперь можно ставить более 100кб? Ну, все вот эти вот навороты... из сайтов двадцатилетней давности
замолчи еретик!
Ты чё ебанутый? Может тебе ещё блять окно со смайликами прикрутить?
Хех, даже мемогенератор свой. (К слову, а откуда туда вообще заходится?)
А вот лучше идея окошка со смайлами:
 Добавит #• и@м я только в ознакомительных целях. Поел al.net Правообладателям
с главной страницы сайта. внизу ссылка есть
И в правду, на виду маячит. Хотя всё равно обычно как-то обходился нахождением нужного в гуглопикчах. Но лучше иметь, чем не иметь.
Действительно
Почему я не могу найти секретные разделы?)
Потому что они секретные
А можно альтернативную сортировку по времени поста? Часто ищешь пост который недавно видел, а в поиске посты вперемешку.
Дата поста тоже участвует в ранжировании и чем новее пост, тем он выше будет стоять при прочих равных
Присоединяюсь. Очень давно нужна возможность упорядочить поиск по дате.
Поддерживаю
Сортировка по дате нужна
На порнхабе бы такой поиск
Почему первым выходит этот самый батон кота? И по дате и по рейтингу и по числу комментов он не в топе и не самый свежий
потому, что там больше всего упоминается кот, наверное. Вообще, у нас поиск больше заточен на "помню пост, где было что-то вроде зелёный кот, хочу найти", а не "покажи мне лучшие картинки с котом". Если тебе хочется что-то последнее и самое хорошее - то это в лучшее тега идти.
Ну вы поняли да?
"Мне нужны цифры"
"ты знаешь правило"
Новые шрифты...
Пездец... верните как было
Шрифт гАвно, давай по-новой
плюс-минус все понятно
А когда завезут HTTPS ?


не раз уже объяснялось
Рассказывают, что под https блокировка одной страницы роскомпозором приведёт к блокировке всего ресурса, но на самом деле, через https не получится майнить на беззвёздочных юзернеймах.
чего делать??
Ух бля
Офигенно, надеюсь не заддосят.
Ну так, плюс-минус неплохо. :D
Повторяешся
На хентайных сайтах похожие поиски с +- стоят, привыкать долго не придётся
Я так понял ты о хентай тян?)
Забавная штука, только постик бы запилили по синтаксису для юзверей обыкновенных. Хотя так то там не так много этого синтаксиса.
Это дико раздражающий вариант поиска! А нельзя если я ищу "кот" то сначала вывести мне именно полное соответствие "кот" а потом уже остальное ?
это же делается элементарно в 2 поиска сначала полное соответствие заголовка или тэга а потом уже полнотекстовый чтоб добавлять всякий трешак с батонами и одесами
Новый дизайн? Эт чего теперь на old.old.reactor заходить?
Так это поэтому поиск Секретных Разделов чудит? Друг заметил...
Не понял нахуя нужно, если сделали поиск по множественным тегам
Кот+батон
ж А Я
Хвала Вождю, это произошло.
А можно прикрутить поиск по тегу "я тут недавно такую хуйню видел"?
  ▲
▲ ▲
Чё-то как-то совсем не так должен выглядеть текст, если он хочет быть читабельным
Í& JoyReactor CD 1 Привет Vétala [>C Выход Mik JoyReactor УС Инкапсуляция и полиморфизм ■ ЛЕНТА ОБСУЖДАЕМОЕ ЛЮДИ О ПРОЕКТЕ СЛУЧАЙНЫЙ ПОСТ Новое (+33275) Хорошее Лучшее (+2733) Топ за неделю НОВЫЙ ПОСТ ЮМОР ■Пт Леночка Бездна Monika (Doki doki Literature club) Визуальные новеллы
Спасибо за инструкцию.
А то давно не понимал как искать.

Захочешь к примеру "Поттериана r63"

А он тебе и того другого. По сути OR вместо AND.
Поменяли поиск и ладно, всегда пользовался только поиском по тегам, потому что от обычного было мало толку. У меня только один вопрос - когда тормозить то перестанет?
Баяны часто удобно искать по дате.
@koka раз уж пошла такая пьянка, возможно уже спрашивали, а есть ли возможность фильтровать посты по двум и более тегам сразу? Я не про поиск, а именно про теги.
но ведь поиск работает по тегам и ты можешь через него это сделать
Я понимаю. Но это не совсем то. Теги это структурированная информация (особенно если модерируются). Качество будет несравненно выше.
Ну так и говорят, что можешь ввести два тега и будет идти фильтрация по ним.
Результаты поиска Запрос: Теги (через запятую): лягушки, anon, □ Искать только в моем избранном ОТФИЛЬТРОВАТЬ anon гифки X анон X anon X лягушка X Создатель поста:
А. Всё понял. Там отдельное поле для тегов а не общее. Круто. Спасибо. Буду юзать
так, блэт, поиск не работает по тегу r34?
зачем нам недопоиск?
так и раньше же вроде секретные разделы в поиске не появлялись - только на порнреакторе.
нет
раньше было очень удобно вбить в поиск например любую диснеевскую принцессу, а в теги добавить r34 и получить себе целую страницу желаемого фап-контента
а ты подписан на r34?
конечно
вроде поправил - для регов теперь показываются секретные разделы.
Кстати, у меня вот почему-то время на реакторе не совпадает с местным на 6 часов
время берётся из твоего браузера
да, теперь снова работает
спасибо
нет, раньше работало и на основном, при наличии подписки на секретные разделы
Одесские котики расстраиваются, если вы исключаете их из поиска
Neo Neo04.12.202021:00ответитьссылка 2.6
Я уже думал что у меня глаза на жопу вылезли или браузер попердолило.А НЕТ новый шрифт.
Глазам больно и не привычно.Толи шрифт говно толи тупо с непривычки.
+- ? Что это за уёбыщная конструеция. Минус то один никак не оставить?
Это такой язык запросов у эластика.
Дело в том что, например, "кот батон" означает "кот ИЛИ батон". Поэтому запрос "кот -батон" означает "кот ИЛИ НЕ ДОЛЖЕН ИМЕТЬ батон".
Запрос "кот +батон" означает "кот И ОБЯЗАТЕЛЬНО батон".
Соответственно "кот +-батон" будет означать "кот И ОБЯЗАТЕЛЬНО НЕ ДОЛЖЕН ИМЕТЬ батон".
есть такая шняга как default_operator который ты можешь указать яластику в квери как параметр, передаешь туда AND и у тебя будет кот батон не кот ИЛИ батон, а кот И батон, соответственно кот -батон будет в данном случает кот И ОБЯЗАТЕЛЬНО НЕ ДОЛЖЕН ИМЕТЬ батон
Это да - но лучше по-умолчанию оставить оператор OR. Тогда лучше ищет.
а для того чтобы лучше искало с эндом надо тюнить сраную дистанцию между словами, потому что по умолчанию она по-моему 0, а соответственно оно найдет кот батон только если там идет подряд кот батон, а вот кот ест батон оно может и не найти. за это тоже параметр отвечает, сходу не помню, я таким не занимался, ток по доке помню
Кока сделал!
а можно както сортировать поиск по дате таки? А то постоянно хочется найти чтото, что недавно видел, вбиваешь по памяти тег, а тебе выходит вообще хер пойми какой порядок
Вижу профили обновили, симпотично!
Только зарегистрированные и активированные пользователи могут добавлять комментарии.
Похожие темы

Похожие посты