Уважаемые пользователи!
C 7 ноября 2020 года phpBB Group прекратила выпуск обновлений и завершила дальнейшее развитие phpBB версии 3.2.
С 1 августа 2024 года phpBB Group прекращает поддержку phpBB 3.2 на официальном сайте.
Сайт официальной русской поддержки phpBB Guru продолжит поддержку phpBB 3.2 до 31 декабря 2024 года.
С учетом этого, настоятельно рекомендуется обновить конференции до версии 3.3.

Тюним поиск

Здесь авторы постили бета-версии своих модификаций для phpBB 2.0.x. Внимание! Не устанавливайте бета-версии модов на работающие форумы!
atrus

Сообщение atrus »

Coagulant писал(а):Не слышал про однобуквенные предлоги к,л,м,н,п
Либо восклицания, либо результат явной ошибки. Неуверен, что их следует индексировать. По крайней мере ни разу нет встречал ситуацию, когда их пытались использовать в качестве ключевых слов. Соответвенно и в базу не надо... ;-) Но можно поставить на голосование...
Coagulant писал(а):P.S. Смешно слова в строчку вяглядят
Об этом можно подумать. Но их-то я как раз выкинул. Смысла они не несут, но втречаются, как ни странно - реже. Т.е. если плохо помнишь сообдение, то по ним можно попробовать поискать. С другой же стороны искать по "lol" никто не станет.
В итоге, при сотставлении списка руководствовался следующим:
1) Выкинуть слишком часто встречающиеся сразу.
2) Выкинуть явные ошибки
3) Выкинуть слова, неиспользуемые в качестве ключевых.

Если есть предложения об изменении критериев - давай. Так же можно рассмотреть и других кандидатов.
P.S. Предыдущий список рассматривать? (завтра достану статистику для них, у меня большая часть сохранилась... ;-) )
Аватара пользователя
Coagulant
Former team member
Сообщения: 955
Зарегистрирован: 19 лет 3 месяца
Откуда: Москва

Сообщение Coagulant »

Т.е. если плохо помнишь сообдение, то по ним можно попробовать поискать.
Верно подмечено. Поэтому добавлять в список нужно только при большом желаении. По умолчанию и так хорошо.
Насчет ошибок я сильно сомневаюсь, неужели настолько много описок в форумах, что их нужно включать в стоп-лист... Хотя достоверной информацией не обладаю, спорить не буду.

Вывод: оставляй всё как есть :)
Аватара пользователя
Егор Наклоняев
phpBB 2.0.4
Сообщения: 404
Зарегистрирован: 19 лет 6 месяцев
Откуда: оттуда

Сообщение Егор Наклоняев »

Раз пошла такая пьянка.
Может еще вот это удостся к поиску прикрутить?
atrus

Сообщение atrus »

2 Coagulant:
Как и обещал, по словам:
(те, что нашлись предположительно на форумах, а не по всему рунету, там где типичные стоп слова давали по ~800.000 штук)

Код: Выделить всё

надо            29
lol             897
можно           108
очень           53
там             77
про             593
просто          1103
вообще          146
хотя            43
всё             841626 (уже включено в стоп-лист, но через е) 
кстати          125
тоже            120
тут             329
даже            3
чтото           23669 (правда это ошибка, а "что" и "то" уже в стоп-листе. Может в список синонимов? ;-) )
без             71
вроде           56
ничего          68
Вот и думай об обоснованности их включения в стоп-списки... :roll: Хотя, возможно, имеет смысл добавить "lol".
Coagulant писал(а):Насчет ошибок я сильно сомневаюсь, неужели настолько много описок в форумах
Да вообще, кошмар! ;-) Пишут-то быстро, коррекции орфографии нет, да и сами - не блещут... Более того, если уж при попытке поправить нарываешься на грубость, что мол в сети не приянто... :roll:

Вот некоторые описки, изначально из Word'97 проверенные на наличие в форумах, даю разные, что бы было нагляднее:
(первая цифра - кол-во найденых правильных форм, вторая - ошибочной)

Код: Выделить всё

агрессор агресор         92538/1084
адекватный адэкватный    368/168
ажиотаж ажиатаж          746/1845
аккумулятор акумулятор   0/31345
аккумулятор акамулятор   0/18326
аккуратный акуратный     153/1994
аккуратно акуратно       0/32233
амплитуда амплетуда      37/437
баррикада барикада       44181/8172
больше больеш            8/3988
жизнь жихнь              50/1956
жизнь жизьнь             50/4073
жизнь жызнь              50/75709
инженер инжинер          1/20223
Т.е. я не утверждаю, что так на всех формумах, но то, что соотношение это отображает - пожалуй...

Добавлено спустя 6 минут 6 секунд:
Егор Наклоняев писал(а):Может еще вот это удостся к поиску прикрутить?
Супер! Это то, что я искал. Ещё бы для английского найти... :roll:
Но в этот движок такого не вставишь... Посмотрим, что там в 3.0 сделали, может и свой напишем... Но это - потом... ;-)
Аватара пользователя
Coagulant
Former team member
Сообщения: 955
Зарегистрирован: 19 лет 3 месяца
Откуда: Москва

Сообщение Coagulant »

Учитывая, что, форум, которым я заведую, очень маленький и узко специализированный, :) картина со словами у меня, естественно, была несколько другая.

Соотношение правильно/ошибочно навело меня на мысль о том, что, население безграмотно, :oops: а интернет это положение усугубляет :(

ЗЫ: Коррекцию орфографии можно попробовать сделать. Есть мод Spelling Cow
atrus

Сообщение atrus »

Coagulant писал(а):Соотношение правильно/ошибочно навело меня на мысль о том, что, население безграмотно
Не, просто пишут быстро. У меня временами вообще - чат. ;-)
Coagulant писал(а):Коррекцию орфографии можно попробовать сделать.
Практика показывает, что ей не пользуются... ;-)
Coagulant писал(а):очень маленький и узко специализированный
Я же не говорил, что всем обязятельно пользоваться списками... :roll:
Xpert
phpBB Guru
phpBB Guru
Сообщения: 5484
Зарегистрирован: 20 лет 1 месяц
Поблагодарили: 2 раза

Сообщение Xpert »

Вот еще список стоп-слов, кодировку только принудительно выставите в koi8-r при просмотре: http://snowball.tartarus.org/russian/stop.txt
Эксперт - это человек, который избегает мелких ошибок на пути к грандиозному провалу.
Любая более-менее сложная задача имеет несколько простых, изящных, лёгких для понимания неправильных решений
atrus

Сообщение atrus »

Я его ещё вчера видел. По статистике для форумов они излишни.
Xpert
phpBB Guru
phpBB Guru
Сообщения: 5484
Зарегистрирован: 20 лет 1 месяц
Поблагодарили: 2 раза

Сообщение Xpert »

atrus
Так не все, может выборочно? :)
Эксперт - это человек, который избегает мелких ошибок на пути к грандиозному провалу.
Любая более-менее сложная задача имеет несколько простых, изящных, лёгких для понимания неправильных решений
atrus

Сообщение atrus »

Ну, хорошо. :) Обмотаем голову мокрым полотенцем и пройдёмся ещё по одному списку... ;-) Что мы имеем? Из представленных слов, следующие уже находятся в списке:
и, в, во, не, что, он, на, я, с, как, а, то, все, она, так, его, но, да, ты, к, у, же, вы, за, бы, по, только, ее, мне, было, вот, от, меня, еще, нет, о, из, когда, если, уже, или, быть, был, него, до, вас, вам, себя, ей, может, они, есть, для, мы, тебя, их, чем, была, чего, будет, ж, тогда, кто, этот, того, тем, чтобы, нее, были, всех, при, об, эти, всего, них, том, такой, им.

Статистика по остальным:

Код: Выделить всё

со        181
ему       273
теперь    16341
даже      3
ну        40
вдруг     25
ли        186
ни        7
нибудь    184
опять     62
уж        972
сказал    671
ведь      40
там       77
потом     158
ничего    50
тут       329
где       46
надо      29
ней       83
сам       216
чтоб      132
без       71
будто     3
человек   547
раз       535
тоже      120
себе      135
под       176
жизнь     213
говорил   295
потому    296
этого     164
какой     585
совсем    118
ним       86
здесь     219
этом      497
один      132
почти     7
мой       187
кажется   64
сейчас    5
куда      223
зачем     145
сказать   664
никогда   36
сегодня   31
можно     108
наконец	112
два       249
другой    37
хоть      123
после     105
над       168
больше    646
тот       48
через     82
нас       139
про       593
какая     583
много     150
разве     12
сказала   681
три       89
эту       34181
моя       74
впрочем   11
хорошо    6
свою      107
этой      21423
перед     216
иногда    67
лучше     543
чуть      39
нельзя    205
более     9
всегда    120
конечно   116
всю       144
между     34
Причём, 2/3 из них у меня уже были проверены.

Насчёт "ли" и "нибудь" - интересно. Дело в том, что движок phpBB удаляет дефисы, а они, как раз, как правило, пишется через них... :)

Вывод: учитывая разницу в распределении слов, типичный список для универсального поисковика мало подходит для форумного... Немногие хоть чего-то стоящие кандидаты: теперь, эту, этой...
Аватара пользователя
O
phpBB 1.4.2
Сообщения: 55
Зарегистрирован: 19 лет 2 месяца
Откуда: Восточное Дегунино, Москва, Россия
Благодарил (а): 2 раза

Сообщение O »

Есть ли в reindex_mod ограничение (сверху, снизу) по длине индексируемых слов?

Возможно ли в этом моде вообще отключить (на время или насовсем) индексацию?

Или это где-то было уже реализовано?
Житель района Восточное Дегунино (Москва, Россия)
atrus

Сообщение atrus »

O писал(а):Есть ли в reindex_mod ограничение (сверху, снизу) по длине индексируемых слов?
Снизу точно нет. :) Насчёт верха... Я не изучал этот вопрос детально. reindex_mod, равно как и rebuild search опираются на стандартные функции движка phpBB.
O писал(а):Возможно ли в этом моде вообще отключить (на время или насовсем) индексацию?
Не очень понятен смысл. Мод работает только когда админ его вызывает явно. Имеется ввиду отключение индексации добавляемых/изменяемых сообщений? Такое возможно, только уже отдельным модом. Но зачем?
Аватара пользователя
O
phpBB 1.4.2
Сообщения: 55
Зарегистрирован: 19 лет 2 месяца
Откуда: Восточное Дегунино, Москва, Россия
Благодарил (а): 2 раза

Сообщение O »

Затем, чтобы экономить место в базе (размер поискового индекса иногда составляет 60% от всей базы данных форума).

В vbulletin эти ограничения можно задать в админпанели форума.
Житель района Восточное Дегунино (Москва, Россия)
atrus

Сообщение atrus »

Но тогда поиск будет работать плохо. Это надо рассматривать как запрос на мод, отключающий функцию поиска и индексацию вообще? ;-)
Аватара пользователя
O
phpBB 1.4.2
Сообщения: 55
Зарегистрирован: 19 лет 2 месяца
Откуда: Восточное Дегунино, Москва, Россия
Благодарил (а): 2 раза

Сообщение O »

Да. На некоторых форумах поиск вообще не нужен. Поисковый индекс только отнимает место.
Житель района Восточное Дегунино (Москва, Россия)

Вернуться в «Бета-версии модов для phpBB 2.0.x»