Заработал поиск на Авиабазе!

 
+
-
edit
 

Balancer

администратор
★★★★★
Наконец-то удалось нормально настроить поиск. Индексируются форумы, сама Авиабаза, некоторые сайты, типа testpilot.ru

http://airbase.ru/cgi-bin/search.cgi

Используется нечёткий поиск с учётом словоформ.

База данных пополняться будет ДОЛГО, так что многие страницы сразу не найдёте. Могу периодически отмечать сколько страниц проиндексировано (сейчас - 2831 страница. Всего их - около 100 тыс, кажется)

Обновления форумов индексируются лучше, практически в реальном времени (раз в 10 минут).

Поиск по форумам по-прежнему работает только в темах, к которым были обращения за последние 7 дней.
 
RU slipstream #22.01.2005 23:22
+
-
edit
 

slipstream

втянувшийся
Новый поиск лежит, кстати. Только не заметил с какого момента.

code text
  1. You don't have permission to access /cgi-bin/search.cgi on this server.
  2.  
  3. Additionally, a 403 Forbidden error was encountered while trying to use an ErrorDocument to handle the request.

+
-
edit
 

Balancer

администратор
★★★★★
Это давно. mnoGoSearch меня разочаровал. А htDig я ещё не прикрутил :)
 
RU slipstream #23.01.2005 00:08
+
-
edit
 

slipstream

втянувшийся
Ага, я ток-ток обратно шел, найдя другой тред на эту тему :)
Проблемы. [Alek#14.01.05 21:08]

Может какую-нибудь заглушку туда, временно, с сообщением?

Zeus

Динамик

А можно вообще озвучить текущие ограничения на поиск по форумам? А то я был несказанно удивлен, что сразу нашлось сообщение трехлетней давности :) Помнится, поиск по тексту был ограничен неделей...
И животноводство!  

Balancer

администратор
★★★★★
Zeus> А можно вообще озвучить текущие ограничения на поиск по форумам? А то я был несказанно удивлен, что сразу нашлось сообщение трехлетней давности :) Помнится, поиск по тексту был ограничен неделей... [»]

Грррррр..... Сколько можно писать - сообщения, к которым были обращения за последнюю неделю. При каждом прочтении старого топика он прозрачно для пользователя переносится из архива в основную БД. Каждую ночь все топики, к которым неделю не было обращения - сбрасываются в архив.

Вот в этой БД и идут все поиски.
 

Zeus

Динамик

Но если архивный топик "достали", в архиве, он надеюсь, остается? ;) То есть этот самый старый топик остается возможность найти снова (до истечения недели).

Интереснее, если я задаю поиск на две недели. Сообразит движок проискать обе базы - текущую на эту неделю и архив на следующую? :)
И животноводство!  
RU slipstream #23.01.2005 23:05
+
-
edit
 

slipstream

втянувшийся
2 Zeus

Роман неудачно поставил последнюю фразу. "эта БД" это та, которая "активная". По архиву поиска нет, кроме особых исключений. Потому что иначе переписывать много надо :P

Вот про это было полгода назад:

Серьёзная переделка БД форума [Balancer#09.08.04 14:09]
Архив постингов в отдельной таблице

Zeus

Динамик

Так вот я и удивляюсь - как я нашел топик трехлетней давности по тексту? Обычным форумским поиском. Правда, я довольно сильно сузил поиск (сообщения полгода назад и ранее, задан был конкретный автор), но все равно по подстроке не в заголовке, а в тексте. Топик явно был в архиве, давно не читанный...
И животноводство!  

Balancer

администратор
★★★★★
Zeus> Но если архивный топик "достали", в архиве, он надеюсь, остается? ;) То есть этот самый старый топик остается возможность найти снова (до истечения недели).
Zeus> Интереснее, если я задаю поиск на две недели. Сообразит движок проискать обе базы - текущую на эту неделю и архив на следующую? :) [»]

Ургх... Неужели я так непонятно объясняю? :D

Есть две БД. Одна - активная. Другая - архив. Для простого юзера архив прозрачен. При попытке чтения в нём, постинги из него переносятся в активную БД и хранятся там неделю с момента последнего прочтения. Прочтения, а не ответа! Все поиски по всему тексту идут только по активной БД. Вообще, стандартный движок форума ничего про архивную БД не знает. Перенос туда устаревших тем делается еженочным посторонним скиптом. А единственная правка кода форума в том, что при обращении к несуществующему топику, выполняется запрос его данных из архива с переьросом данных в авктив.

Т.е.:

Zeus>Топик явно был в архиве, давно не читанный...

Ты не можешь знать, когда он был последний раз читанный. Его мог посмотреть кто-то, зайдя из поисковой системы. Это могла быть какая-то неучтённая поисковая система. Это могло быть обращение к топику в день, когда к нему обращалась любая поисковая система, даже учтённая.

(Топики, к которым обращаются известные форуму поисковые системы достаются только на время до ближайшей полуночи - для поисковых систем не обновляется время последнего просмотра топика)
 

Zeus

Динамик

Хм... То есть ты имеешь в виду, что мне просто повезло? ;) Вообще, топик был похож на нечитанный, как будто не "компилировался" до этого. При первом заходе выглядел почти как UBB-шный (где и создавался :)), только потом принял "нормальный" вид...
И животноводство!  
+
-
edit
 

Balancer

администратор
★★★★★
Повезло :D

Тем более, что форум никогда не компилится при обращении, только при изменениях :)

В общем, запустил я индексацию по mnoGoSearch снова :D
Пользуйтесь... (хотя весь сервер оно оооочень нескоро проиндексирует)
 
+
-
edit
 

Balancer

администратор
★★★★★
Проиндексировано уже 20 тыс. страниц.

Надо отметить, что на Gentoo Linux индексация идёт просто несопоставимо быстрее, чем на стоявшем раньше RedHat Linux 7.3 :)
 
+
-
edit
 
+
-
edit
 
+
-
edit
 
+
-
edit
 

Balancer

администратор
★★★★★
150 тысяч. Расчёт окончен :D

Кажется, проиндексирован весь форум.
 
RU Серокой #26.01.2005 12:43
+
-
edit
 

Серокой

координатор
★★★★
То есть теперь можно искать по сообщениям на форуме за любой период времени?
Больше не раскалятся ваши колосники. Мамонты пятилеток сбили свои клыки. ©  
+
-
edit
 

Balancer

администратор
★★★★★
Да. Естественно, на http://airbase.ru/cgi-bin/search.cgi :)

Только, не смотря на то, что большинство слов он отыскивает нормально (даже с учётом словоформ, кстати!), некоторые он не берёт по непонятной причине никак. Например, "модератор" или "администратор"... :-/ Написал разработчикам на форуме, жду ответа :)
 

Zeus

Динамик

Гы, какой избирательный поиск :D

P.S. А почему "Extended" не работает? Вообще, хотелось бы погибче, с заданием юзеров и дат...

Кавычки не понимает, чтобы словоформы отключить...

И между прочим, тот самый топик, на котором мне "повезло", он не находит. По тем же самым ключевым словам.
И животноводство!  

Balancer

администратор
★★★★★
Zeus> P.S. А почему "Extended" не работает?

Работает, и прилично :)

Zeus>Вообще, хотелось бы погибче, с заданием юзеров и дат...

Хм. Ну, как только (напишу), так сразу :)

Zeus> Кавычки не понимает, чтобы словоформы отключить...

Словоформы отключаются в Extended.

Zeus> И между прочим, тот самый топик, на котором мне "повезло", он не находит. По тем же самым ключевым словам. [»]

Может и не все топики ещё проиндексированы. Я же не могу посмотреть какие точно линки индексированы, какие - нет :) У него свой хитрый формат БД. А индексирует он именно страницы, а не базу данных...
 
+
-
edit
 

Balancer

администратор
★★★★★
Сбросил БД и начал индексацию заново :)
Оказывается, максимальная длина слова в mnoGoSearch задавалась не в символах, а в байтах. Было прописано 16, так что все русские слова от 8 букв и более не проиндексировались. Пришлось начать сначала :)
 
+
-
edit
 

в начало страницы | новое
 
Поиск
Поддержка
Поддержи форум!
ЯндексЯндекс. ДеньгиХочу такую же кнопку
Настройки
Твиттер сайта
Статистика
Рейтинг@Mail.ru