ВАЛЕРИЙ, сразу Вас поправлю. Речь идет не о миллиарде сайтов, как Вы пишите, а о миллиарде ссылок на файлы найденные поисковой системой. Ftp-сайтов же в базе «Мамонта» на сегодняшний день всего порядка 23-х тысяч.
Следует помнить, что некоторые файловые архивы могут быть недоступны из-за определенных технических ограничений со стороны клиента (т.е. со стороны пользователя). Например, некорректно настроенная трансляция адресов, различные фаерволы (они же брандмауэры) и т.п. Доступ к некоторым архивам открыт только для определенных подсетей по региональному или какому-либо другому принципу.
Кроме всего прочего, в нашей базе действительно сохраняется информация о файлах на недоступных на текущий момент серверах. Эта информация выводится поисковой системой в последнюю очередь. Как можно использовать эту информацию, показано, например, тут: http://www.mmnt.ru/forum?open=1218698429_20947
Информацию о файлах найденных на ныне недоступных серверах можно в некоторых случаях использовать при дальнейших поисках в нашей или других поисковых системах.
Главное, что бОльшая часть базы содержит актуальную информацию и разрослась она довольно значительно с момента старта. На сегодня база содержит информацию о почти 2-ух миллиардах файлах. Общий объем рабочего индекса файлового поисковика превышает 200 гигабайт. Скоро его неизбежно придется сокращать, и сокращать естественно будем за счет исключения из недр индекса неактуальной более информации.
четверг, 17 декабря 01:49:23 2009 |
|