|
||||
|
Глава 4Секреты поиска в Интернете • Как функционируют поисковые машины и как правильно строить запросы • Специальные виды поиска • Эффективный поиск в Google • «Яндекс» на полную мощь • Поисковые программы • Онлайновый метапоиск • Пиринговые сети • Архив Интернета Поиск информации в Интернете – одна из самых частых операций, овладеть которой должен каждый пользователь компьютера. 4.1. Как функционируют поисковые машины и как правильно строить запросыСовременные поисковые машины представляют собой комплекс специальных программ, предназначенных для поиска информации в Интернете. Принцип их работы состоит в следующем: время от времени они просматривают веб-страницы и регистрируют появившиеся там изменения. На этой основе создается база данных ссылок на веб-страницы. При ее формировании поисковые машины обращают внимание на некоторые дополнительные элементы, например на то, как часто встречается слово на странице, выделено ли оно, сколько ссылок на данный документ есть на других сайтах и др. Все эти сведения также будут учитываться при поиске. Из-за необходимости постоянного обновления информации поисковые машины время от времени возвращаются к просмотренным ранее веб-страницам, чтобы найти и зарегистрировать появившиеся там изменения. Например, когда робот поисковой машины Google посещает сайт, он обращает внимание на две характеристики: слова на странице и место их расположения, то есть в какой именно части страницы они находятся. Обнаружив список адресов и соответствующих им ключевых слов, робот-поисковик сохраняет эту информацию в своей базе данных. При этом сохраняется информация о количестве (частоте) упоминаний слова на странице с использованием некой величины – веса слова. Как раз на основе этих данных поисковая машина формирует списки ссылок, упорядоченные по весу слов поискового запроса, а также с учетом его местонахождения (в ссылках, метатегах, заголовке страницы и т. п.). Следует заметить, что у каждого коммерческого поисковика есть своя формула для вычисления веса ключевых слов при индексации. Это одна из причин, почему по одному и тому же запросу поисковики выдают разные результаты. Пользователь, работая с поисковой машиной, задает запрос, в результате которого машина формирует список ссылок, упорядоченных по релевантности. Релевантность – это степень соответствия найденной страницы поисковому запросу. Поисковые механизмы на первых местах списка располагают документы, которые содержат максимум слов из поискового запроса. Найденные ссылки сортируются в зависимости от местоположения ключевых слов (в заголовке, в начале текста или в первых параграфах) и частоты их использования в тексте. Таким образом, вверху размещены ссылки на сайты, в которых искомые слова встречаются чаще всего. Поэтому основная задача пользователя во время поиска в Интернете – получить список ссылок, которые соответствуют поисковому запросу. Однако, несмотря на общие принципы работы и похожий интерфейс, поисковые машины отличаются по ряду параметров. Среди них: релевантность результатов, величина и частота обновления баз данных, скорость выдачи результатов и удобство работы. Наряду с этим существуют и другие различия: языки запроса, зоны поиска, глубина поиска внутри документов, методы определения приоритетов и др. Это является еще одной причиной того, что применение разных поисковых машин дает различные результаты. Итак, поисковая машина формирует список документов на основе сформулированного пользователем запроса. Если запрос не выражает в полной мере суть поиска, его результаты не будут соответствовать тому, что пользователю, собственно, нужно. Поэтому в первую очередь необходимо уметь правильно создавать поисковые запросы. Их составляют так, чтобы область поиска была максимально конкретизирована, а значит, сужена.
Таким образом, для эффективного поиска информации в первую очередь необходимо подобрать для запроса именно те слова, которые действительно несут основную смысловую нагрузку. У каждой поисковой машины своя уникальная методика поиска, от эффективности которой зависит успех поисковика: чем больше релевантность полученного списка ссылок, тем выше успех на рынке поисковых машин. Механизм поиска не только хранится в секрете, но и регулярно меняется. В настоящее время поиск из документов осуществляется не только по строгому соответствию введенному запросу – все поисковые машины, которые работают с русскоязычными запросами, умеют проводить морфологический поиск. Это означает, что поиск осуществляется по всем формам слов, заданных в запросе (то есть не только в определенном падеже и числе, но и в других). Согласно общей классификации поиск разделяют на простой, расширенный и сложный. Чаще всего большинство пользователей применяют первый вариант. Принцип его применения состоит в формулировании запроса и получении списка ссылок, соответствующих ему. Самая важная задача этого этапа заключается в том, чтобы правильно подобрать слова для поискового запроса. Они должны быть, во-первых, характерны для документов, которые вы ищете, а во-вторых, не характерны для нерелевантных документов. При использовании нескольких слов в поисковом запросе нужно знать, как именно будет производиться поиск – по каждому из слов в отдельности или же по всему запросу в целом. Ответ на этот вопрос зависит от того, какой логический оператор используется по умолчанию при обработке запроса: AND (поиск по всем словам) или OR (по каждому в отдельности). Обычно поисковые машины по умолчанию используют первый вариант. Это означает, что в ответ на запрос информационная компетентность поисковик будет искать сайты, в которых это словосочетание встречается полностью. Для использования других логических связей необходимо применить иные логические операторы. Их синтаксис обычно уникален в каждой поисковой машине. Рассмотрим их ниже. 4.2. Специальные виды поискаЕсли вы хотите найти в Интернете не список сайтов, а нечто более конкретное, например программу или книгу, в этом случае вам лучше воспользоваться специальными поисковыми машинами или же, в крайнем случае, специальными возможностями обычных поисковых машин. Для поиска файлов можно воспользоваться поисковой машиной FileSearch.ru (http://www.filesearch.ru). FileSearch.ru – это поисковая система, осуществляющая поиск среди миллионов файлов, собранных практически со всех российских FTP-серверов и нескольких тысяч зарубежных серверов. База поиска постоянно обновляется (рис. 4.1). Если традиционные поисковые машины ищут на WWW-серверах и HTML-страницах файлы и каталоги по их содержимому, то FileSearch.ru ищет на FTP-серверах по именам самих файлов и каталогов. Если вам нужна какая-либо программа, игра и т. п., то на WWW-серверах вы, скорее всего, найдете их описание, а найти и скачать нужный файл можно именно с помощью FileSearch.ru. Кроме файлов, система умеет производить поиск изображений, а также MP3– или видеофайлов. Принцип ее работы аналогичен поиску с помощью обычных поисковых систем. Метапоисковая система http://www.metabot.ru умеет искать самые разнообразные файлы (MP3-, видео– и др.). Прежде всего необходимо выбрать нужный вид поиска, установив соответствующий переключатель в нужное положение. Затем следует ввести поисковый запрос. В результате программа предложит список найденных ссылок. Поиск файлов по FTP-серверам поможет произвести система Rambler-ftp (http://ftpsearch.rambler.ru/db/ftpsearch). С ее помощью также можно искать файлы самых разнообразных форматов. Пользователям системы доступен простой и расширенный поиск. По схожему принципу работает сервис http://ru.findfile.net, который ищет более чем по 1900 FTP-серверам. Воспользоваться простым инструментом поиска по FTP-серверам можно на сайте http://ftpsearch.orbita.ru. Англоязычные поисковики размещены на сайтах http://www.ftpplanet.com, http://www.shareware.com. Рис. 4.1. Главная страница поисковика FileSearch.ruПоисковая система Google позволяет осуществлять множество видов поиска. Доступ к некоторым из них возможен на странице англоязычного Google по адресу http://www.google.com. Например, воспользовавшись разделом Images, можно задать поиск картинок, News – поиск новостей. Полный список поисковых возможностей Google представлен на странице по адресу http://www.google.com/intl/en/options. Наиболее популярными среди них являются поиск электронных книг (http://books.google.com) и поиск статей (http://scholar.google.com). 4.3. Эффективный поиск в GoogleРасширенный поиск (в зарубежных системах – Advanced Search) позволяет получить меньше ссылок, чем простой, но при этом их релевантность значительно повышается. В большинстве поисковых машин эта функция реализована. Для этого предназначена специальная ссылка на главной странице, по которой переходят на страницу расширенного поиска. В данном режиме с помощью специальных средств можно задать более точные критерии отбора и уточнить область поиска. В этом случае расширенным является только набор критериев, а вот область поиска чаще всего существенно сужается. Расширенный поиск в GoogleРассмотрим некоторые инструменты расширенного поиска. В поисковой системе Google доступна настройка типа содержания запроса на искомых страницах. При этом возможны следующие варианты: • со всеми словами – в этом режиме поиска формируется список всех индексированных страниц, содержащих все ключевые слова, в произвольном порядке. При этом сохраняется вероятность получения результатов, не соответствующих поисковому запросу; • с точной фразой – в данном режиме поиска составляется список страниц, содержащих фразу, точно совпадающую с ключевой, знаки препинания при этом игнорируются. Обычно поиск точной фразы будет проводиться, если поисковый запрос взять в кавычки; • с любым из слов – в результате поиска составляется список всех индексированных страниц, содержащих любое из слов поискового запроса. Нередко в этом случае число полученных ссылок огромно. Поиск по любому слову может быть удобен в случаях, когда пользователь не уверен в правильности подбора ключевых слов. Например, если вы точно не знаете, как называется какой-то термин, введите оба названия; • без слов – если вы хотите исключить некоторые слова из результатов поиска, укажите их в данном поле (рис. 4.2). Рис. 4.2. Окно расширенного поиска GoogleБольшинство поисковых машин в параметрах расширенного поиска позволяют ограничить найденные ссылки рядом других параметров. Например, вы можете задать поиск страниц только на одном языке (параметр Язык), ограничить сайты определенным диапазоном дат обновления (это удобно, если нужно найти, например, только самые новые документы). Кроме этого, можно задать поиск документов определенного типа (например, только HTML, DOC, RTF, PPT или PDF-файлов) – для этого предназначен параметр Формат файла. Многие поисковые машины позволяют ограничить поиск фрагментом страницы. Так, с помощью параметра Упоминание вы можете указать, что фраза поискового запроса встречается только в заголовке страницы или в основной части, в адресе или в любом месте страницы. Еще одно удобное решение, доступное среди параметров расширенного поиска, – возможность искать фразу поискового запроса на определенном сайте. Такая возможность имеется у всех известных сегодня поисковых машин, она позволяет получить список документов с одного сайта, соответствующих его запросу. Сложный поиск в GoogleСложный поиск предусматривает возможность использования особенностей языка поисковых запросов. Он является уникальным по своему синтаксису для каждой поисковой системы, но его возможности схожи. Вот наиболее популярные задачи, которые можно решить с помощью сложного поиска. • Если вы хотите, чтобы найденные ссылки содержали точную фразу поискового запроса, то ее следует заключить в кавычки. • Если в найденных документах должно быть несколько слов из поискового запроса, то необходимо применить логический оператор И (AND). При работе в Google ему соответствует знак +. Таким образом, запись книжный + магазин в строке поиска будет означать поиск таких сайтов, в состав которых вошли оба слова поискового запроса. • Если в полученных ссылках должно быть хотя бы одно слово поискового запроса, то необходимо использовать оператор ИЛИ (OR). В Google для этого необходимо указать слово or. • Если вы хотите из результирующего списка ссылок исключить документы с определенными словами, то для этого вам необходимо применить логический оператор НЕ. В Google используют символ –. Оператор НЕ нужно вводить после слова через пробел слитно с необязательным словом. Например, запрос вида карта Парижа –(агентство|тур) позволит найти карту, а не туры по Франции. С подробностями использования Google можно познакомиться по адресу http://www.google.com.ua/intl/uk/help/refinesearch.html. Команды особого назначенияДополнительные команды Google позволяют добиться лучших результатов и сузить область поиска. С их помощью вы можете ограничить область поиска, а также указать машине, что не нужно просматривать все страницы. Данные команды позволяют управлять поиском по самой странице, указывая, в какой именно ее части следует искать. Эти специальные команды записываются перед параметром, а перед некоторыми необходимо указывать символ –. Рассмотрим следующие команды. • – allinlinks: – ищет только в названиях ссылок, но не в тексте или названии страницы, например – allinlinks ain. • – allintext: – ищет внутри текста на страницах, но не в ссылках или названии страницы, например – allintext:piter. • – allintittle: – показывает результаты поиска в заголовке страницы. • – allinurl: – показывает страницы, похожие на данный шаблон, например – allinurl:links.php. • cache: – находит копию страницы, проиндексированной в Google, даже если она уже недоступна по адресу в Интернете или изменила свое содержание. Иными словами, эта команда проводит поиск в кэше Google. Она пригодится для просмотра страниц, содержание которых часто меняется. Например, cache:www.news.com. • – cache:url – показывает сохраненную версию данной страницы. • filetype: – позволяет ограничить поиск только файлами с заданным расширением. Однако будьте внимательны, параметры команды Google понимает слишком буквально, и поэтому если вы сначала наберете filetype:htm, а потом filetype:html, то результаты поиска в обоих случаях будут разными. Google поддерживает поиск в файлах наиболее популярных форматов PPT, XLS и DOC. • – info:url – покажет страницу, содержащую ссылки на варианты поиска: поиск по похожим страницам, обратные ссылки и страницы, содержащие такую же ссылку. Результат тот же, что и при вписывании в строку поиска адреса веб-страницы. • – intext: – не учитывает заголовки страниц и ссылки, а просматривает только текст страницы (тега <body>). Это бывает полезно, когда вы разыскиваете некий фрагмент текста, и вам, по большому счету, безразлично, какой у страницы заголовок и какие ссылки там расположены. • – intitle: – ограничивает поиск только заголовком страницы, то есть содержимым тега <title>. Например, использование команды – intitle:первая полоса (пробелов между командой и параметром быть не должно) приведет к тому, что Google выдаст ссылки на первые полосы русскоязычных интернет-газет. • – inurl: – проводит поиск только в адресе страницы. Обычно ее используют вместе с другими командами, когда хотят отыскать страницу поиска. Например, команда – inurl:search выведет список страниц, у которых в адресе встречается слово search. Например, search.aol.com или home.netscape.com/home/internet-search.html. • – link: – возвращает список страниц, которые содержат ссылки на заданный сайт. Если ввести, например, – link:ain.com.ua, получите список страниц, ссылающихся на ресурс ain.com.ua. Это просто незаменимый инструмент мониторинга для тех, кто занимается «раскруткой» сайтов. • – related: – выдает список страниц, похожих на данную. Например, если вы введете – related:lenta.ru, получите список ссылок на другие онлайновые СМИ. Кроме этого, – related: – удобное средство, если вы хотите узнать, к какой категории Google относит ваш сайт (или, наоборот, если хотите найти авторитетные информационные сайты). Именно авторитетные, потому что Google при выводе результатов сортирует их в порядке значимости, и если вы введете, например, – related:cnn.com, то первые позиции среди результатов будут занимать наиболее весомые издания схожей тематики: The New York Times, Washingtonpost и т. д. • – site: – это, наверное, одна из самых часто используемых команд Google. Она позволяет ограничить поиск данных только указанным сайтом. Структура адреса страницы Google с результатами поискаИнформация о структуре адреса страницы с результатами поиска позволит вам лучше разобраться в принципах использования поисковых машин. Вот пример характерного адреса: http://www.google.com/search?num=55&hl=en&q=piter. Он состоит из следующих частей: • num=55 – количество результатов на одной странице. Оно может колебаться от 1 до 100. По умолчанию установлено значение 10; • hl=en – этот параметр задает язык интерфейса Google. В данном случае это английский, но можно изменить на hl=ru (русский); • q=piter – это сам запрос. К сожалению, ввести русский запрос в адресной строке человек не в состоянии. Вот как выглядит слово кактус: q=%D0%BA%D0%B0% D0%BA%D1%82%D1%83%D1%81. Кроме того, к URL можно смело добавить еще несколько параметров: • as_qdr=m1 – указывает максимальный «возраст» найденной информации в месяцах. Значения могут быть от 1 до 12; • safe=on – включает систему фильтров, которая блокирует по большей части информацию явного порнографического характера. Поиск Google на вашем сайтеВ следующем листинге приведена форма, которая позволит искать информацию на вашем сайте. Чтобы все заработало, разместите этот HTML-код на своей странице и укажите свой адрес вместо mysite.com. Теперь посетители смогут искать интересующую их информацию на сайте средствами Google. <meta http-equiv="content-type" content="text/html; charset=UTF-8"> <form method="get" action="http://www.google.com/search"> <input type="text" name="q" size=32 maxlength=110 value=""> <input type="submit" name="sa" value="Google!"> <input type="hidden" name="as_sitesearch" value="mysite.com"> <input type="hidden" name=hl value="ru"> </form> Кроме того, вы можете модифицировать форму по своему усмотрению, добавляя новые параметры. Например, следующая строка: <input type="hidden" name="as_filetype" value="txt"> заставит Google искать только текстовые документы. Ограничение по дате искомых результатов можно задать, добавив строку <input type="hidden" name="as_qdr" value="m3"> (результаты трехмесячной давности). Если хотите найти данные шестимесячной давности, вместо m3 используйте m6, если ищете информацию за год, то замените m3 на латинское y. Количество результатов на странице контролирует следующий параметр: <input type="hidden" name="num" value="50">. Поиск в Google по электронному адресуСпециальный инструмент Google под названием Google Alerts (веб-сайт http://www.google.com/alerts) позволяет получать результаты поиска по указанному электронному адресу. Для этого необходимо указать нужный поисковый запрос, задать тип поиска (новости, поиск в Интернете или поиск в Google Groups), а также указать периодичность и электронный адрес. В результате этого Google будет создавать электронные письма с указанием новых сайтов, которые соответствуют поисковому запросу, и присылать их на ваш электронный адрес. Персональная страница на GoogleПерсональный поиск Google представляет собой весьма удобный инструмент, позволяющий каждому пользователю не только хранить нужные данные на сайте Google, но и создать оптимальный для себя внешний вид главной страницы сайта, превращая его в актуальный информационный ресурс. Чтобы использовать персонализированный поиск Google, необходимо перейти на страницу http://www.google.com/ig. Для работы с сервисом следует зарегистрироваться на Google (это можно сделать здесь же). Однако те, кто уже зарегистрирован в Gmail, Froogle или какой-либо другой службе Google, могут указать здесь свои логин и пароль. Внешний вид этой страницы можно настроить. Следует также отметить возможность работы с историей поисковых запросов. По умолчанию на главной странице размещено несколько блоков, среди которых – информация о погоде, последние новости, сервисы «слово дня» и «ссылка дня» (рис. 4.3). Рис. 4.3. Персональная страница GoogleКаждый из этих разделов можно отредактировать или удалить. Для этого предназначена кнопка Edit или кнопка с изображением крестика. Кроме этого, можно добавить и другие информационные блоки для отображения на главной странице персонального поиска с помощью ссылки Add Content, которая размещена в левой части окна браузера. В результате выбора ссылки в окне браузера отобразится панель с кнопками, соответствующими разным сервисам Google. Эти кнопки сгруппированы в разделы. Среди них раздел My Stuff, в котором собраны ссылки на персональные сервисы Google: почту Gmail, сервис закладок, историю поисковых запросов, онлайн-магазины и т. п. Кроме этого, другие группы сервисов предлагают добавить на главную страницу блоки новостей (раздел News), бизнес-новости (Business), новости технологий, спорта, раздел LifeStyle и др. После добавления блока с Gmail на странице персонального поиска Google будут отображены заголовки последних сообщений, полученных в почтовый ящик на Gmail, адреса их отправителей и время получения письма. Кроме этого, сервис позволяет пользователю создать самому информационный блок и поместить его на главную страницу персонального поиска. Для этого необходимо задать запрос, в результате Google проведет поиск RSS-лент, соответствующих ему, и предложит поместить блок на страницу Google. Его содержимым будут экспортированные заголовки новостей найденной RSS-ленты. Воспользовавшись ссылкой Classic Home, можно в любой момент перейти к классическому виду главной страницы Google, на которой не будут отображены все перечисленные информационные блоки. Однако наиболее интересные возможности касаются поиска при работе с персонализированным сервисом Google. В этом случае на сайте сохраняется вся история предыдущих запросов к системе, она может быть помещена на главную страницу сервиса. Для перехода в полнофункциональный режим использования истории поиска воспользуйтесь ссылкой Search History (или перейдите по ссылке http://www.google.com/searchhistory/?hl=en). На этой странице отображен список всех предыдущих запросов к системе с указанием дат поиска, то есть страница отображена в виде персонального дневника. В правой части экрана находится календарь поисковой активности – в нем разными цветами выделена интенсивность использования Google (цвета определяются в соответствии с количеством запросов к системе). По мере наполнения истории поисковых запросов Google начинает группировать результаты поиска по темам. На странице Search History после формирования запроса можно выбрать вид поиска – искать по личной истории поисковых запросов или в Сети. Получив результат, запрос можно упорядочить по релевантности или дате поиска. При поиске в персональной истории результаты сортируются в хронологической последовательности (самые последние запросы выводятся первыми). Возле каждого результата указан поисковый запрос, перечень посещенных сайтов с количеством посещений. Ненужные результаты могут быть легко удалены из истории. Кроме того, предусмотрена возможность временной приостановки автосохранения запросов и найденных в ответ на них ссылок. Не менее полезна возможность отображения похожих результатов, связанных с определенным термином, названием или объектом. Для этого можно воспользоваться ссылкой Related History. Также Search History автоматически запоминает посещенные страницы и впоследствии выделяет их цветом, что значительно упрощает навигацию и просмотр ссылок полученного списка. 4.4. «Яндекс» на полную мощьБесспорно, самой популярной поисковой машиной русскоязычного Интернета является «Яндекс» (http://www.yandex.ru). Система содержит самое большое количество проиндексированных страниц, а качество поиска соответствует ее лозунгу – «Найдется все». Несомненным плюсом является то, что «Яндекс» учитывает морфологию русского языка во время поиска, то есть рассматривает все формы искомого слова. Если задан, например, запрос Смотреть, то в результате поиска будут найдены ссылки на документы, содержащие, кроме Смотреть, слова смотри, смотрите, смотрел и т. д. «Яндекс» также позволяет проводить расширенный поиск. В окне расширенного поиска в разделе употреблены в тексте можно выбрать один из двух вариантов: в любой форме или точно так, как в запросе. Выбор второго варианта означает поиск точного совпадения на искомых сайтах (рис. 4.4). Рис. 4.4. Окно расширенного поиска «Яндекса»Кроме этого, работая с «Яндексом», вы можете ограничить расстояние между словами поискового запроса – они могут идти подряд, в одном предложении или не очень далеко. Это важно в тех случаях, когда слова из поискового запроса составляют логически цельную фразу, например издательство «Питер», расписание поездов и т. п. В расширенном поиске с помощью «Яндекса» можно ограничить ссылки регионом (например, Минск, Украина, Москва). Специальные команды сложного поиска также позволяют управлять результатами поискового запроса. Так, если в найденном списке ссылок вы хотите получить точное соответствие найденного слова запросу, вам достаточно поставить восклицательный знак перед искомым словом (без пробела), например !смотреть. Обратите внимание, что «Яндекс» различает заглавные и строчные буквы в поисковом запросе. Действует следующее правило: если в окне поиска вы набрали слово с заглавной буквы, то найдены будут только страницы, на которых это слово начинается с заглавной. Если слово написано со строчной буквы, то отыщутся все варианты написания – как со строчной, так и с заглавной. Если вы хотите указать, что слово должно обязательно входить в результирующие сайты, перед ним следует поставить знак +. Наоборот, если вы не желаете, чтобы какое-либо слово встречалось в результатах поиска, поставьте перед ним знак –. По умолчанию при обработке запроса «Яндекс», как и Google, использует логический оператор И. Это значит, что каждое слово, входящее в запрос, должно быть найдено. Если вы хотите получить в найденном списке одно из слов, используйте оператор OR, который в «Яндексе» имеет вид символа |. В этом случае система будет искать сайты, где содержится хотя бы одно из перечисленных слов. Например, выражение юмор | шутка | анекдот | прикол означает, что нужно искать сайты, содержащие одно из указанных слов. Еще одна удобная функция «Яндекса» – так называемый поиск с расстоянием – позволяет задать расстояние между словами. Расстояние между первым и вторым словом равно 1, между первым и третьим – 2. Расстояние между соседними словами, стоящими не в том порядке, будет отрицательным: –1. Если между двумя словами находится знак / и число, это значит, что расстояние между словами не должно превышать значение этого числа. К примеру, запрос курсы /2 массажа означает, что вы требуете документы, в которых между словами курсы и массажа может находиться только одно слово. То есть подходят фразы: курсы лечебного массажа, курсы точечного массажа и просто курсы массажа. В предыдущем случае расстояние может варьироваться от 1 до 2. Если нужно задать расстояние жестко, введите запрос курсы /+2 массажа. Тем самым вы зафиксируете положение слова массажа относительно курсы. Если вы хотите использовать оператор AND в пределах документа, используйте символ &&. Например, рецепты && (плавленый сыр). Символ ~ означает оператор И НЕ (в пределах предложения), например запрос банки ~ закон означает, что нужно искать сайты, на которых есть слово банки, но не встречается закон. Символы – или ~~ – это бинарный оператор И НЕ (в пределах документа). Например, запрос путеводитель по Парижу ~~ (агентство | тур) позволит получить список документов, в которых встречается фраза путеводитель по Парижу, но при этом нет слов агентство или тур. Специальные команды «Яндекса» позволяют дополнительно ограничить область поиска. Вот некоторые из них: • $title (выражение) – позволяет провести поиск в заголовке страницы, например $title Питер; • $anchor (выражение) – эта команда означает поиск в тексте ссылок, например $anchor Яndex находит ссылки, в которых есть слово Яndex; • #keywords=(выражение) – выполняет поиск в ключевых словах, например #keywords=(поисковая система); • #abstract=(выражение) – производит поиск в описании страницы, например #abstract=(искалка | поиск); • #image="значение" – поиск картинок с указанным названием, например #image="nokia" выберет ссылки на сайты, на которых есть картинки с названием nokia; • #hint=(выражение) – данная команда проведет поиск в подписях к изображениям, например #hint=(lenin | ленин); • #url="значение" – означает поиск на заданном сайте (странице), например #url="www.lenta.ru"; • #link="значение" – выполняет поиск ссылок на заданный сайт, например #link="www.yandex.ru"; • #mime="значение" – эта команда ограничивает тип найденных документов, например в результате запроса концепция Web 2.0 #mime="pdf" вы найдете PDF-документы, в которых встречаются данные слова; • host="www.host.ru« – оператор аналогичен url с именем хоста, но учитывает все зеркала сайта, например host=»www.yandex.ru"; • rhost="ru.url.*" или rhost="ru.url.www" – оператор аналогичен host, но имя хоста записывается в обратном порядке – вначале домен верхнего уровня, затем второго и т. д. Если в конце указаны символы .*, то поиск будет выполнен по всем поддоменам заданного домена (исключая ru.url!), например rhost="ru.yandex.*"; • lang="язык" – отбирает для поиска страницы, написанные на определенном языке (русском (ru), украинском (uk), белорусском (be), английском (en), французском (fr), немецком (de)), например lang="de"; • like="url.ru/file.html" – отбирает для поиска страницы, похожие на заданный URL, например like="www.yandex.ru"; • domain="домен" – производит поиск по страницам, которые расположены в заданном домене, например domain="yandex" /+1 domain="ru"; • date="ГГГГ{*|ММ{*|ДД}}" – поиск производится только по страницам, дата которых удовлетворяет заданному условию, например date="200310*"; • cat=(ID региона) или cat=(ID темы) – поиск включает только страницы сайтов, зарегистрированных в каталоге, тематическая рубрика или регион которых совпадают с заданным. 4.5. Поисковые программыВ последнее время наряду с онлайновыми поисковыми машинами появляются и другие инструменты, предназначенные для поиска в Интернете. Одним из таких инструментов являются поисковые программы. Особенностью их работы является возможность искать сразу с помощью нескольких поисковиков. Поисковые программы также умеют группировать результаты поиска и сохранять их для последующего использования. «ДИСКо Искатель»Одним из преимуществ программы «ДИСКо Искатель» (http://www.disco.ru) является использование русскоязычных поисковых машин. При поиске с ее помощью можно выбирать один из восьми поисковиков, среди которых, наряду с Google, Yahoo!, AltaVista, используются «Апорт!», «Яндекс», «Рамблер». Этот список нельзя пополнить своими поисковыми серверами, но и этого набора достаточно для успешного поиска. При построении сложного запроса, состоящего из нескольких слов, можно задать использование различных условий, например или, и, точно (рис. 4.5). Рис. 4.5. Окно программы «ДИСКо Искатель»Результат поиска с помощью «ДИСКо Искателя» также представлен очень удобно – в окне программы отображаются два списка: в левой части помещен перечень названий найденных ссылок, а справа – их адреса. При этом, если фраза поискового запроса встретилась несколько раз на одном сайте, такие ссылки будут объединены в разделы, а названия данных разделов и в левом, и в правом списке помечаются символом +. Программа позволяет синхронизировать пункты левого и правого списка – воспользовавшись специальной командой контекстного меню, вы сможете выбрать адрес сайта из правого списка, соответствующий выделенному названию в левом. Возможности программы не ограничиваются только поиском. «ДИСКо Искатель» позволяет проверять ссылки на работоспособность, и если ссылка не функционирует, ее можно удалить из списка. Эту программу используют в первую очередь в тех случаях, когда необходимо найти не только набор ссылок, но еще и определить, на каких страницах одного сайта встречаются фразы поискового запроса. Кроме этого, она удобна, когда необходимо часто искать в Интернете одну и ту же информацию. Ведь здесь предусмотрено сохранение поискового запроса и списка найденных ссылок в виде отдельного файла. Эта возможность позволяет создавать собственные тематические подборки ссылок. Сохранив таким образом все нужные запросы, вы можете в любой момент открыть файл и повторить поиск. Причем во время повторного поиска можно выделить новые ссылки, таким образом отслеживают появление новых сайтов, соответствующих вашему поисковому запросу. Search+Программа Search+ (http://srchplus.chat.ru) выделяется среди инструментов для метапоиска, так как база данных используемых поисковых систем в этой программе является одной из самых больших. Количество сайтов, с помощью которых Search+ ищет, исчисляется десятками; все они сгруппированы в 40 тематических разделов. Вы можете искать, используя стандартные поисковые машины, а также посредством других инструментов, например каталогов софта, энциклопедий, сайтов для поиска работы и др. (рис. 4.6). Кроме этого, каждый из сайтов, сохраненных в каталогах программы, имеет еще одну характеристику – он принадлежит одной из девяти категорий, соответствующих географическим регионам: Belorussia, Russia, Ukraine, UK, World и др. В каждом разделе можно отметить, какие именно поисковые машины следует использовать, ограничить поиск по региону. Однако дополнить этот список своими поисковыми машинами нельзя. Формируя запрос в Search+, необходимо выбрать категорию, а также режим поиска (простой или расширенный). Во втором случае доступна возможность сортировки результата и настройка дополнительных параметров. Рис. 4.6. Окно программы Search+Удобно в программе представлен результат поиска. Это список ссылок с цитатой, содержащей поисковый запрос. Причем рядом с адресом будет указан источник, то есть поисковая машина, с помощью которой сайт был найден. Кроме этого, для каждой ссылки указан ее вес, то есть величина, показывающая соответствие ссылки поисковому запросу. Можно просмотреть свойства ссылки – источник, с помощью которого она была найдена, вес, а также дату создания документа и цитату, содержащую поисковый запрос. Полученный список ссылок можно сохранить как во внутреннем формате программы, так и в одном из стандартных форматов – HTML или CSV. Программа позволяет обновить результаты поиска – еще раз опросить поисковики с этим же поисковым запросом. При этом новые ссылки будут выделены полужирным шрифтом, а при желании с помощью фильтра на экране можно оставить только их. Copernic Agent BasicCopernic Agent Basic (http://www.copernic.com/en/index.html) – одна из лучших программ, предназначенных для метапоиска. Пользователь может самостоятельно организовывать категории поисковых машин, указывая, какие из них включать в ту или иную категорию. Кроме этого, для каждой категории можно задать максимальное количество ссылок, отображаемых в качестве результатов поиска (рис. 4.7). Рис. 4.7. Окно программы поиска CopernicCopernic представляет результаты поиска наиболее удобно – список ссылок по умолчанию упорядочен по релевантности. Для каждой ссылки указано численное значение релевантности в процентах, поисковый запрос выделяется в списке ссылок. Кроме этого отмечено, c помощью каких именно поисковых машин была найдена ссылка. Полученный список можно отсортировать произвольным образом – по названию, адресу, дате создания или поисковому средству. Удобство в представлении результатов поиска состоит не только в настройке списка ссылок. Программа предлагает для хранения поисковых запросов и соответствующих им результатов поиска древовидную структуру разделов. По умолчанию все поисковые запросы и результаты сохраняются в стандартном разделе My Search. Здесь можно создать свои подразделы (папки) и хранить в них поисковые запросы. Еще одним удобным решением является система фильтров, с помощью которой можно отобрать нужные ссылки из полученного списка. iFinder DEMOДемонстрационная версия программы iFinder DEMO (http://www.realsofts.com) работает с русскоязычными поисковиками – «Яндексом», «Рамблером», «Апорт!» и List, Soft.mail. Кроме того, iFinder может искать и в двуязычных словарях: англо-русском, русско-английском, немецко-русском и русско-немецком. Однако и это еще не все: среди поисковых средств программы есть энциклопедии, электронные библиотеки, каталог рефератов, система поиска лекарств и другие специфические поисковые инструменты, всего 22 наименования (рис. 4.8). Рис. 4.8. iFinder ищет с помощью русскоязычных поисковых машинПолученный с помощью iFinder DEMO список ссылок упорядочен по релевантности. Правда, в демоверсии программы он содержит не более десяти ссылок. Зарегистрированные пользователи могут не только получить более полный перечень, но еще и обновлять его, загружая изменения с сайта разработчика. Программа является удобным решением для нестандартных видов поиска, например в словарях или тематических сайтов в каталогах ссылок русскоязычных поисковых систем. ASearch.INFOСписок поисковых машин, с помощью которых можно искать в aSearch.INFO (http://asearch.info), на первый взгляд, небольшой – в него входит всего четыре поисковика. Однако основное преимущество программы заключается в том, что она позволяет дополнять этот список своими поисковиками, причем эта возможность реализована в виде удобного мастера, работу с которым может самостоятельно освоить даже неопытный пользователь (рис. 4.9). Принцип работы программы такой же, как и у других продуктов этого класса, –сформировав запрос и задав поисковые машины, в окне программы вы увидите результат. Для каждой ссылки будут указаны поисковые машины, которые нашли ее. На странице с результатами можно отобразить произвольное количество ссылок, при этом программа автоматически удалит все ссылки-дубликаты. С помощью встроенного фильтра вы сможете отобрать из полученного списка ссылки, которые вас интересуют, а ненужные удалить. Полученный список можно сохранить в виде HTML-документа и работать с ним, не запуская программу. Рис. 4.9. ASearch.INFO позволяет дополнять список поисковиковЕсли список поисковиков вам покажется недостаточным, вы сможете добавить в него свои поисковые машины, запустив Конструктор поисковых машин. При этом в окне Конструктора предусмотрена настройка расширенного поиска, а также поиска с помощью логических операторов И, ИЛИ. Кроме поисковых машин, в базу данных программы можно добавить также папки, в которых нужно размещать поисковые машины. Quintura SearchДля начала отметим, что у программы очень красивый и не совсем обычный интерфейс, тем не менее работать с ней легко и удобно. В результате поиска с помощью Quintura Search (http://www.quintura.com) вы получите список ссылок, а в левой части окна будет размещена так называемая смысловая карта поискового запроса. Программа предлагает для уточнения поискового запроса использовать термины (подсказки), которые по смыслу связаны со словами запроса (ведь слова запроса встречаются на найденных сайтах в сочетании с другими словами). Смысловая карта позволяет увидеть эти сочетания, более того, если указатель мыши навести на одно из слов смысловой карты, то рядом будут отображены и другие связанные с ним термины. Если выбрать какой-нибудь термин из смысловой карты, то в правой части окна будет размещен соответствующий результат поиска, то есть вы сможете увидеть, какие результаты выдаст поисковая машина, если добавить этот термин в запрос (рис. 4.10). Рис. 4.10. Quintura Search предлагает возможность уточнения поискового запросаВ настройках программы можно указать количество ссылок в результирующем списке, а также регулировать релевантность, то есть соответствие поисковому запросу. «Черная луна»«Черная луна» (http://search.aidagw.com/bm) – это небольшая удобная программа, не требующая инсталляции. Огромным ее преимуществом, по сравнению с англоязычными поисковыми утилитами, является использование в основном российских поисковых машин и каталогов. Все поисковые средства, доступные в программе, помещены в специальный раздел – Список серверов. Они сгруппированы в 14 поисковых категорий, среди которых – Библиотеки, Музыка, Каталоги, Игры, Работа, Файлы и др. Некоторые из них содержат также и подкатегории. Каталог поисковых средств «Черной луны» можно дополнять, добавляя в него категории и поисковые средства. Перед началом поиска необходимо отметить те средства, которые следует использовать для поиска. Принцип работы программы состоит в следующем: после запуска поиска она формирует вкладку для каждого используемого поискового средства, на ней будет размещена страница соответствующего поисковика с результатами поиска. Таким образом, «Черная луна» не строит единый список результатов поиска – ее использование просто упрощает доступ к основным поисковым машинам и каталогам. Кроме собственно поиска, программа обладает рядом других удобных возможностей. Например, можно сохранить страницу с результатами поиска прямо из окна программы. Также возможен поиск только на одном отмеченном сервере. Программа может блокировать всплывающие окна, а в настройках указывает способ открытия новых окон и используемый по умолчанию браузер. WebFerretПрограмма WebFerret (http://www.ferretsoft.com) для метапоиска использует десять наиболее популярных англоязычных поисковых машин – AltaVista, Google, Yahoo!, Search.com и др. В результате поиска с помощью этих средств программа отображает список ссылок. Рядом с каждой полученной ссылкой указывается ее краткое описание (Abstract). В программе доступен поиск с использованием дополнительных параметров. Можно искать фразу или любое слово из поискового запроса, допускается использование логических операторов. Кроме того, WebFerret – единственная программа, позволяющая задать область поиска. Среди допустимых значений этого параметра – поиск на всей странице, поиск только в названии, адресе или в описании (рис. 4.11). Рис. 4.11. WebFerret позволяет ограничить поиск региономДопускаются различные способы представления результатаов поиска, а также разные способы сортировки полученного списка – по поисковому средству, адресу или названию. WebFerret позволяет удалять дубликаты из списка полученных ссылок, причем можно удалять ссылки с одинаковым адресом или названием. Возможен поиск в полученном списке. В настройках программы можно задать ограничение по количеству ссылок, предоставляемых одной поисковой машиной, и определить время поиска. Кроме этого, можно задать поиск с учетом «семейного» фильтра, который позволяет исключить из списка порнографические ресурсы. Еще одно удобное решение – при установке WebFerret добавить в браузер панель инструментов, с помощью которой можно пользоваться возможностями программы, задавая поисковый запрос непосредственно в окне браузера Internet Explorer. Surf PilotСоздатели Surf Pilot (http://www.surfpilot.net/en/surf.html) удобно разместили в ее окне все необходимые элементы. Структура окна программы напоминает проводник Windows: в левой части размещены поисковые запросы, а справа – список соответствующих им ссылок. Программа позволяет искать в одной из девяти категорий поисковых машин, сгруппированных по географическому признаку. Здесь представлены следующие категории: The Web – UK, The Web – Italian, The Web – Spain и некоторые другие, есть две общие категории – The Web и FTP. Этот список можно дополнить: The Web – Russian, The Web – Ukraine, Games, MP3, Programs. Однако пополнить список поисковых машин программа не позволяет, хотя автоматическое обновление этого списка с сайта разработчика возможно. При построении параметров поиска или позже, когда программа представит список найденных ссылок, можно проверить ссылки на работоспособность и удалить повторяющиеся. Полученный список можно сортировать, группировать различными способами, применять фильтр для отобранных ссылок (рис. 4.12). Встроенный браузер позволяет не только просматривать веб-страницу, но и сохранять веб-документы, производить поиск текста на странице. Пользователь может сохранить перечень поисковых запросов и полученных результатов в отдельном файле, называемом сессией. Это позволяет программе работать с несколькими пользователями. Полученные ссылки можно также экспортировать в список заданий для менеджера загрузки ReGet. Поисковые запросы можно группировать в папки. Доступны средства импорта и экспорта. Пользователь может дополнить полученный список ссылок, импортировав в него ссылки Избранного из HTML-файла или ранее сохраненные ссылки Surf Pilot. Полученный список можно экспортировать в HTML, TXT, RTF или PDF-документ. Рис. 4.12. Surf Pilot позволяет группировать результаты поиска4.6. Онлайновый метапоискНесмотря на постоянное улучшение алгоритмов поиска традиционных поисковых машин, их работа уже давно не удовлетворяет современного интернет-пользователя. Ведь чем короче путь от поискового запроса до полученного результата, тем лучше. При постоянном увеличении количества веб-сайтов использование традиционного метода поиска приведет к тому, что результат будет содержать много информационного «шума» – сайтов, которые случайно попали в результирующий список и не соответствуют или не совсем соответствуют поисковому запросу. Кроме того, различия в стратегии, широте охвата и мощности разных систем очень часто приводят к тому, что различные поисковые машины дают разные результаты поиска при одних и тех же запросах. Этим не замедлили воспользоваться разработчики специальных программ, основанных исключительно на применении потенциала других, уже существующих традиционных поисковых систем. Системы, которые не ведут собственной базы интернет-сайтов, а только предоставляют доступ к другим поисковым системам, называются метапоисковыми. По сути, метапоисковые системы – это посредники между пользователем и набором обычных поисковых систем. Они реализуют свои алгоритмы и методы обработки результатов работы других поисковых систем. Метасистема позволяет в соответствии с пожеланиями пользователя ограничить свой поиск определенными серверами и осуществить уточненный поиск в полученном списке сайтов. Основной чертой такой системы является объединение поисковых серверов различных специализаций. Большинство современных метапоисковых систем умеют обрабатывать полученные результаты поиска, как минимум удаляют из результирующего списка сайтов ссылки-дубликаты. Большинство из них представляют список ссылок по суммарной релевантности, но некоторые группируют их по используемым поисковым машинам.
Метапоисковая система, которая умеет объединять полученные списки ссылок в группы, предлагает пользователям сразу два списка ссылок. Кроме обычного списка ссылок с указанием различной дополнительной информации, пользователь получает список ключевых слов, то есть разделов, в которые были сгруппированы полученные результаты поиска. Выбор ключевого слова в этом списке приведет к отображению соответствующих ему ссылок на найденные сайты. Вы можете найти в Интернете метапоисковые системы, объединяющие результаты работы нескольких традиционных поисковых машин. Одной из таких систем является RaYa (http://www.raya.ru). Она создана для упрощения работы с самыми популярными поисковиками Интернета: «Рамблером», «Яндексом», «Апорт!», Google, AltaVista, Yahoo! и др. В главном окне RaYa размещены две кнопки: при нажатии левой осуществляется поиск с помощью «Яндекса», правая отвечает за поиск с использованием «Рамблера». Нажатие клавиши Enter приведет к поиску с помощью Google. В настройках системы эти установки, заданные по умолчанию, можно изменить, закрепив за кнопками и клавишей Enter другие поисковые системы. Очень похожая система представлена на сайте http://www.gahooyoogle.com. Метапоисковик Gahoo!Yoogle умеет искать сразу с помощью двух поисковых машин – Yahoo! и Google. В результате работы экран браузера будет разделен на две части: слева отобразится результат поиска, полученный с помощью Yahoo!, справа – страничка с результатами поиска в Google. VivisimoОдин из старейших метапоисковиков – Vivisimo (http://vivisimo.com) – использует группировку результатов поиска на основе содержимого сайтов. Вместо простого перечня ссылок он удобно упорядочивает результат. По запросу пользователя строится дерево тем, в котором размещены не только ключевые слова, но и типы документов (статьи, новости и т. д.) (рис. 4.13). Рис. 4.13. Главное окно VivisimoСайты, для которых не были определены ключевые слова, будут отнесены к специальной группе Other topics. В результате работы Vivisimo создает сложную древовидную структуру, состоящую из разделов и подразделов. Рядом с названием каждого сайта отображаются ссылки, открывающиеся в новом окне или в фрейме текущего окна, здесь же можно осуществить предварительный просмотр найденного сайта. В последнем случае будет открыт специальный блок Preview в окне ниже названия ссылки. При поиске можно задавать его тематическую направленность, искать как в общей категории (Search the web), так и в новостях нескольких типов, а также (специализированный поиск) по конкретным порталам (BBC News, eBay, Open Directory и т. д.). Для каждой полученной ссылки в результирующем списке отображается название поисковой машины, с помощью которой она была найдена. Кроме обычного, пользователям Vivisimo доступен также и расширенный поиск. Среди его параметров – настройка списка используемых поисковых средств, ограничение количества найденных ссылок, время поиска и язык. ClustyЕще одна метапоисковая система Clusty (http://www.clusty.com) – это дочерний проект Vivisimo. Возможности обеих этих систем похожи, но последняя имеет гораздо более удобные инструменты для структурирования результатов поиска. По умолчанию список ссылок, полученных в Clusty, сгруппирован по тематике. Однако, кроме этого параметра, заданного по умолчанию, можно построить группировку полученных ссылок по источнику и домену (URL) (рис. 4.14). Рис. 4.14. Окно с результатами поиска ClustyКаждую полученную в результате поиска ссылку можно открыть в новом окне или в фрейме, кроме этого, можно просмотреть место расположения найденной ссылки в дереве тем. Другими дополнительными возможностями Clusty является проведение специфического поиска – для этого предназначены вкладки News, Image, Shopping, Encyclopedia, Gossip. Используя вкладку Customize, можно настроить внешний вид и функциональные возможности Clusty для себя, добавив в стандартный набор вкладок еще одну, свою (при этом необходимо указать ее имя и отметить используемые в ней поисковые средства). Одновременно можно создать до четырех своих вкладок. KartOOKartOO (http://kartoo.com) можно назвать метапоисковиком с самым необычным интерфейсом. Эта система умеет не только группировать результаты поиска, но и визуально представлять их в окне браузера. Графический интерфейс KartOO отличается от аналогов оригинальным оформлением и удобными средствами представления результатов поиска – они имеют вид схемы объектов. Эта схема называется картой поиска. Сайты на ней объединены в группы в соответствии с ключевыми словами. Линиями соединены ссылки с одинаковым количеством ключевых слов. Выбрав одно из них, можно таким образом уточнить поисковый запрос (рис. 4.15). Рис. 4.15. KartOO представляет результаты поиска в виде схемыКаждый найденный тип странички (сайт, PDF-документ, DOC-файл), а также просмотренные ранее страницы представлены в виде специальных значков. Сайты на карте поиска отображены по-разному в зависимости от релевантности поисковому запросу. Кроме того, пользователям KartOO доступны удобные средства управления полученной картой поиска – можно просмотреть ссылки, связанные с каждым найденным сайтом. Пользователь может самостоятельно строить структуру поисковика – для этого предусмотрены средства добавления и удаления элементов схемы. Можно на карту вручную добавить тематический раздел или сайт. Кроме того, ее можно сохранить, и она будет доступна при следующем посещении сайта. Предоставлена также возможность перемещать элементы схемы KartOO (объекты и ключевые слова) произвольным образом, формируя интересующую структуру вручную в соответствии со своими требованиями и интересами. На сайте доступна вся история предыдущих запросов к системе. В настройках сервиса указывают количество отображаемых сайтов на одной странице; здесь можно выбирать поисковые средства, задавать язык интерфейса и язык представления страниц. UjikoПоисковая система ujiko (http://ujiko.com) выполнена с использованием Flash-технологии. Ее принципы работы, в частности отображение результатов поиска, очень похожи на аналогичные в KartOO. В результате поиска также строится схема объектов (найденных сайтов) в виде круга, а в его центре отображается список разноцветных ключевых слов и секторов, которые соответствуют ключевым словам и сайтам (рис. 4.16). Рис. 4.16. Ujiko наглядно представляет результаты поискаЩелкнув на соответствующей кнопке, можно таким образом отобразить сайты, которые относятся к одному ключевому слову. При этом в строке поиска будет отображаться уточненный поисковый запрос, который соответствует выбранному ключевому слову. Пользователи могут самостоятельно изменить список, удалив из него некоторые сайты. Результаты поиска размещены на нескольких страницах. Следует заметить, что поисковик ujiko не работает с запросами, написанными кириллицей. GnomeGnome (http://gnome.com) – это метапоисковое средство, позволяющее использовать одновременно до десяти поисковых машин. Результат поиска с помощью Gnome представляет собой список ссылок, рядом с которыми указаны использованные поисковые средства. Результирующий список можно сгруппировать по релевантности или алфавиту (рис. 4.17). Рис. 4.17. Основное окно сервиса GnomeСервис может работать в двух режимах: в одном – задают один поисковый запрос ко всем доступным поисковикам, в другом – для каждой поисковой машины формируют свой запрос. SearchySearchy (http://www.searchy.com) – это метапоисковое средство, позволяющее использовать до 15 поисковиков. По умолчанию в результирующем списке сервис предоставляет первые десять сайтов, полученных в результате поиска с помощью каждой поисковой машины. Результаты сгруппированы по 40 разделам на одной странице. В настройках расширенного поиска можно задать их комбинирование – в этом случае результаты поиска практически не будут отличаться от тех, что обычно представляют поисковые машины: на экране отобразится сводный список, в котором, кроме ссылки и цитаты, будет указано используемое поисковое средство. Другими настройками поиска являются количество страниц с результатами и время, отведенное на поиск. Здесь же можно исключить использование некоторых поисковиков или задать другой их порядок. 7MetaSearchm.comРазработчики поисковика 7MetaSearchm.com (http://7metasearch.com) утверждают, что они создали уникальную систему поиска, которая, во-первых, работает быстрее аналогов, а во-вторых, использует самые лучшие поисковые машины. Из результатов поиска она выбирает наиболее релевантные ссылки и самые популярные из них всегда располагает в начале списка (рис. 4.18). Рис. 4.18. Главное окно метапоисковика 7MetaSearchm.comВ списке ссылок, кроме обычных ссылки и цитаты, размещено много другой информации о найденном сайте. По ссылке domain info во всплывающем окне можно получить справку о нем. Если найденный сайт входит в десятку лучших одного из используемых поисковиков, то отображается соответствующая картинка и надпись top10, а также указано, какая именно поисковая система таким образом характеризует этот сайт. Следует отметить, что используемый принцип «лучшие из лучших» приводит к тому, что общее количество найденных ссылок невелико, но здесь почти нет «мусора», который обычно находят поисковые машины. iBoogieiBoogie (http://www.iboogie.tv) – это метапоисковик с кластеризацией, позволяющий проводить поиск почти на 50 языках, среди которых есть и русский. Основные возможности сервиса стандартны для данного рода систем: отображается многоуровневый список тематических разделов и список ссылок. На сайте, кроме поиска веб-страниц, возможен поиск MP3, изображений и видео. В настройках расширенного поиска задают используемые поисковые машины, а также время поиска и максимальное количество его результатов. Во всплывающем окне можно просмотреть уменьшенную копию веб-страницы. Сервис динамически развивается, предлагая пользователям новые возможности. Следует отметить, что iBoogie – один из немногих сервисов, позволяющих дополнять список поисковых систем. Еще одна интересная возможность – дополнение стандартного перечня вкладок из списка, в котором размещены ссылки из подразделов blog, government, libraries, major search engine, sport, technology и др. Turbo10В Turbo10 (http://turbo10.com) также можно дополнять список используемых метапоисковиков. По умолчанию поиск производится в десяти поисковых машинах, но пользователь может сформировать новую или отредактировать существующую коллекцию поисковиков (рис. 4.19). Рис. 4.19. Результат поиска с помощью Turbo10Список найденных сайтов содержит не только название, ссылку и поисковое средство, с помощью которого сайт найден, но и уменьшенную копию экрана страницы. Turbo10 допускает группировку полученных ссылок сразу по двум критериям: по ключевым словам и по используемым поисковым системам. В обоих случаях указано количество сайтов, принадлежащих одной категории. SearchЕще одно метапоисковое средство с элементами кластеризации – Search (http://www.search.com). Одним из наиболее существенных его недостатков является некорректная работа с кириллицей. Совсем недавно стало возможным восприятие русскоязычных запросов и представление результатов по ним, но кластеризация для запросов на кириллице не проводится. В результате поиска будет представлен список ссылок и перечень Related search (Связанные категории), представляющий собой поисковые запросы, которые могут быть связаны с заданным запросом. Это, безусловно, не кластеры, созданные по ключевому слову, но определенная минимальная обработка результата здесь присутствует. Выбирая название связанной категории, получают соответствующий результат запроса. Также можно просмотреть результаты отдельно по каждому поисковику. Поисковые средства, используемые Search, разделяются на общие (The Web) и специальные. Сюда входят поисковые машины, сгруппированные в следующие категории: business & money, download, music, travel, shopping, people и т. д. Некоторые поисковые разделы специфического поиска представлены в виде вкладок в главном окне системы, для других необходимо выбрать их название. В результате отобразится окно с формой для поиска и будут перечислены возможные поисковые средства, которые можно использовать или не использовать, установив переключатель в положение рядом с их названием. В настройках поиска можно задать тему оформления страницы, используемые средства для метапоиска – в разделе My Web, а отображение уменьшенных изображений веб-страниц – рядом с их названием в результирующем списке сайтов. Есть возможность просмотреть последние поисковые запросы (top 1000). DogpileМетапоисковая система Dogpile (http://www.dogpile.com) использует для поиска несколько средств, среди которых: поисковые машины, веб-каталоги, расширенные средства поиска (когда необходимо найти не страницу, а рисунок или видео-файл). Система позволяет искать сайты, изображения, аудио– и видеофайлы, а также проводить поиск в новостях. Есть специальные вкладки yellow page и white pages. В разделе yellow pages проводится поиск компаний, в запросе можно задать отрасль или вид бизнеса, а также город и штат. Доступен поиск по названию фирмы. Раздел white pages предназначен для поиска людей по указанным имени, фамилии, городу и штату. Дополнительные возможности, предоставляемые Dogpile: поиск пути между двумя указанными городами, поиск электронного адреса и просмотр карты (рис. 4.20). Доступна сортировка полученных результатов по релевантности или поисковому средству. В левой части окна отображается список предыдущих запросов. В Dogpile не предусмотрена кластеризация результатов, вместо этого система формирует список скорректированных запросов, содержащих данное поисковое слово. Рис. 4.20. Результаты поиска с помощью DogpileДоступен расширенный поиск, в котором можно использовать логические операторы для построения поискового запроса, например можно задать поиск точной фразы или поиск для любого из слов. Можно сузить отображаемый список по языковому критерию, задав отображение результатов на определенном языке (к сожалению, русского в списке доступных языков нет). Другие возможности расширенного поиска позволяют указать количество ссылок на странице. Также имеется возможность задать временные ограничения на отображение результатов. В этом случае отобразятся только те сайты, которые были созданы между указанными датами. Система предусматривает установку ограничения по имени домена. WebbrainWebbrain (http://www.webbrain.com) – система, являющаяся одновременно метапоисковой и системой категоризации и визуализации найденных страниц. Результатом поиска является список ссылок, помеченных специальной категорией. Выбор категории приводит к тому, что в окне программы отобразится список ссылок этой категории. Однако не это является основным преимуществом и отличительной чертой Webbrain по сравнению с другими метапоисковыми системами. В результате поиска создается не только список сайтов – для полученной структуры формируется график, отображающий категоризацию найденных страниц (рис. 4.21). Рис. 4.21. В результате поиска Webbrain строит графикГрафик состоит из нескольких разделов, которые соединены между собой линиями. На его вершине расположена категория, представляющая собой поисковый запрос. Выбор ссылки в полученном списке приведет к открытию сайта в отдельном окне и переходу к списку ссылок, относящихся к данной категории. Главная страница сервиса предлагает пользователям каталог ссылок, представленный в виде графика с категориями и подкатегориями. FazzleСистема Fazzle (http://www.fazzle.com) осуществляет поиск сайтов в Интернете. Доступны следующие разделы: yellow pages, white pages, downloads, images, videos, audio, shop, headline news. Поиск сайтов возможен в двух категориях: лучшие сайты (web's best) и весь Интернет (Entire Web). Непосредственно на главной странице размещены логические операторы, с помощью которых можно связать слова поискового запроса. Полученный список содержит не только используемое поисковое средство, но и релевантность, выраженную в процентном отношении. Для каждой найденной ссылки можно осуществить предварительный просмотр содержимого сайта непосредственно на странице с найденным списком. Кроме этого, доступны инструменты для изменения размера страницы предварительного просмотра. На странице с поиском есть ссылка для уточнения поискового запроса на странице словаря, тезауруса, а также для поиска в разделах downloads, images, news. Доступны удобные средства настройки внешнего вида страницы. Воспользовавшись ссылкой personal fazzle, можно изменить внешний вид страницы, задать подчеркивание слов поискового запроса, отображение копий экрана сайта, а также способ сортировки, язык и количество ссылок на страницу. Предусмотрен расширенный поиск, в котором также настраивают параметры поисковой машины и ограничение по доменам высшего уровня. 4.7. Пиринговые сетиВы пересмотрели все поисковые машины, провели специализированный поиск по FTP, поиск программ – и все равно нужный файл не находится... В этом случае остается единственный выход – попытаться поискать файл в других сетях, так называемых файлообменных. Развитие технологий доступа к Интернету, широкополосный доступ – все это делает еще более популярными инструменты обмена файлами. Современные скорости соединения с Сетью позволяют легко закачивать сотни мегабайт. Результатом этого стало развитие сервисов обмена файлами. Такие сервисы являются одним из самым популярных средств для распространения информации между пользователями. Они могут применяться, например, чтобы выложить объемный архив с фотографиями для друзей вместо того, чтобы отправлять его по почте, или для распространения в Интернете файлов, не нарушающих ничьих прав. Однако контролировать содержание хранилищ файлов, число которых доходит иногда до сотен тысяч или даже больше, практически невозможно. Все началось в 1999 году, когда свет увидел проект Napster. Всего через год Napster стал едва ли не самым популярным брэндом в Интернете. Причиной этого была возможность с его помощью быстро и бесплатно скачивать музыку. Потом борцы за авторские права расправились с ненавистной им системой, однако пример подан. Не только Napster, но и другие файлообменные сети подвергались преследованию со стороны музыкальных компаний и компаний, выпускающих программное обеспечение. Однако это не изменило отношения пользователей к подобным серверам. Файлообменные сети используют принцип работы, который несколько отличается от привычного для большинства компьютерных сетей принципа «клиент-сервер». Они работают на основе технологии P2P. Технология P2P (peer to peer) – это схема построения распределенной сети, каждый узел которой может одновременно выступать как в роли клиента, получающего информацию, так и в роли сервера, предоставляющего информацию. P2P-сети (или пиринговые) еще называют сетями равных возможностей, в которых осуществлено взаимодействие между всеми узлами сети. Технология Р2Р подразумевает общение и распространение файлов между компьютерами в сети напрямую, без посредников. Это значит, что для передачи нового фильма от одного пользователя к другому не будет задействовано никаких промежуточных серверов, а значит, скорость закачки будет выше. Общий принцип работы пиринговых сетей состоит в следующем: клиентская программа передает в сеть список файлов, которые она может предоставить для скачивания и которые хочет получить сама. Как правило, сеть состоит из равноправных узлов, причем каждый из них взаимодействует лишь с некоторыми узлами сети, так как установка связи «каждый с каждым» невозможна из-за ограниченности ресурсов (как вычислительных, так и пропускных). При этом передача информации между узлами, не связанными в данный момент непосредственно, может осуществляться как по своеобразной «эстафете» (от узла к узлу), так и путем установки временной прямой связи. Маршрутизация и авторизация сообщений, передаваемых первым способом, происходит не на едином сервере, а на всех этих отдельных узлах. Существуют две модели пиринговых сетей. Если поиск подходящих партнеров осуществляется с помощью сервера, а сами данные качаются напрямую, то такая сеть называется централизованной. Если любые компьютеры сети могут одновременно выполнять функции и клиентов и серверов, посылая запросы друг другу, то подобный тип сетей называется децентрализованным. Пиринговая сеть, которая поддерживает оба режима работы, является смешанной (гибридной). Отметим, что централизованные P2P-сети, как правило, работают быстрее, но менее надежны, поскольку не могут функционировать без сервера. Гибридные системы наиболее оптимальны, поскольку используют преимущества обеих моделей. Чем больше человек участвует в пиринговой сети, тем лучше. Представьте, что своими файлами обмениваются несколько миллионов человек, у каждого из которых есть хотя бы 1 Гбайт информации. Выходит почти 1 000 000 Гбайт! Добавьте сюда еще специальные файловые хранилища энтузиастов, огромные объемы данных на Р2Р-серверах... Таким образом, в пиринговых сетях можно найти практически все, что угодно: от фильмов и музыки до исходных кодов вирусов и операционных систем. На сегодняшний день существует множество Р2Р-сетей: BitTorrent, Shareaza, ed2k и т. д. Чем более распространена пиринговая сеть, тем больше вероятность найти в ней редкий и уникальный файл. Сети P2P выступают хорошей альтернативой FTP-архивам, которые уже давно перестали справляться с ростом информационного наполнения и числа потребителей. Несмотря на постоянное улучшение количественных характеристик файл-серверной архитектуры, P2P потенциально обладает целым рядом преимуществ: балансировкой нагрузки, более широкой полосой пропускания, высокой устойчивостью и широкими возможностями по организации содержания. У каждой пиринговой сети есть свой стандарт передачи данных, поэтому существуют клиенты, которые могут работать в нескольких сетях. KaZaaВ сети KaZaa (http://www.kazaa.com) доступны для обмена файлы следующих типов: MP3, AVI, MPG, ASF, JPEG, GIF, BMP, DOC, RAR, ZIP, EXE и др. Для работы сеть использует центральный сервер. Сеть KaZaa – одна из первых, которая возникла после исчезновения Napster. При работе с ней пользователь соединяется с одним из центральных серверов или с компонентами дополнительной подсети суперузлов, которые выполняют ту же роль, что и центральный сервер. Среди достоинств сети можно назвать возможность работы со всеми форматами файлов, наличие докачки, умение копировать файл сразу у нескольких пользователей (у каждого свою часть файла) и др. При работе с сетью в списке найденных файлов отображается полная информация о файле: длина, битрейт, исполнитель (для аудио и видео), название, размер экрана (для видео) и преимущества данной сети. К недостаткам сети можно отнести то, что количество результатов поиска здесь ограничено первой сотней найденных файлов, а также большие очереди на закачку. Для работы с сетью KaZaa используется клиент KaZaa Lite (http://www.kazaalite.nl/en). Особенность программы состоит в полном отсутствии модулей spyware и adware. При самом первом запуске KaZaa Lite предложит зарегистрироваться и выбрать пользовательское имя. В дальнейшем подключение будет происходить автоматически при запуске программы. В статусной строке KaZaa Lite можно увидеть информацию о количестве активных пользователей и суммарном объеме доступных файлов. KaZaa Litе также поддерживает загрузку файла из нескольких источников. Поиск нужного файла занимает сравнительно много времени, но зато при подключении вам не придется перебирать список серверов – статус online будет доступен вскоре после запуска программы. Специальная функция My Recommendations в окне My Files позволяет рекомендовать наиболее интересные для прослушивания музыкальные файлы. eDonkey2000В сети eDonkey2000 (http://www.edonkey2000.com) доступны для обмена практически любые файлы – сеть работает через центральные серверы. Эту сеть еще называют «Осликом». Принцип ее работы состоит в использовании нескольких центральных серверов: то есть это нечто среднее между одноранговой технологией и клиент-серверной архитектурой. Серверы играют роль справочника ссылок для закачки, а сама закачка файлов производится по принципу пиринговой сети с одного компьютера на другой. Интересной особенностью является тот факт, что, как только пользователь начал качать какой-то файл, его компьютер тут же становится местом, откуда этот файл можно скачать. Причем, даже если файл переименован, он все равно будет опознан по уникальному индексу. eMule (http://www.emule-project.net) – это программа-клиент для сети eDonkey2000. Она обладает удобным интерфейсом. Здесь присутствует встроенная поддержка русского языка и нет рекламы. При создании eMule была переработана и оптимизирована процедура загрузки файлов. Например, в первую очередь загружаются наиболее редкие блоки файла, а при повреждении блока повторно скачивается только его поврежденная часть. Кроме того, был улучшен поисковый механизм (рис. 4.22). Рис. 4.22. Окно программы eMuleПосле запуска программы часть серверов сразу доступна по умолчанию в базе данных, но специальная кнопка позволяет обновить его. После запуска программа опрашивает серверы и подключается к одному из них, который, в свою очередь, общается с другими серверами сети. Вначале работы программы необходимо определить ресурсы общего доступа на вашем компьютере. Это очень важный этап, так как сеть eDonkey работает по принципу – чем больше вы отдаете, тем больше получаете. Специальная система очереди и кредитов действует таким образом: пользователь получает нужные ему файлы гораздо быстрее, если закачивает их кому-нибудь еще. При необходимости можно ограничить доступ к спискам сетевых адресов или к именам конкретных клиентов пиринговой сети. eMule может получить список серверов не только с определенного ресурса, но и от партнеров по сети. Кроме того, партнеры могут обмениваться списками источников скачиваемых файлов, что снижает потребность в серверах. Список файлов, которые пользователь скачивает у других или которые располагаются у него на диске в специальных открытых для доступа папках, при подключении к сети передается на соответствующий сервер, и они становятся доступными для скачивания другим клиентам, подключенным к тому же узлу. Для любого файла, помещаемого в eDonkey, вычисляется хэш-сумма (специальная контрольная сумма, которая зависит от содержимого файла). В соответствии с ней он однозначно определяется в сети независимо от его названия. Ссылки на файлы имеют следующий вид: ed2k://|file|SomeFile.zip|43573472| 94cb15b58509c52afcf8bed5dd7a4bd|. Этот цифровой идентификатор файла в сети eDonkey позволяет однозначно определить месторасположения файла. Таким образом, достаточно указать данный адрес, и клиент eMule самостоятельно найдет нужный файл на серверах сети eDonkey и начнет закачку на ваш компьютер. Функция Предпросмотр позволяет ознакомиться с фильмами и заглянуть в архивы еще до того, как они скачаны до конца. В состав eMule включен планировщик задач, а также небольшой веб-сервер, позволяющий удаленно управлять программой через Интернет или с мобильного телефона, поддерживающего Java. BitTorrentТехнологию BitTorrent (битовый поток) (http://www.bittorrent.com) создал американский программист Брэм Коэн (Bram Cohen). Уже в 2001 году у него была готова первая версия BitTorrent, а через три года, в июне 2004 года, по данным исследования компании CacheLogic, более трети всего трафика в Интернете передавалось с использованием этого протокола. Как таковой, глобальной сети BitTorrent не существует. Пиринговая система работает следующим образом. Владелец некоторого файла с помощью специальной программы-клиента разбивает его на фрагменты, для каждого из которых вычисляется определенная контрольная сумма. Полученные в результате этой операции данные вместе с информацией об адресах серверов, на которых размещены фрагменты файла, а также адрес специального tracker-сервера сохраняются в небольшом файле с расширением torrent. Эти файлы размещаются в Интернете. Они являются ссылкой на необходимую информацию. Примечательно то, что BitTorrent – это единственная пиринговая сеть, у которой поиск файлов осуществляется не с помощью программы-клиента, а с помощью любой поисковой системы, например Google. Другой пользователь скачивает файл с указанным расширением и запускает при помощи специализированной программы (например, Shareaza), после чего уже программа подключается к tracker-серверу. При этом клиент управляет процедурой закачки, обеспечивая эффективное управление скачиванием. Далее ситуация развивается по следующей схеме: искомый файл разбивается на блоки и передается через tracker-сервер по кускам от владельца к скачивающему пользователю. Однако со временем количество людей, копирующих этот конкретный файл, растет, а значит, увеличивается число загруженных ими блоков. Для работы с сетью BitTorrent существует несколько клиентов, один из них так и называется – BitTorrent (http://www.bitconjurer.org) (рис. 4.23). Рис. 4.23. Окно клиента BitTorrent, предназначенного для работы с одноименной сетьюПринцип работы программы состоит в следующем: после скачивания файла штатными средствами операционной системы необходимо дважды щелкнуть на нем кнопкой мыши, в результате чего будет запущен клиент и начнется скачивание нужного файла. ShareazaПо отзывам пользователей, Shareaza (http://www.shareaza.com) является одним из лучших универсальных P2P-клиентов. Он весьма быстро завоевал популярность. Программа работает с четырьмя пиринговыми сетями (Gnutella2, Gnutella1, eDonkey2000/eMule, BitTorrent) и распознает пять видов ссылок (Magnet, Piolet, Gnutella, eDonkey2000/eMule, BitTorrent). Программе не надо подключаться к каким-либо определенным серверам, она сама находит рабочие серверы и автоматически обновляет их список из Интернета. Она самостоятельно подключается к серверам выбранной пиринговой сети, а также закачивает torrent-файлы. Можно задать поиск нужного файла – программа представит список файлов, которые можно скачать (рис. 4.24). Рис. 4.24. Универсальный P2P-клиент ShareazaКроме того, в программе реализован весьма быстрый поиск, который к тому же выдает различную полезную информацию, такую, например, как скорость доступного канала. Также в Shareaza есть встроенный проигрыватель, позволяющий воспроизводить различные форматы музыки и видео. Причем возможен предварительный просмотр файлов, закачка которых еще не завершена. В последнее время все большее число гигантов IT-мира стали обращать внимание на эту технологию: например, компания Sun, объявившая о том, что в новый протокол Jxta будет добавлена поддержка карманных компьютеров и мобильных телефонов. Это позволит мобильным устройствам получать доступ к данным и обмениваться информацией в P2P-сетях. 4.8. Архив ИнтернетаИнтернет – среда, изменяющаяся чрезвычайно быстро, страницы открываются и исчезают, их содержимое тоже непостоянно. Что делать, если вам нужна информация, ссылка на которую уже устарела? Только одно – посетить специальный сайт, своеобразный архив Интернета (http://www.archive.org) (рис. 4.25). Рис. 4.25. Архив Интернета содержит копии всех сайтовБезусловно, создать точную копию всех сайтов, существовавших когда-либо в виртуальном пространстве, просто нереально. Однако время от времени отслеживать обновления, а главное, не дать исчезнуть вовсе тем сайтам, которые по разным причинам перестали существовать – вот основная задача архива Интернета. Сервис, называемый The Internet Archive Wayback Machine, позволяет просматривать заархивированные версии сайтов Сети, в том числе за определенный промежуток времени. Архив Интернета был основан в 1996 году Брюстером Кейлом (Brewster Kahle), который работает в тесном сотрудничестве с Библиотекой Конгресса США. В декабре 2000 года Конгресс США выделил Библиотеке Конгресса $100 млн для разработки национальной программы сохранения цифровой информации. Помимо оплаты хранения, эти деньги пойдут и на научные исследования стабильности цифровых носителей. За долгие годы человечество научилось хранить бумажные материалы и знает все об их сохранности и долговечности. С цифровыми данными иначе. В первые годы существования компьютеров люди предполагали, что цифровые данные смогут храниться без потерь десятилетиями. Однако сотрудники архивов уже заявляют, что магнитные пленки и гибкие диски, на которых хранится информация, выходят из строя. Кроме того, цифровые носители постоянно меняются, как изменяются и аппаратные средства для их воспроизведения. Сейчас многие библиотеки и архивы являются обладателями больших собраний музыкальных и иных компакт-дисков, а также DVD, которые тоже стареют год от года. Не стоит на месте и программное обеспечение, что приводит к появлению большого количества разных форматов, не всегда совместимых между собой. Поэтому специалисты архивного дела стараются хранить данные в таких стандартных форматах, как HTML и ASCII. Немного статистики: объем накопленной в архиве информации измеряется в PB (petabyte), а растет со скоростью 20 Тбайт в месяц. Архив Интернета обновляется каждые два месяца, планируется переписывать собираемые материалы на новые носители каждые пять лет, чтобы предотвратить потерю данных. Кроме этого, совместно с архивом Интернета работает специальная поисковая машина Wayback Machine, позволяющая путешествовать в прошлое Интернета и отыскивать сайты, которых уже не существует. В качестве базы для поиска Wayback Machine использует не сам Интернет, а Архив Интернета. Wayback Machine очень полезна для журналистов, поскольку сохраняет «снимки» электронных газет так же, как микрофильмы сохраняют старые бумажные издания. Особенно это актуально для электронных изданий, которые не имеют собственного архива, как, например, знаменитый Drudge Report. Для поиска информации в архиве достаточно указать адрес сайта, в результате чего вы получите список дат, за которые в архиве сохранены его «снимки». Вы можете выбрать нужное значение и просмотреть, как выглядел сайт в определенный день.
|
|
||
Главная | В избранное | Наш E-MAIL | Добавить материал | Нашёл ошибку | Наверх |
||||
|