четверг, 12 октября 2023 г.

Уроки 6-7. Поиск информации в сети. Поисковые системы

Даты проведения занятий 13.10.23, 20.10.23

Часть 1. Поисковые системы (теория)

Поисковая система - комплекс программных и аппаратных средств для автоматического просмотра ресурсов интернет, индексации их содержания и предоставления услуг по поиску информации интернет пользователям.
Поисковые системы могут отличаться по
  • эффективности поиска
  • языку поиска
  • и другим возможностям.

Одни поисковые системы находят информацию в виде веб-страниц, другие могут рассматривать и группы новостей и файловые серверы.

Классификация поисковых систем по методам поиска и обслуживания: 
  • системы, использующие поисковых роботов
  • системы, управляемые человеком, 
  • гибридные системы, 
  • мета-системы. 

Работа поисковых систем — общие принципы

Подробнее читайте статью Принципы работы поисковых систем

 Каждая поисковая система имеет свой алгоритм поиска запрашиваемой пользователем информации. Алгоритмы эти сложные и чаще держатся в секрете. Однако общий принцип работы поисковых систем можно считать одинаковым. Любой поисковик:
  • Сначала собирает информацию, черпая её со страниц сайтов и вводя её в свою базу данных;
  • Индексирует сайты и их страницы, и переводит их из базы данных в базу поисковой выдачи;
  • Выдает результаты по поисковому запросу, беря их из базы проиндексированных страниц;
  • Ранжирует результаты (выстраивает результаты по значимости).


Всю работу поисковых систем выполняют специальные программы и комбинации этих программ.




Перечислим основные составляющие поисковых систем:

  • Spider (паук) – это браузероподобная программа, скачивающая веб-страницы. Заполняет базу данных поисковика.
  • Crawler (краулер, «путешествующий» паук) – это программа, проходящая автоматически по всем ссылкам, которые найдены на странице.
  • Indexer (индексатор) – это программа, анализирующая веб-страницы, скачанные пауками. Анализ страниц сайта для их индексации.
  • Database (база данных) – это хранилище страниц. Одна база данных это все страницы загруженные роботом. Вторая база данных это проиндексированные страницы.
  • Search engine results engine (система выдачи результатов) – это программа, которая занимается извлечением из базы данных проиндексированных страниц, согласно поисковому запросу.
  • Web server (веб-сервер) – веб-сервер, осуществляющий взаимодействие пользователя со всеми остальными компонентами системы поиска.
Поисковые системы могут быть :

  • универсальные
  • специализированные
Наиболее популярные системы объединяют в себе оба типа.

Универсальные системы

В универсальных системах обычный принцип поиска в неструктурированных документах - по заданной строке поиска.
Большинство поисковым систем предоставляют пользователям также услуги интернет-почты, возможность создания веб-страниц, новости, курс валют и т.д.

Специализированные системы поиска

Поиск на картах
Возможности:
  • поиск адресов на карте
  • карты в форматах 2D и 3D
  • виртуальные туры (с фотографиями и панорамами)
Каталог - данные, структурированные по темам в виде иерархических структур
Онлайновые энциклопедии и  справочники
- электронные версии бумажных словарей, энциклопедий
Получение информации по QR-коду


нередко на различных объектах (товарах, у памятников, на книгах, на веб-страницах) можно увидеть такую пометку (квадрат или прямоугольник или овал с черно-белыми точками внутри).  Это так называемый QR-код, придуманный в 1994 году японской компанией “Denso Wave”.











Прочитайте несколько интересных статей
Принципы работы поисковых систем

Часть 2. Поисковые системы (практика)