МегаПредмет

ПОЗНАВАТЕЛЬНОЕ

Сила воли ведет к действию, а позитивные действия формируют позитивное отношение


Как определить диапазон голоса - ваш вокал


Игровые автоматы с быстрым выводом


Как цель узнает о ваших желаниях прежде, чем вы начнете действовать. Как компании прогнозируют привычки и манипулируют ими


Целительная привычка


Как самому избавиться от обидчивости


Противоречивые взгляды на качества, присущие мужчинам


Тренинг уверенности в себе


Вкуснейший "Салат из свеклы с чесноком"


Натюрморт и его изобразительные возможности


Применение, как принимать мумие? Мумие для волос, лица, при переломах, при кровотечении и т.д.


Как научиться брать на себя ответственность


Зачем нужны границы в отношениях с детьми?


Световозвращающие элементы на детской одежде


Как победить свой возраст? Восемь уникальных способов, которые помогут достичь долголетия


Как слышать голос Бога


Классификация ожирения по ИМТ (ВОЗ)


Глава 3. Завет мужчины с женщиной


Оси и плоскости тела человека


Оси и плоскости тела человека - Тело человека состоит из определенных топографических частей и участков, в которых расположены органы, мышцы, сосуды, нервы и т.д.


Отёска стен и прирубка косяков Отёска стен и прирубка косяков - Когда на доме не достаёт окон и дверей, красивое высокое крыльцо ещё только в воображении, приходится подниматься с улицы в дом по трапу.


Дифференциальные уравнения второго порядка (модель рынка с прогнозируемыми ценами) Дифференциальные уравнения второго порядка (модель рынка с прогнозируемыми ценами) - В простых моделях рынка спрос и предложение обычно полагают зависящими только от текущей цены на товар.

Структура документальных информационно-поисковых систем





КУРСОВАЯ РАБОТА

по дисциплине «Базы данных»

на тему: «Проектирование документальные базы данных»

Выполнил:

студент 2 курса

группы ЭК-052-14

Георгиев А. В.

 

Научный руководитель:

к.э.н., доц. Алякина Л.А.

 

 

Чебоксары 2016


 

1. Назначение и основные понятия

 

Первые базы данных работали преимуществен­но с информацией фактического характера, например, характеристиками объек­тов и их связей. По мере "интеллектуализации" автоматизированных информационных систем (АИС) появилась возможность обрабатывать текстовые документы на естественном языке, изображения и другие виды и форматы представления данных.

Несмотря на то, что принципы хранения данных в системах обработки фактической и документальной (текстовой) информации схожи, алгоритмы обработки в них заметно различаются. Поэтому в зависимости от характера инфор­мационных ресурсов, которыми оперируют такие системы, принято различать два крупных их класса - документальные и фактографические.

Документальные системы служат для работы с документами на есте­ственном языке - монографиями, публикациями в периодике, сообщениями прессагентств, текстами законодательных актов. Они обеспечивают их смысловой анализ при неполном, приближенном представлении смысла. Наиболее распространенный тип документальных систем – информационнопоисковые системы (ИПС), предназначенные для накопления и поиска по различным критериям документов на естественном языке.

В отличие от традиционных БД, ориентированных на полное и точное представление данных достаточно простой смысловой структуры, документальные БД ориентированы на частичное, приближенное представление данных, имею­щих значительно более сложную смысловую структуру, представленных на входе в форме текста.

Основной функцией любой документальной информационно-поисковой системы (ДИПС) является информационное обеспечение потребителей на основе выдачи ответов на их запросы. Осуществление выдачи системой требуемых данных реализуется с помощь главной операции ДИПС -проведения информационного поиска. Информационный поиск является процедурой отыскания документов, содержащих ответ на заданные потребителем вопросы.

Заметим, что в отличие от фактографических ИПС, которые в ответ на запрос потребителя осуществляют выдачу конкретных сведений (фактов), ДИПС в результате проведения информационного поиска предоставляют потребителю совокупность документов, смысловое содержание которых соответствует его запросу.

Информационный поиск в системе проводится на основе поступившего от потребителя запроса на отыскание необходимой ему информации. Потребность человека в определенной информации в процессе его практической деятельно­сти носит название информационной потребности. Под действием получае­мой информации информационная потребность людей постоянно изменяется и трансформируется. Вследствие этого ее невозможно однозначно выразить и описать. Однако информационная потребность может быть представлена в виде некоторой последовательности ее частных значений в фиксированные момен­ты времени. Такое частное значение информационной потребности потребителя в определенные моменты времени, выраженное на естественном языке (ЕЯ), и представляет собой информационный запрос, с которым пользователь обращается к системе.



Однако запрос может быть неправильно сформулирован потребителем и не отражать его истинной информационной потребности в момент обращения к системе. Таким образом, при проведении информационного поиска в системе фактически рассматривается не информационная потребность пользователя, а только информационный запрос, в ответ на который и выдаются те или иные документы системы. Следовательно, реакцию системы необходимо рассматривать не только по отношению к информационной потребности, но по отноше­нию к информационному запросу.

Для выражения данных отношений в теории ДИПС введены два фундаментальных понятия: пертинентность и релевантность.

Под пертинентностъю понимается соответствие смыслового содержания документа информационной потребности потребителя. Документы, содержание которых удовлетворяет информационной потребности, называют пертинентными.

Релевантность представляет собой соответствие содержания документа информационному запро­су в том виде, в каком он сформулирован, а документы, содержание которых отвечает запросу потребителя, носят название релевантных.

Автоматизация процесса информационного поиска потребовала формали­зации представления основного смыслового содержания информационного зап­роса и документов в виде соответственно поискового предписания (ПП) и по­исковых образов документов (ПОД). Для записи ПП и ПОД применяются спе­циальные языки, называемые информационно-поисковыми (или просто информационными).

В процессе проведения информационного поиска в ДИПС определяется степень соответствия содержания документов и запроса пользователя путем сопоставления ПОД с ПП. А на основе такого сопоставления принимается решение о выдаче документа (он признается релевантным) или его невыдаче (он считается нерелевантным).

Решение о выдаче или невыдаче документа в ответ на запрос принимается на основе некоторого набора правил, по которому данной ДИПС определяется степень смысловой близости между ПОД и ПП. Такой набор правил получил название критерия смыслового соответствия (КСС). Критерий может задаваться явно или неявно. На самом деле КСС базируется не на ранее введенном понятии релевантности, а на понятии формальной релевантности - соответ­ствии содержания ПОД и ПП. Фактическая релевантность, понимаемая как смысловое соответствие содержания документа информационному запросу, может быть установлена только человеком в процессе осмысления содержания документа и запроса.

 

Структура документальных информационно-поисковых систем

В состав типичной ДИПС входят, как правило, четыре основные подсистемы:

· Подсистема ввода и регистрации

· Подсистема обработки

· Подсистема хранения

· Подсистема поиска

 

 

Рисунок 1- Общая функциональная структура ДИПС

 

Текстовые документы, поступающие на вход системы, могут быть пред­ставлены как в бумажном, так и в электронном виде (в одном из многочислен­ных форматов). Поэтому подсистема ввода и регистрации решает следующие основные задачи:

• создание электронных копий бумажных документов (например, скани­рование с последующим распознаванием текста или ввод с клавиатуры);

• обеспечение подключения к каналам доставки электронных документов;

• распознавание, а при необходимости и преобразование формата элект­ронных документов;

• присвоение электронным документам уникальных идентификаторов (регистрация), а также ведение таблицы синхронизации имен (при необходимости сохранения прежних имен).

Все поступающие документы без внесения в них каких-либо изменений направляются в подсистему хранения для сохранения в базе документов. База документов может представлять собой простую совокупность файлов, распределенную по каталогам жесткого диска. Однако такой тип представления базы документов характеризуется двумя недостатками:

• неэффективным использованием дискового пространства;

• низкой скоростью доступа при большом количестве файлов. Поэтому для хранения документов применяют средства сжатия и быстрого поиска информации. В этом случае подсистема хранения представляет собой совокупность стандартных или специализированных средств архивации, СУБД и т.п., обеспечивающих возможность доступа к данным по предъявляемому идентификатору.

Далее документы поступают на вход подсистемы обработки, задачей кото­рой является формирование для каждого документа ПОД, в который заносится информация, необходимая для последующего поиска документа.

ПОД сохраняются в индексе. Логически индекс представляет собой табли­цу, строки которой соответствуют документам, а столбцы – информационным признакам, на основе которых строится ПОД. В ячейках таблицы могут храниться либо 1, либо 0 -в зависимости от наличия или отсутствия данного признака в данном документе.

При поступлении на вход системы запроса пользователя он преобразуется в ПП и передается в подсистему поиска, задачей которой является отыскание в индексе ПОД, удовлетворяющих ПП с точки зрения КСС. Идентификаторы релевантных документов подаются с выхода подсистемы поиска на вход подсистемы хранения, которая осуществляет выдачу пользователю самих релеван­тных документов.

 

 





©2015 www.megapredmet.ru Все права принадлежат авторам размещенных материалов.