МегаПредмет

ПОЗНАВАТЕЛЬНОЕ

Сила воли ведет к действию, а позитивные действия формируют позитивное отношение


Как определить диапазон голоса - ваш вокал


Игровые автоматы с быстрым выводом


Как цель узнает о ваших желаниях прежде, чем вы начнете действовать. Как компании прогнозируют привычки и манипулируют ими


Целительная привычка


Как самому избавиться от обидчивости


Противоречивые взгляды на качества, присущие мужчинам


Тренинг уверенности в себе


Вкуснейший "Салат из свеклы с чесноком"


Натюрморт и его изобразительные возможности


Применение, как принимать мумие? Мумие для волос, лица, при переломах, при кровотечении и т.д.


Как научиться брать на себя ответственность


Зачем нужны границы в отношениях с детьми?


Световозвращающие элементы на детской одежде


Как победить свой возраст? Восемь уникальных способов, которые помогут достичь долголетия


Как слышать голос Бога


Классификация ожирения по ИМТ (ВОЗ)


Глава 3. Завет мужчины с женщиной


Оси и плоскости тела человека


Оси и плоскости тела человека - Тело человека состоит из определенных топографических частей и участков, в которых расположены органы, мышцы, сосуды, нервы и т.д.


Отёска стен и прирубка косяков Отёска стен и прирубка косяков - Когда на доме не достаёт окон и дверей, красивое высокое крыльцо ещё только в воображении, приходится подниматься с улицы в дом по трапу.


Дифференциальные уравнения второго порядка (модель рынка с прогнозируемыми ценами) Дифференциальные уравнения второго порядка (модель рынка с прогнозируемыми ценами) - В простых моделях рынка спрос и предложение обычно полагают зависящими только от текущей цены на товар.

Обработка входящей текстовой информации





Документы поступающие на вход ДИПС, записаны на ЕЯ, в ней обяза­тельно должна проводиться операция перевода текстов входных документов с ЕЯ на ИПЯ. Тип используемого ИПЯ оказывает сильное влияние на суть про­цессов обработки информации в конкретных ДИПС. В случае применения ИПЯ дескрипторного типа такая операция перевода называется индексированием, при использовании рубрикатора - рубрицированием.

На сегодняшний день среди дескрипторных ИПЯ наибольшее распространение в автоматизированных ДИПС получили языки без грамматики и без контроля по словарю. При их использовании говорят о полнотекстовом индексировании.

В операции перевода можно выделить два этапа:

1. Анализ смыслового содержания текста с целью выделения из него сведе­ний об известных системе объектах, их свойствах, а также отношениях между ними.

2. Выражение этих сведений на ИПЯ, т.е. принятие решения о приписыва­нии данному сообщению выражений на ИПЯ (о включении соответству­ющих выражений на ИПЯ в ПОД).

Этап анализа смыслового содержания текста связан с необходимостью использования лингвистических и экстралингвистических знаний. Лингвистичес­кие знания являются общими для одного языка и на сегодняшний день являют­ся достаточно хорошо формализованными, в то время как экстралингвистичес­кие сильно зависят от конкретной предметной области, а задача их формализа­ции является одной из самых сложных. В этой связи в современных ДИПС этап анализа текста чаще всего сводится к лингвистическому анализу, прово­димому с целью нормализации слов и словосочетаний. Под нормализацией слов понимается их приведение к канонической форме (например, для существи­тельных - именительному падежу, единственному числу и т.п.), под нормали­зацией словосочетаний - нормализация составляющих и запись их в опреде­ленной последовательности (например, сначала записывается основное слово, а затем - зависимые слова). Нормализованные слова и словосочетания часто называют терминами.

Лингвистический анализ текста

Лингвистический анализ текста может состоять из двух этапов:

· морфологического анализа

· синтаксического анализа.

Цель морфологического анализа состоит в получении основ (под основой понимается словоформа с отсеченным окончанием) со значениями грамматических категорий (например, часть речи, род, число, падеж) для каждой из сло­воформ.

Различают точные и приближенные методы морфологического анализа. Точных методы базируются на использовании словаря основ слов или слово­форм, приближенные - на экспериментально установленной связи между ко­нечными буквосочетаниями словоформ и их грамматической информацией.

Использование словаря словоформ в точных методах позволяет легко преодолеть трудности морфологического анализа, связанные с такими явлениями в русском языке, как, например, чередование гласных и согласных. При таком подходе задача получения основ слов и грамматических признаков сводится в основном к поиску в словаре и выбору соответствующей информации (соб­ственно же морфологический анализ требуется лишь в том случае, если слово- форма не найдена в словаре). При достаточно полном словаре скорость обработки материала достаточно высока, но объем необходимой памяти в 2-3 раза больше, чем при использовании словаря основ.



Морфологический анализ с использованием словаря основ базируется на флективном анализе, цель которого - правильное выделение основы слова. Основная трудность при использовании данного подхода связана с явлением омонимии основ слов. Для ее устранения проверяется совместимость выделенной основы слова и его окончания.

В основе приближенных методов морфологического анализа лежит гипоте­за, согласно которой по конечным буквам и буквосочетаниям можно практичес­ки однозначно определить грамматический класс слова. Основа слова выделяет­ся следующим образом - от конца слова последовательно отсоединяется по 1-й букве и полученные буквосочетания сравниваются со списком окончаний, соответствующих данному грамматическому классу. Как только появится совпаде­ние, делается вывод о том, что оставшаяся часть слова - его основа. Для анализа обычно хватает биграмм, триграммы и четырехграммы используются редко.

В результате проведения морфологического анализа могут возникать неоднозначности при определении грамматической информации, которые снимаются после проведения синтаксического анализа.

Задачей синтаксического анализа является осуществление грамматического разбора предложений на основе информации, заложенной в словаре. На этом этапе выделяется подлежащее, сказуемое, дополнение и т.п., между которыми указываются связи по управлению в виде дерева зависимостей.

Любые средства синтаксического анализа состоят из двух частей: базы знаний о конкретном языке и собственно алгоритма синтаксического анализа, т.е. набора стандартных операторов, обрабатывающих текст на основе этих зна­ний. Источником знаний (грамматических) являются данные, полученные в результате морфологического анализа, а также различные таблицы, которые априорно заполнены стандартным образом и представляют собой результат эмпирической обработки текстов на ЕЯ человеком с целью выделения определенных закономерностей, необходимых для проведения синтаксического ана­лиза. Основу этих таблиц составляют совокупности конфигураций или наборы валентностей (синтаксических и семантико-синтаксических), представляющих собой списки лексических единиц с указанием для каждой из них всех возмож­ных вариантов связей с другими единицами выражения на ЕЯ (т.е. потенциаль­ных связей). При практической реализации синтаксического анализа старают­ся добиваться полной независимости правил переработки данных таблиц от их содержимого, чтобы изменение в случае необходимости этого содержимого не влекло за собой перестройку самого алгоритма.

Автоматическое индексирование

Автоматическое индексирование документов может основываться на про­стых, однословных или многословных составных терминах (фразах). Про­стые, однословные термины далеко не идеальны для индексирования, по­скольку смысл слов вне контекста нередко бывает неоднозначным. Терми­ны-фразы более осмысленны, обладают большей дискриминирующей мо­щью. Для генерации фраз может использоваться как синтаксический ана­лиз, так и ряд эвристических алгоритмов. Ниже приведено описание одного из них.

Предположим, что термин-фраза состоит из основы фразы (обычно это ее главная часть) и остальных компонентов. Термин с частотой вхождения в документы, превышающей установленный порог, например f>2, отмечается как основа фразы. Другими компонентами фразы должны быть термины со сред­ней или низкой частотой вхождения. При этом учитывается их связь с основой фразы, например, размещение их в одном предложении или на некотором заданном расстоянии друг от друга.

Основу современных методов автоматического индексирования составляет присваивание весовых коэффициентов терминам на основе статистических характеристик (рассматривается частота использования термина в документе).

Еще один статистический метод индексирования основывается на дискриминации по термину. Здесь каждый документ рассматривается как точка в пространстве документов. Чем больше сходства у множеств терминов двух документов, тем ближе расположены соответствующие точки в пространстве документов (иными словами, повышается плотность точек в пространстве документов), и наоборот.

В рамках данной схемы можно оценивать качество термина как дискрими­натора документа, основываясь на том, какие изменения произойдут в простран­стве документов после введения термина в индекс. Для количественной оцен­ки такого изменения удобно использовать увеличение или уменьшение рассто­яния между документами. Термин является хорошим дискриминатором, если его введение увеличивает среднее расстояние между документами. Другими словами, термин с хорошими дискриминирующими качествами снижает плотность в пространстве документов.

 

Харрингтон Д.О. Название статьи [Электронный ресурс] / Название сайта. Режим доступа: www.gvdjvbknkdsfvlv.cbv/vcjhgjd.htm (дата обращения: 12.05.2016).





©2015 www.megapredmet.ru Все права принадлежат авторам размещенных материалов.