ПРИМЕНЕНИЕ МЕТОДА ПОСТРОЕНИЯ ДЕРЕВА РЕШЕНИЙ Для решения проблемы, какую же фирму-производителя потребителю выбрать для покупки качественной плитки по своим доходам. В качестве исходных данных была взята выборка, состоящая из 200 записей. Где каждая запись – это описание характеристик видов керамической плитки. При обучении дерева использовались следующие факторы, определяющие плитку: «Фирма-производитель», «Коллекция», «Назначение плитки», «Размер плитки», «Степень износостойкости», «Цена». Целевым полем является – «Фирма-производитель» принимающая значения от 1 до 5. 1) Настройка назначения полей Здесь необходимо определить, как будут использоваться поля исходного набора данных при обучении дерева и дальнейшей практической работе с ним. В левой части окна представлен список всех полей исходного набора данных. Для настройки поля следует выделить его в списке, при этом в правой части окна будут отображены текущие параметры поля: Имя поля - идентификатор поля, определенный для него в источнике данных. Изменить его здесь нельзя. Тип данных - тип данных, содержащихся в поле (вещественный, строковый, дата). Он также задается в источнике данных и здесь изменен быть не может. Назначение - здесь необходимо выбрать порядок использования данного поля при обучении и работе дерева решений. Выбор производится с помощью списка, открываемого кнопкой и содержащего следующие варианты: · Входное - значения поля будут являться исходными данными для построения и дальнейшей практической работы дерева решений, на их основе будет производиться классификация. · Выходное - будет содержать результаты классификации. Выходное поле может быть только одно и оно должно быть дискретным. · Информационное - поле не будет использоваться при обучении дерева, но будет помещено в результирующий набор в исходном состоянии. · Неиспользуемое - поле не будет использоваться при построении и работе дерева решений и будет исключено из результирующей выборки. В отличие от непригодного, такое поле может быть использовано, если в этом возникнет необходимость. · Непригодное - поле не может быть использовано при построении и работе алгоритма, но будет помещено в результирующий набор в исходном состоянии. Вид данных - указывает на характер данных, содержащихся в поле (непрерывный или дискретный). Изменить это свойство здесь нельзя.  Рисунок 4 - Настройка назначения полей Мы назначили выходным – поле «Фирмы», входными данными были назначены все оставшиеся поля кроме поля «Артикул». 2) Разбиение исходного набора данных на подмножества Здесь можно разбить обучающую выборку для на два множества - обучающее и тестовое. · Обучающее множество - включает записи (примеры), которые будут использоваться в качестве входных данных, а также соответствующие желаемые выходные значения. Тестовое множество - также включает записи, содержащие входные и желаемые выходные значения, но используемое не для обучения модели, а для проверки его результатов.  Рисунок 5 - Разбиение исходного набора данных на подмножества 3) Настройка параметров обучения дерева решений Здесь устанавливаются параметры, в соответствии с которыми будет проводиться обучение дерева: · "Минимальное количество примеров, при котором будет создан новый узел" - задается минимальное количество примеров, которое возможно в узле. Если примеров, которые попадают в данный узел, будет меньше заданного - узел считается листом (т.е. дальнейшее ветвление прекращается). · "Строить дерево с более достоверными правилами в ущерб сложности" - установка данного флажка включает специальный алгоритм, который, усложняя структуру дерева, увеличивает достоверность результатов классификации. Сброс данного флажка хотя и приводит к упрощению дерева, снижает достоверность результатов классификации. · "Уровень доверия, используемый при отсечении узлов дерева". Значение этого параметра задается в процентах и должно лежать в пределах от 0 до 100. Эти значения выбираются из списка. Чем больше уровень доверия, тем более ветвистым получается дерево, и, соответственно, чем меньше уровень доверия, тем больше узлов будет отсечено при его построении.  Рисунок 6 - Настройка параметров обучения дерева решений 4) Запуск процесса обработки. На данном шаге производится собственно построение дерева. В зависимости от объема обрабатываемых данных и быстродействия компьютера, оно может занять определенное время  Рисунок 7 - Запуск процесса обработки 5) Выбираем способы отображения данных  Рисунок 8 - Выбираем способы отображения данных 6) Просмотр результатов (См. приложение В) |