Атрибуция
/ Определение информативных параметров
Применяемая в данной работе процедура атрибуции, как и любая классификационно-типологическая процедура, невозможна без осуществления важнейшего этапа исследования, предшествующего использованию алгоритма распознавания, – выбора параметрического пространства и снижения его размерности. Параметрическое пространство составили 54 параметра из априорного словаря параметров, и следующий этап исследования заключается в отборе из полученного априорного словаря небольшого числа информативных параметров.
Для определения информативного набора параметров был проведен эксперимент по описанию априорных классов на языке параметров из априорного словаря параметров, для чего были сделаны прикидочные случайные выборки объемом в 200 предложений для каждого априорного класса. Статистические данные для априорных классов и атрибутируемых объектов приведены в табл. 6.1 - 6.3.3).
Таблица 6.1
Статистические характеристики распределений параметров
для класса Gary
Параметр |
Xср.i |
σ |
Параметр |
Xcp.i |
σ |
1 |
2 |
3 |
4 |
5 |
6 |
X01 |
4,450 |
6,362 |
X28 |
1,405 |
1,349 |
X02 |
1,945 |
1,241 |
X29 |
0,390 |
0,735 |
X03 |
0,430 |
0,545 |
X30 |
1,970 |
1,268 |
X04 |
0,515 |
1,094 |
X31 |
1,375 |
1,096 |
X05 |
0,025 |
0,234 |
X32 |
0,300 |
0,593 |
X06 |
0,615 |
0,917 |
X33 |
0,965 |
2,137 |
X07 |
0,500 |
0,744 |
X34 |
0,350 |
0,906 |
X08 |
0,120 |
0,383 |
X35 |
0,040 |
0,221 |
X09 |
0,010 |
0,100 |
X36 |
0,065 |
0,402 |
X10 |
0,010 |
0,141 |
X37 |
0,385 |
2,294 |
X11 |
1,365 |
1,099 |
X38 |
0,080 |
0,338 |
X12 |
0,010 |
0,100 |
X39 |
0,405 |
1,998 |
X13 |
0,060 |
0,295 |
X40 |
1,725 |
2,199 |
X14 |
0,085 |
0,489 |
X41 |
0,170 |
0,471 |
X15 |
12,950 |
10,911 |
X42 |
0,975 |
1,458 |
X16 |
5,715 |
5,913 |
X43 |
0,765 |
1,276 |
X17 |
4,330 |
4,444 |
X44 |
0,315 |
0,615 |
X18 |
1,955 |
2,337 |
X45 |
1,125 |
2,568 |
X19 |
2,465 |
2,037 |
X46 |
0,005 |
0,071 |
X20 |
2,040 |
1,333 |
X47 |
0,030 |
0,424 |
X21 |
1,000 |
1,338 |
X48 |
0,020 |
0,140 |
X22 |
0,845 |
1,144 |
X49 |
0,100 |
0,709 |
X23 |
2,935 |
3,177 |
X50 |
2,235 |
2,466 |
X24 |
0,855 |
1,274 |
X51 |
2,080 |
2,369 |
X25 |
0,335 |
0,704 |
X52 |
8,365 |
10,165 |
X26 |
0,545 |
0,907 |
X53 |
6,005 |
7,181 |
X27 |
0,245 |
0,563 |
X54 |
2,490 |
3,543 |
Таблица 6.2
Статистические характеристики распределений параметров
для класса Pavlowitch
Параметр |
Xcp.i |
σ |
Параметр |
Xcp.i |
σ |
1 |
2 |
3 |
4 |
5 |
6 |
X01 |
5,675 |
7,303 |
X28 |
0,990 |
1,190 |
X02 |
1,675 |
1,337 |
X29 |
0,240 |
0,533 |
X03 |
0,280 |
0,472 |
X30 |
1,525 |
1,098 |
X04 |
0,505 |
0,987 |
X31 |
0,730 |
0,996 |
X05 |
0,070 |
0,309 |
X32 |
0,305 |
0,659 |
X06 |
0,335 |
0,660 |
X33 |
0,625 |
1,282 |
X07 |
0,300 |
0,591 |
X34 |
0,235 |
0,763 |
X08 |
0,030 |
0,171 |
X35 |
0,070 |
0,355 |
X09 |
0,000 |
0,000 |
X36 |
0,035 |
0,210 |
X10 |
0,000 |
0,000 |
X37 |
0,190 |
1,145 |
X11 |
0,820 |
1,018 |
X38 |
0,075 |
0,282 |
X12 |
0,040 |
0,197 |
X39 |
0,495 |
1,977 |
X13 |
0,020 |
0,140 |
X40 |
1,510 |
2,190 |
X14 |
0,020 |
0,140 |
X41 |
0,175 |
0,419 |
X15 |
9,710 |
7,375 |
X42 |
0,865 |
1,235 |
X16 |
3,910 |
3,726 |
X43 |
0,660 |
1,039 |
X17 |
3,880 |
3,323 |
X44 |
0,690 |
1,068 |
X18 |
1,830 |
2,339 |
X45 |
2,680 |
5,032 |
X19 |
1,230 |
1,459 |
X46 |
0,030 |
0,222 |
X20 |
1,500 |
1,147 |
X47 |
0,120 |
0,916 |
X21 |
0,480 |
0,736 |
X48 |
0,020 |
0,173 |
X22 |
0,690 |
0,900 |
X49 |
0,065 |
0,585 |
X23 |
1,780 |
2,094 |
X50 |
2,150 |
2,093 |
X24 |
0,550 |
0,825 |
X51 |
1,725 |
1,854 |
X25 |
0,150 |
0,367 |
X52 |
6,875 |
8,947 |
X26 |
0,410 |
0,688 |
X53 |
5,000 |
6,411 |
X27 |
0,280 |
0,731 |
X54 |
1,895 |
2,788 |
Таблица 6.3.1
Статистические характеристики распределений параметров
для атрибутируемого объекта А1
Параметр |
Xcp.i |
σ |
Параметр |
Xcp.i |
σ |
1 |
2 |
3 |
4 |
5 |
6 |
X01 |
3,245 |
5,581 |
X28 |
1,604 |
1,261 |
X02 |
2,642 |
1,991 |
X29 |
0,566 |
0,721 |
X03 |
0,509 |
0,608 |
X30 |
2,547 |
1,845 |
X04 |
0,755 |
1,142 |
X31 |
2,094 |
1,471 |
X05 |
0,000 |
0,000 |
X32 |
0,566 |
0,747 |
X06 |
1,057 |
1,598 |
X33 |
1,377 |
1,799 |
X07 |
0,642 |
0,943 |
X34 |
0,150 |
0,533 |
X08 |
0,226 |
0,577 |
X35 |
0,113 |
0,375 |
X09 |
0,094 |
0,354 |
X36 |
0,057 |
0,233 |
X10 |
0,057 |
0,233 |
X37 |
0,226 |
0,954 |
X11 |
2,038 |
1,454 |
X38 |
0,019 |
0,137 |
X12 |
0,000 |
0,000 |
X39 |
0,151 |
1,099 |
X13 |
0,094 |
0,354 |
X40 |
1,642 |
2,193 |
X14 |
0,076 |
0,267 |
X41 |
0,113 |
0,320 |
X15 |
14,377 |
10,529 |
X42 |
0,868 |
1,241 |
X16 |
5,717 |
5,168 |
X43 |
0,491 |
0,912 |
X17 |
3,660 |
3,442 |
X44 |
0,283 |
0,632 |
X18 |
2,000 |
2,481 |
X45 |
0,887 |
2,063 |
X19 |
3,321 |
2,702 |
X46 |
0,000 |
0,000 |
X20 |
2,585 |
1,791 |
X47 |
0,000 |
0,000 |
X21 |
0,962 |
0,808 |
X48 |
0,000 |
0,000 |
X22 |
1,302 |
1,353 |
X49 |
0,000 |
0,000 |
X23 |
2,472 |
2,454 |
X50 |
1,830 |
1,827 |
X24 |
1,415 |
1,447 |
X51 |
1,811 |
1,991 |
X25 |
0,566 |
0,844 |
X52 |
7,189 |
8,380 |
X26 |
0,849 |
0,886 |
X53 |
5,170 |
6,182 |
X27 |
0,547 |
0,798 |
X54 |
2,057 |
2,515 |
Таблица 6.3.2
Статистические характеристики распределений параметров
для атрибутируемого объекта А2
Параметр |
Xcp.i |
σ |
Параметр |
Xcp.i |
σ |
1 |
2 |
3 |
4 |
5 |
6 |
X01 |
0,578 |
2,245 |
X28 |
2,031 |
1,368 |
X02 |
3,359 |
1,567 |
X29 |
0,531 |
0,776 |
X03 |
0,922 |
0,625 |
X30 |
3,328 |
1,533 |
X04 |
1,438 |
1,308 |
X31 |
2,828 |
1,714 |
X05 |
0,016 |
0,125 |
X32 |
0,313 |
0,639 |
X06 |
1,516 |
1,247 |
X33 |
0,818 |
1,825 |
X07 |
1,109 |
0,779 |
X34 |
0,188 |
0,588 |
X08 |
0,297 |
0,525 |
X35 |
0,063 |
0,351 |
X09 |
0,063 |
0,244 |
X36 |
0,063 |
0,244 |
X10 |
0,032 |
0,250 |
X37 |
0,263 |
1,087 |
X11 |
2,594 |
1,761 |
X38 |
0,031 |
0,175 |
X12 |
0,031 |
0,175 |
X39 |
0,078 |
0,447 |
X13 |
0,172 |
0,456 |
X40 |
0,984 |
1,339 |
X14 |
0,141 |
0,350 |
X41 |
0,047 |
0,213 |
X15 |
16,531 |
8,837 |
X42 |
0,936 |
1,511 |
X16 |
6,766 |
5,206 |
X43 |
0,313 |
0,614 |
X17 |
3,734 |
2,967 |
X44 |
0,156 |
0,366 |
X18 |
1,500 |
1,670 |
X45 |
0,422 |
1,138 |
X19 |
4,594 |
2,718 |
X46 |
0,000 |
0,000 |
X20 |
3,313 |
1,689 |
X47 |
0,000 |
0,000 |
X21 |
1,516 |
1,553 |
X48 |
0,016 |
0,125 |
X22 |
1,484 |
1,436 |
X49 |
0,047 |
0,375 |
X23 |
2,453 |
2,462 |
X50 |
2,125 |
1,915 |
X24 |
2,078 |
1,515 |
X51 |
1,500 |
1,501 |
X25 |
0,984 |
1,031 |
X52 |
5,875 |
7,278 |
X26 |
1,063 |
1,067 |
X53 |
4,140 |
5,061 |
X27 |
0,594 |
0,811 |
X54 |
1,734 |
2,674 |
Таблица 6.3.3
Статистические характеристики распределений параметров
для атрибутируемого объекта А3
Параметр |
Xcp.i |
σ |
Параметр |
Xcp.i |
σ |
1 |
2 |
3 |
4 |
5 |
6 |
X01 |
3,735 |
7,479 |
X28 |
1,578 |
1,170 |
X02 |
2,398 |
1,431 |
X29 |
0,699 |
1,176 |
X03 |
0,542 |
0,570 |
X30 |
2,325 |
1,458 |
X04 |
0,892 |
1,210 |
X31 |
2,084 |
1,416 |
X05 |
0,012 |
0,110 |
X32 |
0,325 |
0,543 |
X06 |
0,880 |
1,162 |
X33 |
0,843 |
1,526 |
X07 |
0,615 |
0,713 |
X34 |
0,205 |
0,639 |
X08 |
0,169 |
0,437 |
X35 |
0,048 |
0,216 |
X09 |
0,060 |
0,361 |
X36 |
0,024 |
0,154 |
X10 |
0,024 |
0,154 |
X37 |
0,060 |
0,394 |
X11 |
2,145 |
1,466 |
X38 |
0,036 |
0,188 |
X12 |
0,012 |
0,110 |
X39 |
0,133 |
0,694 |
X13 |
0,024 |
0,154 |
X40 |
1,084 |
1,232 |
X14 |
0,024 |
0,154 |
X41 |
0,108 |
0,313 |
X15 |
13,723 |
7,882 |
X42 |
0,843 |
1,392 |
X16 |
5,398 |
4,442 |
X43 |
0,350 |
0,652 |
X17 |
3,374 |
2,607 |
X44 |
0,289 |
0,507 |
X18 |
1,277 |
1,252 |
X45 |
0,988 |
2,092 |
X19 |
3,289 |
2,371 |
X46 |
0,000 |
0,000 |
X20 |
2,470 |
1,451 |
X47 |
0,000 |
0,000 |
X21 |
1,566 |
1,571 |
X48 |
0,012 |
0,110 |
X22 |
1,675 |
4,814 |
X49 |
0,061 |
0,549 |
X23 |
2,181 |
2,061 |
X50 |
1,904 |
1,764 |
X24 |
1,289 |
1,566 |
X51 |
1,434 |
1,290 |
X25 |
0,506 |
0,955 |
X52 |
6,000 |
6,143 |
X26 |
0,771 |
0,902 |
X53 |
4,181 |
4,362 |
X27 |
0,337 |
0,753 |
X54 |
1,747 |
2,089 |
Результаты эксперимента были представлены в виде объектно-признаковых матриц данных размерностью nxN=200x54, где n – число параметров, а N – объем выборки. Общее число элементов матриц данных составило по 10 800. Ввиду большого объема выборки было использовано обратное построение матриц данных, при котором набор значений параметров представляется соответствующей строкой матрицы, а значения всех параметров на объектах (предложениях) – соответствующим столбцом. Затем были вычислены статистические характеристики анализируемых объектов: среднее арифметическое ( x ) и стандартное отклонение ( σ ) для каждого класса.
При формировании набора информативных параметров была применена схема Бонгарда, предусматривающая двухступенчатое свертывание параметрического пространства [Бонгард, 1967].
На первом этапе происходит разбиение априорного набора информативных параметров на два подмножества параметров, релевантных и не релевантных для различения априорных классов. Для этого была произведена автоматическая классификация параметров в одномерном пространстве. Релевантность параметров для различения априорных классов определяется по t-критерию Стьюдента, пороговое значение которого при уровне значимости α=0,05 равно 1,96 [Герасимович, Матвеева, 1978, с. 71]. Процесс классификации заключается в сравнении значений критерия с пороговым значением (табл. 7). Если наблюдаемое значение критерия больше порогового, то параметр относится к числу релевантных для различения априорных классов, в противном случае он исключается из дальнейшего рассмотрения.
Таблица 7
Проверка статистической гипотезы существенности разности двух средних
Параметр |
Gary / Pavlowitch) |
Параметр |
Gary / Pavlowitch |
|
t |
|
t |
1 |
2 |
3 |
4 |
X01 |
1,789 |
X28 |
3,262 |
X02 |
2,093 |
X29 |
2,336 |
X03 |
2,944 |
X30 |
3,753 |
X04 |
0,096 |
X31 |
6,160 |
X05 |
1,642 |
X32 |
0,080 |
X06 |
3,506 |
X33 |
1,930 |
X07 |
3,052 |
X34 |
1,372 |
X08 |
3,038 |
X35 |
1,016 |
X09 |
1,418 |
X36 |
0,936 |
X10 |
1,000 |
X37 |
1,076 |
X11 |
5,193 |
X38 |
0,161 |
X12 |
1,926 |
X39 |
0,453 |
X13 |
1,733 |
X40 |
0,980 |
X14 |
1,807 |
X41 |
0,112 |
X15 |
1,485 |
X42 |
0,814 |
X16 |
1,662 |
X43 |
0,902 |
X17 |
1,160 |
X44 |
1,306 |
X18 |
0,535 |
X45 |
1,893 |
X19 |
6,971 |
X46 |
1,517 |
X20 |
4,382 |
X47 |
1,260 |
X21 |
4,816 |
X48 |
0,000 |
X22 |
1,555 |
X49 |
0,539 |
X23 |
4,292 |
X50 |
0,372 |
X24 |
2,842 |
X51 |
1,669 |
X25 |
3,386 |
X52 |
1,556 |
X26 |
1,740 |
X53 |
1,477 |
X27 |
0,537 |
X54 |
1,867 |
Из табл. 7 видно, что статистически значимой является разность средних для параметров Х02, Х03, Х06, Х07, Х08, Х11, Х19, Х20, Х21, Х23, Х24, Х25, Х28, Х29, Х30, Х31 (наблюдаемые значения t-критерия больше критического). Все остальные параметры оказываются нерелевантными для различения априорных классов.
В дальнейшем подмножество диагностических параметров будет формироваться на основе группы из 16 параметров, релевантных для разделения априорных классов.
Второй этап схемы Бонгарда предусматривает процедуру свертывания параметрического пространства на подмножестве информативных параметров.
Процедура свертывания параметрического пространства происходит путем обработки матрицы связей параметров, для построения которой из двух объектно-признаковых матриц данных была составлена связная объектно-признаковая матрица, вектор-строки которой соответствуют параметрам, а вектор-столбцы – предложениям. Полученная матрица данных имеет размерность Nxn, где N=400, а n=54.
На основе объектно-признаковой матрицы была сформирована корреляционная матрица связей параметров, элементами которой являются выборочные коэффициенты корреляции.
Содержательный критерий информативности набора параметров заключается в слабой корреляции информативных параметров между собой и сильной их корреляции с остальными параметрами, не вошедшими в эту группу.
На основе корреляционной матрицы были определены средняя внутригрупповая корреляция [A] и средняя внегрупповая корреляция [B] каждого параметра. Затем были вычислены критерии эффективности каждого параметра [C].
Таблица 8
Критерий эффективности
Параметр |
A |
B |
C |
Х02 |
0,264 |
0,645 |
0,410 |
Х03 |
0,204 |
0,578 |
0,352 |
Х06 |
0,264 |
0,676 |
0,391 |
Х07 |
0,240 |
0,609 |
0,394 |
Х08 |
0,179 |
0,441 |
0,404 |
Х11 |
0,203 |
0,637 |
0,318 |
Х19 |
0,222 |
0,648 |
0,343 |
Х20 |
0,290 |
0,694 |
0,417 |
Х21 |
0,202 |
0,441 |
0,457 |
Х23 |
0,389 |
0,410 |
0,951 |
Х24 |
0,302 |
0,594 |
0,509 |
Х25 |
0,192 |
0,533 |
0,360 |
Х28 |
0,276 |
0,496 |
0,557 |
Х29 |
0,150 |
0,321 |
0,467 |
Х30 |
0,277 |
0,686 |
0,403 |
Х31 |
0,216 |
0,656 |
0,329 |
Из табл. 8 видно, что подмножество из шестнадцати параметров разбивается, в свою очередь, на подмножество из трех параметров (Х23, Х24, Х28), значения для эффективности которых лежат в интервале [0,509 – 0,951], и на подмножество из тринадцати параметров, значения для эффективности которых лежат в интервале [0,318 – 0,467].
Т.о., из подмножества шестнадцати параметров удалось выделить подмножество из трех параметров, удовлетворяющих сформулированным ранее требованиям сильной корреляции с другими параметрами совокупности и способности к разделению объектов на классы.
В дальнейшем в эксперименте по классификации текстов каждый априорный класс и роман будут характеризоваться набором из трех диагностических (информативных) параметров (табл. 9), а классификация объектов будет производиться в 3-мерном пространстве, осями которого являются данные параметры.
Таблица 9
Информативные параметры
Код параметра |
Наименование параметра |
X23 |
Число предлогов |
X24 |
Число союзов |
X28 |
Число прямых дополнений |
<<Читать далее про определение координат распознаваемых объектов и эталонов априорных классов |
Полезные ссылки:
Авторы исследований
Фотогалерея
|