Новый подход в корреляционном анализе количественных признаков

Скуридин Г.М., Багинская Н.В.
Институт цитологии и генетики СО РАН, Новосибирск

Корреляционный анализ находит широкое применение в биологических, медицинских, психологических и других исследованиях. Это связано с возможностью выявления и объективной количественной оценки взаимосвязей между количественными признаками, что в свою очередь, позволяет находить новые объективные закономерности их варьирования и на этой основе делать прогнозы уровня неизвестных либо сложных признаков по величине известных и более простых.

Однако в большинстве случаев содержательная интерпретация результатов корреляционного анализа затрудняется многофакторностью формирования признаков: внешними условиями, генотипом организма, моментом наблюдения (стадией развития) и т.д. По этой причине непосредственно наблюдаемые (фенотипические) корреляции чрезвычайно лабильны. Попытки решения проблемы адекватной интерпретации на пути непосредственного анализа смешанных фенотипических корреляций (факторный анализ, корреляционные плеяды и т.д.) дают неоднозначные результаты.

В соответствии с основными типами биологической изменчивости признаков, принято различать следующие основные типы корреляций между ними [3]:

Фенотипические - корреляции, определяемые в генетически гетерогенной популяции на экологически неоднородном фоне;

Экологические - корреляции, обусловленные влиянием экологических различий на генетически гомогенную популяцию, например, вегетативный клон или чистую линию.

Генотипические - корреляции, выявляемые на экологически однородном фоне в генетически гетерогенной популяции.

Очевидно, что содержательный корреляционный анализ возможен лишь при учёте эффектов отдельных факторов изменчивости.

Кроме того, в связи с разработкой компьютерных баз данных возникла проблема включения всей имеющейся фрагментарной и разнородной информации в статистический анализ. В случае прямого механического объединения таких выборок, проведение корректного анализа, как правило, невозможно [8].

Наиболее приемлемым путём решения вышеназванных проблем, на наш взгляд, является оригинальный метод преобразования исходных данных путём внесения факторных поправок, который был разработан нами на основе многомерной несбалансированной рандомизированной аддитивной линейной модели формирования количественного признака со случайными факторами [7,11]. При выборе исходной модели мы исходили из следующих общих посылок и допущений:

  1. Факторы биологической изменчивости независимы друг от друга. Уровни факторов принимаются неизвестными, следовательно, факторы изменчивости являются случайными.
  2. Между колебаниями фактора изменчивости и значением количественного признака существует линейная зависимость.
  3. Выборочные средние являются несмещёнными оценками генеральных средних.

В случае трёх независимых факторов (генетического, экологического и онтогенетического) модель выглядит следующим образом:

$x_{ijk}=\mu _{x}$ + G$_{xi}$ + E$_{xj}$ + D $_{xk}+\varepsilon
_{xijk} $        (1)
Здесь $x_{ijk}$ - наблюдаемое фенотипическое значение признака (X); $\mu
_{x}$ - математическое ожидание для среднего по всем наблюдениям этого признака (М$_{x})$; G$_{xi}$ - математическое ожидание эффекта $i$ - го генотипа; E$_{xj}$ - математическое ожидание эффекта $j$-х экологических условий; D$_{xk}$ - математическое ожидание эффекта $k$-го момента времени наблюдения признака; $\varepsilon _{xijk} $- ошибка наблюдения признака X в условиях ijk.

В большинстве популяционно-генетических исследований значение признака у всех исследуемых объектов определяется в какой-либо заданный момент времени, тогда

D $_{x} \quad _{} $= 0,
а формула (1) приобретает вид:
$x_{ij}=\mu _{x}$ + G$_{xi}$ + E $_{xj}+\varepsilon _{xij} $
Далее, если при этом соблюдается условие идентичности условий внешней среды (E$_{x}$=0), т.е. выявляется только генотипическая изменчивость, то эта формула ещё более упрощается:
$x_{i}=\mu_{x}$+ G $_{xi}+\varepsilon _{xi} $
Таким образом, в данном случае вся фенотипическая изменчивость признака X определяется только смещением, вызванным эффектом $i$ - го генотипа по данному признаку G$_{xi}$ и случайным отклонением наблюдения $\varepsilon _{xi}$, при постоянном значении математического ожидания $\mu
_{x}$.

У того же объекта наблюдения другой количественный признак (Y) выражается как

$y_{i}=\mu_{yi}$+ G $_{yi}+\varepsilon _{yi} $.
Это значит, что если мы имеем в распоряжении совокупность значений $x_{i}$ и $y_{i}$, измеренных в генетически разнообразной популяции растений, выросших в идентичных условиях, то величина фенотипической линейной корреляции между этими двумя признаками является генотипической корреляцией [3], полностью определяясь варьирующими компонентами - G и $\varepsilon $.

В том случае, если удаётся достичь идентичности генотипов при варьировании внешних условий, то

$y_{j}=\mu_{y}$+ E $_{yj}+\varepsilon _{yj} $
$x_{j}=\mu_{x}$+ E $_{xj}+\varepsilon _{xj} $
Коэффициент корреляции между фенотипическими значениями X и Y при этом даст нам величину экологической корреляции признаков, определяющуюся варьированием E и $\varepsilon $.

Динамическая (сезонная, онтогенетическая, временная) корреляция может быть определена как фенотипическая при

$x_{k}=\mu_{x}$+ D $_{xk}+\varepsilon _{xk} $
$y_{k}=\mu_{y}$+ D $_{yk}+\varepsilon _{yk} $
Абсолютная элиминация влияния отдельных факторов практически невозможна, но есть пути их уменьшения до практически приемлемых значений.

I). Идентичность генотипов достижима путём клонирования или создания чистолинейного генетического материала.

II). Создание экологической однородности в эксперименте осуществляется путём стандартизации экспериментальных условий, что описано в обширной методической литературе [2,5,6,7].

III). Влияние динамического фактора можно практически свести к нулю, если проводить все наблюдения одновременно. Важно подчеркнуть, что вся совокупность разнородных выборок по какому-либо определённому признаку фактически представляет собой рандомизированную матрицу данных и случайных значений факторов.

Рандомизация данных обладает существенными преимуществами перед полномасштабным экспериментом [1]:

- количество параметров матрицы (т.е. наблюдаемых признаков)может быть неограниченным;
- количество наблюдений в ячейках матрицы может быть любым;
- вычисления проводятся тривиальными статистическими методами.
Таким образом, с принятием линейной аддитивной модели формирования признаков и допущением рандомизированной схемы эксперимента, задача минимизации эффекта отдельного фактора изменчивости, корректного объединения данных и последующего анализа становится вполне выполнимой и сводится к формированию набора однородных выборок по каждому из признаков путём линейных преобразований данных. Например, если исследователь имеет в своём распоряжении рандомизированную группу наблюдений $n$ генотипов в $m$ экологических ситуациях и желает выявить экологическую корреляцию между признаками X и Y, то конкретная последовательность операций будет следующей:

а) вычисление среднего значения признака по каждому генотипу;

$\overline{x_{i}} = \sum (x_{ij})/m$
$\overline{y_{i}} = \sum (y_{ij})/m$
б) определение математического ожидания среднего ($\mu )$ по каждому признаку;
$\mu_{x} = \sum(x_{i}) / n$
$\mu_{y} = \sum (y_{i}) / n$
в) определение величины линейного генотипического смещения выборок:
G $_{xi}=\mu_{x}-x_{i}$
G $_{yi}=\mu_{y}-y_{i}$
г) внесение линейной факторной (в данном случае генотипической) поправки в выборки данных даст $m$ совокупностей $x_{j}$ и $y_{j}$ :
$x_{j}=x_{ij} -$ G$_{xi}$
$y_{j}=y_{ij} -$ G$_{yi}$
д) объединение всех значений $x_{j}$ и $y_{j}$ в общую выборку по признакам X и Y, в которой изменчивость обусловлена компонентой E$_{j}$.

е) Вычисление коэффициента линейной корреляции между X и Y после внесения поправок на генотипический фактор даст нам искомый коэффициент экологической корреляции.

Выявление генотипической корреляции между X и Y происходит подобным образом с внесением соответствующих экологических поправок. Кроме величины $\mu $, выборочные средние можно привести к любой числовой величине, например, к нулю, что не влияет на значение коэффициентов линейной корреляции. Однако использование $\mu $ удобно тем, что даёт дополнительную возможность определить ещё один важный статистический показатель - коэффициент вариации признака, обусловленный данным фактором.

\begin{figure}\begin{center}
\epsfxsize=5.5in %%\epsfysize=254mm
\epsfbox{f1.eps}
\end{center}\end{figure}

Графическая иллюстрация этого подхода показана на рис.1. Большим эллипсом обозначено корреляционное поле для общей фенотипической корреляции без внесения факторных поправок, малые эллипсы - корреляционные поля в отдельных выборках и в объединённой выборке после учёта факторных поправок.

Для корреляционного анализа, проводимого в селекционно-генетических целях, наибольшее практическое значение имеет выявление эффектов генетических различий (генотипические корреляции) и колебаний внешних условий (экологические корреляции). Особая роль при этом принадлежит генотипической корреляции, которая является объективной основой создания модели сорта (породы). Экологическая корреляция имеет решающее значение при разработке оптимальной технологии содержания животных или возделывания сортов растений. Динамическая корреляция представляет существенный практический интерес в комплексе селекционно-генетических мероприятий при выявлении момента максимальной реализации генетического потенциала признака.

Для оценки информационных возможностей предлагаемого метода приведём три примера анализа данных по коррелятивной изменчивости количественных признаков у двух биологических видов: мягкой пшеницы (Triticum aestivum) и облепихи (Hippophae rhamnoides).

В первом эксперименте, описанном Ю.А. Филипченко [10], было взято по 50 растений пшеницы трёх чистых линий: Preston, Ferrugineum rossicum и Erythrospermum ircutianum. Определяли линейную корреляцию между тремя морфологическими признакми - плотностью колоса, числом зёрен в колосе и длиной зерна. Автор установил, что значения коэффициентов парной фенотипической корреляции между ними в пределах каждой чистой линии приблизительно равны. Однако при прямом объединении данных по всем трём линиям величина коэффициента резко менялась, вплоть до смены знака на обратный, причём в обоих случаях статистически достоверно (рис.2).

\begin{figure}\begin{center}
\epsfxsize=5.5in %%\epsfysize=254mm
\epsfbox{f2.eps}
\end{center}\end{figure}

Очевидно, что в пределах каждой из чистых линий наблюдавшиеся автором фенотипические корреляции фактически являются экологическими корреляциями (см. выше), обусловленными микроколебаниями внешних условий выращивания растений на делянках. Прямое объединение данных по генетически разнородным линиям вносит влияние межлинейных различий (генотипического смещения G$_{i}$ внутрилинейных средних) на фенотипическую изменчивость признаков. Таким образом, прямое объединение выборок приводит к взаимному наложению эффектов экологического и генотипического факторов.

Использование факторных поправок по предлагаемой схеме позволило разделить эффекты факторов изменчивости и выявить генотипическую и экологическую корреляцию признаков с высокой статистической достоверностью результатов (рис.2).

В другом эксперименте, выполненном по программе "ДИАС" [4] было исследовано 957 экземпляров растений пшеницы по 8 важнейшим морфологическим признакам продуктивности (вес 1000 зерен, вес зерна с растения, плотность и длина колоса, длина нижнего и верхнего междоузлия, число стеблей и продолжительность периода между всходами и колошением) из 15 сортовых популяций в 8 экологических зонах. Уровень заполнения матрицы данных в данном случае был близок к 100% . Общее количество фенотипических корреляций (со значением $r \quad \ge $ 0,50 при достоверности Р $ \ge $ 0,999), выявленных при непосредственном объединении всех наблюдений, было равно 3. В результате внесения соответствующих линейных факторных поправок в те же данные, выявляется уже 20 взаимосвязей (9 - генотипических и 11 - экологических), т.е. информационная отдача возросла более, чем в 6 раз (рис.3).

\begin{figure}\begin{center}
\epsfxsize=5.5in %%\epsfysize=254mm
\epsfbox{f3.eps}
\end{center}\end{figure}

Третий пример относится к анализу взаимосвязей между количественными показателями химического состава плодовой мякоти облепихи. Мы использовали собственные и литературные данные по фенотипической изменчивости восьми признаков: содержанию сухих веществ, сахаров, органических кислот (включая аскорбиновую), масла, суммы биологически активных липидов (в том числе каротиноидов) и массы плодов. В общей сложности были охвачены данные 33 лет (1957-1989) по 194 генотипам и 57 экологическим условиям. Реальное заполнение матрицы данных составило в среднем около 5%, но обеспечивало достаточный объём общей выборки, которую можно принять как рандомизированную ввиду независимости наблюдений разных авторов. Для приближения формы распределения к нормальной использованы логарифмы исходных данных [8] которые подвергались статистическому анализу по схеме, приведённой выше.

На рис.4 представлены полученные результаты. Приведены только корреляции с достоверностью не ниже 0,95.

\begin{figure}\begin{center}
\epsfxsize=5.5in %%\epsfysize=254mm
\epsfbox{f4.eps}
\end{center}\end{figure}

При прямом объединении данных выявляется 11 парных фенотипических корреляций. Их интерпретация неоднозначна, т.к. неизвестно, какого рода фактор (или факторы) привели к возникновению связи. Более того, в общей фенотипической картине наблюдаются два внутренне противоречивых корреляционных контура (признаки 1-2-5 и 4-5-8), где между двумя положительными располагается отрицательная связь, что является логическим "нонсенсом".

Применение метода факторных поправок для статистической обработки того же массива данных позволило выявить корреляционные комплексы ("корреляционные плеяды" признаков по терминологии Терентьева [9]), формирующиеся под влиянием трёх основных факторов изменчивости: генотипического, экологического и сезонного (динамики признаков в течение лета). По всем трём факторам в общей сложности выявлено 29 коррелятивных связей, т.е. общая информативная ценность результатов повышается почти в 3 раза. Кроме того, при этом не наблюдается ни одного контура - "нонсенса". Благодаря разделению корреляционных комплексов становится понятно, какие корреляции взаимно нейтрализуются в общей фенотипической картине. Например, связи между признаками 1-4, 2-4 и 2-8 (рис.4).

По выявленным факторным корреляционным комплексам можно строить определённые прогнозы. Так, в числе генотипических корреляций у облепихи есть узловой признак - содержание сухих веществ, положительно связанный с тремя ценными признаками: содержанием сахара, масла и каротиноидов. Селекция по этому признаку одновременно будет способствовать отбору форм с высоким генетически обусловленным содержанием трёх других ценных веществ. Следовательно, предполагаемая модель сорта технического назначения, предназначенного для переработки на лечебно-профилактические препараты, допускает одновременное сочетание высокого содержания этих компонентов химического состава. С другой стороны, выявленная отрицательная генотипическая корреляция свидетельствует о принципиальном ограничении селекции на увеличение размера плодов с высоким содержанием каротиноидов.

Прогноз влияния условий возделывания можно сделать по признаку 1 (масса плода) или 6 (масличность), к которым стягивается наибольшее число корреляций. Любые условия возделывания, способствующие крупноплодности, будут снижать общую масличность и содержание других биологически активных веществ липидной природы, причём с возрастанием общей кислотности плодов. Напротив, любые агротехнические мероприятия, приводящие в итоге к росту масличности плодов (например, высокая освещённость и обилие почвенной влаги), приведут к коррелированному улучшению большинства показателей качества урожая.

Таким образом, использование предлагаемого метода внесения факторных поправок на основе вышеприведённой модели формирования признака открывает более широкие перспективы применения корреляционного анализа и обладает рядом преимуществ:

  1. Выявляет корреляционные комплексы, обусловленные отдельными факторами изменчивости признаков.
  2. Даёт возможность провести адекватный содержательный анализ результатов.
  3. Значительно увеличивает информационную отдачу неорганизованных данных.
  4. Позволяет преодолеть причины непостоянства и неоднозначности результатов ограниченных экспериментов.

Перспективы применения данного подхода не исчерпываются физиолого-генетическими исследованиями, но могут найти применение в других областях - медицине, экологии, психологии, социологии и т.д.

Литература:

1
Бейли Н.Т. Статистические методы в биологии. Статистика, Москва, 1963.

2
Доспехов Б.А. Методика полевого опыта. Высшая школа, Москва, 1985.

3
Драгавцев В.А. Методы оценки генотипической, генетической и экологической корреляции количественных признаков в растительных популяциях. В кн. Генетический анализ количественных и качественных признаков с помощью математико-статистических методов. Наука, Москва, 1973.

4
Драгавцев В.А., Цильке Р.А., Рейтер Б.Г. и др. Генетика признаков продуктивности яровых пшениц в Западной Сибири. Наука, Новосибирск, 1984.

5
Коваль С.Ф., Шаманин В.П. Растение в опыте. ИЦиГ СО РАН, ОмГАУ, Омск, 1999.

6
Любищев А.А. Дисперсионный анализ в биологии. МГУ, Москва, 1986.

7
Налимов В.В. Теория эксперимента. Наука, Москва, 1971.

8
Снедекор Д.У. Статистические методы в применении к исследованиям в сельском хозяйстве и биологии. Статистика, Москва, 1961.

9
Терентьев П.В. Дальнейшее развитие метода корреляционных плеяд. В кн. Применение математических методов в биологии. ЛГУ, Ленинград, 1960.

10
Филипченко Ю.А. Изменчивость количественных признаков мягких пшениц. В кн. Классики советской генетики. Наука, Москва, 1968.

11
Шеффе Г. Дисперсионный анализ. Мир, Москва, 1980.


Ваши комментарии
[SBRAS]
[Головная страница]
[Конференции]
[СО РАН]

© 2001, Сибирское отделение Российской академии наук, Новосибирск
© 2001, Объединенный институт информатики СО РАН, Новосибирск
© 2001, Институт вычислительных технологий СО РАН, Новосибирск
© 2001, Институт систем информатики СО РАН, Новосибирск
© 2001, Институт математики СО РАН, Новосибирск
© 2001, Институт цитологии и генетики СО РАН, Новосибирск
© 2001, Институт вычислительной математики и математической геофизики СО РАН, Новосибирск
© 2001, Новосибирский государственный университет
Дата последней модификации Saturday, 06-Oct-2001 17:18:45 NOVST