18 GMM кластеризация: Определение широкопалости самцов краба-стригуна
18.1 Введение
Определение функциональной зрелости у самцов крабов-стригунов — одна из тех задач, где биология встречается с статистикой лицом к лицу, и где простое наблюдение часто уступает место изощренному анализу. У самцов краба-стригуна переход к половозрелости маркируется драматическим изменением морфометрии: узкие, почти изящные клешни неполовозрелого «ювениала» (фенотип “узкопалый”) сменяются массивным, брутальным инструментом половозрелого самца (фенотип “широкопалый”). Этот аллометрический скачок — не просто украшение, а ключевой адаптивный признак, определяющий успех в боях за территорию и самок, а значит, и репродуктивный вклад особи. Проблема в том, что в природе редко встречаются учебные примеры; вместо этого она подсовывает нам сплошной континуум, где самый тощий жених запросто может оказаться рядом с самым упитанным холостяком, а шум измерений и индивидуальная изменчивость довершают картину хаоса. Задача исследователя — найти объективную границу в этом континууме, разделив популяцию на две функциональные группы, даже если сами крабы об этой границе не подозревают.
Метод «классификация без учителя» — это по сути попытка найти скрытую структуру в данных, когда у нас есть измерения, но нет заранее известных меток. Мы как бы спрашиваем данные: “На какие осмысленные группы вы сами хотите распасться?”. Базовые методы вроде k-means пытаются сделать это жестко, проставляя границы по принципу ближайшего центра, что часто приводит к ошибкам на перекрывающихся хвостах распределений. Иерархическая кластеризация видит структуру вложенно, но чувствительна к шуму и опять-таки требует субъективного выбора уровня отсечения. Модели гауссовских смесей (Gaussian mixture models; GMM) подходят к задаче иначе — они не просто группируют точки, а предполагают, что каждая точка порождена одной из нескольких вероятностных моделей (компонент смеси), каждая из которых является многомерным нормальным распределением со своими параметрами — вектором средних и ковариационной матрицей. Это мощное допущение: оно позволяет каждой группе иметь свою собственную форму, размер и ориентацию в пространстве признаков, что биологически осмысленно — ведь мы и ожидаем, что “широкопалые” особи будут не только в среднем крупнее, но и иметь иную форму соотношения ширины карапакса и клешни по сравнению с “узкопалыми”. Преимущество GMM в том, что это мягкая, вероятностная кластеризация; вместо того чтобы насильно приписывать наблюдение к кластеру, модель оценивает вероятность принадлежности, что особенно ценно для пограничных случаев, которые в биологии встречаются сплошь и рядом. Однако и у классического GMM есть ахиллесова пята — он, как и большинство методов, основанных на нормальном распределении, чувствителен к выбросам. Стоит появиться нескольким аномально крупным или, наоборот, мелким особям, и оценки параметров могут сместиться, а границы кластеров — исказиться. Именно здесь на сцену выходит робастная (robust) GMM, основанная на t-распределении Стьюдента. t-распределение имеет более тяжелые хвосты, чем гауссово, что позволяет модели терпимее относиться к выбросам — они перестают быть “проблемными точками, которые нужно во что бы то ни стало объяснить”, а становятся просто маловероятными, но допустимыми событиями. Робастная GMM не пытается подогнать компоненты смеси под все точки сразу, а более устойчиво оценивает параметры основных, центральных групп, игнорируя экстремальные отклонения. Т.е. подобен человеку, который на шумной вечеринке слушает не всех сразу, а только тех, кто говорит внятно и по делу, мудро игнорируя пьяные дискуссии о работе. В контексте нашей задачи это важно: полевые данные по крабам почти всегда зашумлены — возможны ошибки промеров, наличие больных или травмированных особей, наконец, просто природные аномалии, которые не отменяют общего правила. Использование робастной GMM позволяет нам сосредоточиться на основной биологической сигнатуре — различии между двумя фенотипами, — не позволяя шуму заглушить этот сигнал. Таким образом, применение такой разновидности GMM это не просто технический выбор, а методологическая необходимость, позволяющая извлечь из данных истинную биологическую структуру, скрытую за завесой естественной изменчивости и погрешности измерения.
18.2 Данные и скрипты
Исходные данные по ширине карапакса и высоте клешни находятся здесь. Скрипты можно скачать целиком: Первый - три разновидности метода классификации, включая обычную GMM. Второй – робастная GMM. Третий – прогноз с использованием робастной GMM.