WWW.KNIGI.KONFLIB.RU

БЕСПЛАТНАЯ ЭЛЕКТРОННАЯ БИБЛИОТЕКА

 
<< HOME
Научная библиотека
CONTACTS

Pages:     || 2 | 3 | 4 | 5 |   ...   | 72 |

«В.К. Шитиков, Г.С. Розенберг Рандомизация и бутстреп: статистический анализ в биологии и экологии с использованием R Исправленная и дополненная интернет-версия от ...»

-- [ Страница 1 ] --

Российская академия наук

Институт экологии Волжского бассейна

В.К. Шитиков, Г.С. Розенберг

Рандомизация и бутстреп:

статистический анализ в биологии и экологии

с использованием R

Исправленная и дополненная интернет-версия от 15.11.2013

Тольятти 2013

Шитиков В.К., Розенберг Г.С. Рандомизация и бутстреп: статистический анализ в

биологии и экологии с использованием R. - Тольятти: Кассандра, 2013. - 314 с.

ISBN В книге представлено описание широкой панорамы статистических методов, как повсеместно используемых, так и не нашедших пока должного применения в обработке данных экологического мониторинга. Сюда вошли элементарная статистика, проверка гипотез, различные подходы к оценке биоразнообразия, дисперсионный анализ, специальные формы регрессии и оценки информативного набора предикторов моделей, многомерные методы классификации, редукции и распознавания образов, процедуры, использующие байесовский подход, анализ временной или пространственной динамики и т.д. Мы не ставили целью подробно описать теоретические аспекты всех этих методов, но широко иллюстрировали методику их применения на примерах биологического характера.

Совокупность представленных методов связывается двумя основополагающими идеями. Во-первых, в каждом примере мы пытались найти "изюминку" в виде использования нового класса компьютерно-интенсивных (computer-intensive) методов, в широком смысле относящихся к семейству различных процедур Монте-Карло. Наиболее детально представлен численный ресамплинг, который заключается в различных технологиях генерации повторных выборок. Описаны алгоритмы, включающие рандомизацию, перестановочный тест (permutation), бутстреп (bootstrap), метод "складного ножа" (jackknife) и кросс-проверку (cross-validation). Мы показываем, как с их помощью можно корректно проверить статистическую гипотезу или получить несмещенные характеристики искомого параметра: оценки математического ожидания, дисперсии, доверительного интервала, коэффициентов модели. Где это возможно, мы сравниваем полученные результаты с классическими асимптотическими методами, использующими то или иное стандартное предельное распределение.

Вторая "красная нить" - возможность для читателей легко воспроизвести самим технику выполнения расчетов. Мы ориентировались на статистическую среду R, которая постепенно становится общепризнанным мировым стандартом при проведении научнотехнических расчетов. В конце каждого раздела нами представлены тексты несложных скриптов в кодах R, позволяющих выполнить самостоятельно статистический анализ рассматриваемых примеров. В этой связи, представляемая монография может рассматриваться также как справочник по реализации различных алгоритмов обработки данных для исследователей, которых привлекла эта инструментальная среда.

Книга может быть использована в качестве учебного пособия по статистическим методам для студентов и аспирантов высших учебных заведений биологического профиля.

Табл. 40, ил. 131. Библиогр. 232 назв.

Рецензент: д.б.н., профессор А.А. Савельев (г. Казань) Рекомендовано к печати Ученым советом Института экологии Волжского бассейна РАН (протокол № 11 от 22 октября 2013 г.).

445003, Россия, Самарская обл., г. Тольятти, ул. Комзина, Институт экологии Волжского бассейна РАН Тел., факс: (8482) 489-504; E-mail: ievbras2005@mail.ru Сайт авторов: http://www.ievbras.ru/ecostat/Kiril ИЭВБ РАН, 2013 г.

В.К. Шитиков, Г.С. Розенберг, 2013 г.

СОДЕРЖАНИЕ

ПРЕДИСЛОВИЕ

1. БУТСТРЕП И СТАТИСТИЧЕСКОЕ ОЦЕНИВАНИЕ ВЫБОРОЧНЫХ

ХАРАКТЕРИСТИК

1.1. Точечные и интервальные характеристики 1.2. Непараметрические методы статистики и ресамплинг 1.3. Складной нож и бутстреп – механизмы генерации случайных псевдовыборок 1.4. Оценка среднего и доверительных интервалов бутстреп- методом 1.5. Подбор параметров распределений и примеры параметрического бутстрепа 1.6. Бутстрепирование индексов, характеризующих многовидовые композиции

2. ИСПОЛЬЗОВАНИЕ РАНДОМИЗАЦИИ ДЛЯ СРАВНЕНИЯ ВЫБОРОК

2.1. Проверка статистических гипотез 2.2. Использование метода рандомизации для проверки гипотез 2.3. Сравнение статистических характеристик двух независимых выборок 2.4. Рандомизационный тест для связанных выборок 2.5. Проблема множественных сравнений 2.6. Сравнение трех или более независимых выборок 2.7. Преобразование данных 2.8. Сравнение видового разнообразия систем и ограничения на 2.9. Сравнение индексов таксономического и функционального

3. СТАТИСТИЧЕСКИЕ ЗАВИСИМОСТИ И СВЯЗИ МЕЖДУ

ПЕРЕМЕННЫМИ

3.1. Оценка парной корреляции с использованием рандомизации 3.2. Анализ связи между признаками в таблицах сопряженности 3.3. Статистическая значимость регрессии двух переменных 3.4. Нелинейная регрессия и скользящий контроль 3.5. Сравнение двух линий тренда и робастная регрессия 3.6. Модели распределения популяционной плотности по

4. МНОГОМЕРНЫЕ МОДЕЛИ ДИСПЕРСИОННОГО И

РЕГРЕССИОННОГО АНАЛИЗА

4.1 Основные модели ANOVA, их ограничения и особенности 4.2. Выбор модели дисперсионного анализа с фиксированными 4.3. Модель со смешанными эффектами и проблема “мнимых 4.4. Иерархический (гнездовой) дисперсионный анализ 4.6. Селекция моделей: генетический алгоритм и случайный 4.7. Процедуры сглаживания и обобщенные аддитивные модели 5.1. Меры сходства/расстояния в многомерном пространстве 5.4. Иерархический кластерный анализ и бутстрепинг деревьев 5.5. Алгоритмы оценки оптимальности разбиения на классы 5.6. Использование нечетких множеств для классификации и 5.7. Дендрограммы и оценка функционального разнообразия

КЛАССИФИКАЦИЯ, РАСПОЗНАВАНИЕ И СНИЖЕНИЕ



РАЗМЕРНОСТИ

Методы многомерной классификации и ординации Проецирование данных в пространства малой размерности Сравнение результатов различных моделей ординации Деревья классификации с многомерным откликом Преобразование координат в геометрической морфометрии Дискриминантный анализ, логистическая регрессия и метод Метод k ближайших соседей и использование нейронных

АНАЛИЗ ПРОСТРАНСТВЕННО-ВРЕМЕННОЙ

ДИНАМИКИ И БАЙЕСОВСКИЕ МЕТОДЫ

Декомпозиция временных рядов и выделение тренда Автокорреляция, стационарность и оценка периодичности Модели временных рядов: бутстреп и прогнозирование Анализ главных компонент и многомерные временные ряды Автоковариация и пространственно обусловленная Байесовский подход и марковские цепи Монте-Карло

СПИСОК ЛИТЕРАТУРНЫХ ИСТОЧНИКОВ

ПРИЛОЖЕНИЕ 2. Статистическая среда R и ее использование для

ПРЕДИСЛОВИЕ

Стремительное изменение современного мира, связанное с революционными достижениями вычислительной техники, информационных технологий и связи, обеспечило возможность быстрого, комплексного и точного анализа больших массивов данных. Высокопроизводительные компьютеры и общедоступное программное обеспечение позволили представлять результаты графически и в понятной информативной форме способами, ранее недоступными с помощью ручки и бумаги.

Менее очевидный процесс связан с коренным пересмотром основных концепций прикладной статистики. В докомпьютерный период, когда обработка данных требовала много времени и усилий, делался акцент на методы, которые позволили бы получить максимум информации при небольшом объеме вычислений. Общий подход был весьма прост: делалось предположение, что структура полученных данных “похожа” на некоторую распространенную статистическую модель (например, подчиняется нормальному распределению), после чего выборочные оценки параметров рассчитывались по относительно простым теоретическим формулам.

Однако для сложных систем (прежде всего, экономических и экологических), которые рассматриваются как статистические ансамбли, состоящие из большого количества неоднородных компонент, в структуре данных наблюдается существенное отличие от обычных гауссовых распределений. В частности, феномен негауссовости заключается в том, что в результате увеличения объема выборки некоторые оцениваемые параметры генеральной совокупности (в первую очередь, дисперсия) начинают монотонно возрастать, т.е. данные перестают подчиняться центральной предельной теореме теории вероятностей (Хайтун, 1983). В этих случаях выводы, основанные на предположениях о нормальности, часто не являются корректными и поэтому практически оказываются не всегда полезными.

Появление компьютеров в корне изменило концепцию обработки данных, так как вычисления стали быстры и необременительны, а во краю угла встало требование корректности формируемых выводов. Известный американский статистик, профессор Станфордского университета Б. Эфрон написал статью под названием «Компьютеры и статистика: подумаем о невероятном» (Efron, 1979а), в которой обосновал развитие нового класса альтернативных компьютерно-интенсивных (computer-intensive) технологий, включающих рандомизацию, бутстреп и методы Монте-Карло. Эти технологии, объединенные общим термином "численный ресамплинг", не требуют никакой априорной информации о законе распределения изучаемой случайной величины. Вместо этого они выполняют многократную обработку различных фрагментов исходного массива эмпирических данных, как бы рассматривая их под различными углами зрения и сопоставляя полученные таким образом результаты.

С учетом этого можно предположить, что развитие прикладной статистики пойдет по двум различным путям. Первый заключается в развитии традиционного “асимптотического” направления и в его рамках расширяется арсенал методик и новых критериев, которые могут оказаться более предпочтительными в тех или иных условиях обработки данных. Но, например, в ходе дисперсионного анализа при различных его модификациях рекомендовано к использованию около трех десятков “именных” критериев (Дана, Коновера, Джонкхиера-Терпстра, Бартлетта, Кокрена, Шеффе, Дункана, Тьюки, Левене, Брауна-Форсайта, Бхапкара, Дешпанде, Краскела–Уоллиса, Фридмана, Квейда, Пэйджа, Хотеллинга, Джеймса-Сю, Пури-Сена-Тамура, Шейрера-Рэя-Хэйра, Уилкса, Кульбака и др.), для проверки нормальности распределения – более двух десятков критериев согласия, а в непараметрической статистике число методик сравнения выборок, представленных в справочниках (Гайдышев, 2001; Кобзарь, 2006), приближается к сорока.

Области использования каждого из этих вариантов выглядят размытыми, а отмечаемые достоинства и недостатки субъективны и противоречивы, что часто приводит в растерянность конечных пользователей. Альтернативный путь сводится к разработке методически единых универсальных алгоритмов поиска решения (например, формирования частотного распределения анализируемого показателя в результате многократных итераций). Это позволяет только за счет интенсивной работы компьютера провести надежное тестирование данных без строгой привязки к формуле применяемого критерия. Так как статистика неизбежно основана на вычислениях, эффективность и результативность их реализации должна быть наиболее важным и объективным аргументом в решении, какой из этих двух путей обработки данных лучше подходит для широкого круга прикладных задач.

Ресамплинг основывается на традиционных общих идеях статистического анализа.



Pages:     || 2 | 3 | 4 | 5 |   ...   | 72 |
 



Похожие работы:

«Утверждено Принято педсоветом Рассмотрено МС учителей (Приказ № 11от 30.08.13) (Протокол № 11 от 30.08.13) естественно-математического Директор школы цикла протокол №_1 (Хлюстова Г.П.) от 29 августа 2013 г Рабочая программа по информатике для 8-9 классов Учитель: Евтеев Александр Николаевич г.Кимовск 2013 г. Пояснительная записка Курс нацелен на формирование умений, с использованием современных цифровых технологий и без них, самостоятельно или в совместной деятельности: фиксировать информацию...»

«Г.Н. Орлов, Л.И. Найговзин, А.А. Цымбал ПАМЯТНИКИ АРХИТЕКТУРЫ, ИСТОРИИ И КУЛЬТУРЫ ТАГАНРОГА НА СТАРЫХ ОТКРЫТКАХ И ФОТОГРАФИЯХ HISTORICAL, CULTURAL AND ARCHITECTURAL TAGANROG MONUMENTS ON OLD POSTCARDS AND PHOTOS Издательство Лукоморье 2004 ББК 85.113(235.7)+85.16 О 66 ISBN 5 901565 11 8 Нам есть чем гордиться, есть что изучать, есть что оставить потомкам. По вехам трехсотлетней таганрогской истории можно проследить развитие всего нашего государства, заниматься изучением архитектуры, литературы,...»

«УДК [519.872+519.876.5] Вторая всероссийская научно-практическая конференция ИММОД-2005 Аналитический обзор Ю.И. Рыжиков, д-р техн. наук, профессор, ВКА им. А.Ф. Можайского, СПб А.М. Плотников, инженер, ФГУП ЦНИИТС, СПб Дан обзор 2-й Всероссийской конференции по имитационному моделированию с точки зрения используемых методов, языков и систем моделирования, практических применений. Отмечены элементы новизны и недостатки докладов. The review of the 2-nd Russian Conference on the Imitation...»

«Руководство по эксплуатации УВАЖАЕМЫЙ ПОКУПАТЕЛЬ! Благодарим вас за то, что вы отдали предпочтение бытовой технике REDMOND. REDMOND — это качество, надежность и неизменно внимательное отношение к потребностям наших клиентов. Надеемся, что вам понравится продукция нашей компании и вы также будете выбирать наши изделия в будущем. Хлебопечь REDMOND RBM-M1907 — современное устройство, в котором передовые разработки в области бытовой техники для приготовления пищи совмещены с идеей о здоровом...»

«ИНФОРМАЦИОННЫЕ ТЕХНОЛОГИИ ПРИ ПРОЕКТИРОВАНИИ И УПРАВЛЕНИИ ТЕХНИЧЕСКИМИ СИСТЕМАМИ Часть 2 Допущено Учебно-методическим объединением по университетскому политехническому образованию в качестве учебного пособия для студентов высших учебных заведений, обучающихся по направлению подготовки магистров 150400 Технологические машины и оборудование Тамбов Издательство ГОУ ВПО ТГТУ 2011 1 УДК 54.058(075) ББК Н76я73 И741 Р е ц е н з е н т ы: Доктор технических наук, профессор заведующий кафедрой...»

«СИБИРСКОЕ ОТДЕЛЕНИЕ ВЛАДИКАВКАЗСКИЙ НАУЧНЫЙ ЦЕНТР ИНСТИТУТ МАТЕМАТИКИ ИНСТИТУТ ПРИКЛАДНОЙ ИМ. С. Л. СОБОЛЕВА МАТЕМАТИКИ И ИНФОРМАТИКИ А. Г. КУСРАЕВ C. C. КУТАТЕЛАДЗЕ ВВЕДЕНИЕ В БУЛЕВОЗНАЧНЫЙ АНАЛИЗ МОСКВА НАУКА 2005 УДК 517.98 ББК 22.162 К 94 Ответственный редактор академик Ю. Г. РЕШЕТНЯК Рецензенты: доктор физико-математических наук Г. Г. МАГАРИЛ-ИЛЬЯЕВ, доктор физико-математических наук С. А. МАЛЮГИН Кусраев А. Г., Кутателадзе С. С. Введение в булевозначный анализ.—М.: Наука, 2005.—526 с....»

«А.В. Скворцов Триангуляция Делоне и её применение Издательство Томского университета 2002 УДК 681.3 ББК 22.19 C 42 Скворцов А.В. C 42 Триангуляция Делоне и её применение. – Томск: Изд-во Том. ун-та, 2002. – 128 с. ISBN 5-7511-1501-5 В книге рассматриваются триангуляция Делоне и её обобщение – триангуляция Делоне с ограничениями. Приводятся 5 вариантов структуры данных, 4 способа проверки условия Делоне, 4 группы алгоритмов построения триангуляции Делоне (всего 28 алгоритмов) с оценками...»

«УДК 550.32, 550.36 № госрегистрации 01201065613 Инв. № 14.740.11.0197/5 УТВЕРЖДАЮ Проректор по науке УрФУ, к.физ.-мат.н., доцент В.В. Кружаев 21 сентября 2012 г. ОТЧЕТ О НАУЧНО-ИССЛЕДОВАТЕЛЬСКОЙ РАБОТЕ В рамках федеральной целевой программы Научные и научно-педагогические кадры инновационной России на 2009-2013 годы (Шифр заявки 2010-1.1-153-118-007 Государственный контракт № 14.740.11.0197 от 15 сентября 2010 г.) по теме: СТРУКТУРНО-ФАЗОВЫЕ ПЕРЕХОДЫ В МАГМАТИЧЕСКИХ РАСПЛАВАХ И ЯДРЕ ЗЕМЛИ:...»

«Научно-методический сборник №4 г. Пермь • 2013 СОДЕРЖАНИЕ I. ТВОРЧЕСКИЕ УРОКИ УЧИТЕЛЕЙ МАТЕМАТИКИ, ИНФОРМАТИКИ, ЭКОНОМИКИ С.Р. Рахимова Урок геометрии, 10 класс. Сообразность и соразмерность С.Р. Рахимова Урок алгебры, 10 класс. Нахождение наибольшего и наименьшего значений функции С.Р. Рахимова Урок геометрии, 10 класс. Повторение планиметрии Л.В. Золотухина Урок алгебры, 11 класс. Площадь С.В. Кузнецова Урок математики, 6 класс. Пропорциональные отрезки в круге С.К. Гасанова Урок геометрии, 7...»






 
© 2013 www.knigi.konflib.ru - «Бесплатная электронная библиотека»

Материалы этого сайта размещены для ознакомления, все права принадлежат их авторам.
Если Вы не согласны с тем, что Ваш материал размещён на этом сайте, пожалуйста, напишите нам, мы в течении 1-2 рабочих дней удалим его.