Перевести страницу на:  
Please select your language to translate the article


You can just close the window to don't translate
Библиотека
ваш профиль

Вернуться к содержанию

Филология: научные исследования
Правильная ссылка на статью:

Использование статистических расчетов при определении необходимого и достаточного объема исследуемого материала

Лалова Татьяна Ивановна

ORCID: 0000-0001-7026-0105

кандидат филологических наук

доцент, кафедра Русский и иностранные языки, Российский Университет Транспорта

127994, Россия, г. Москва, ул. Образцова, 9, оф. стр. 9

Lalova Tat'yana Ivanovna

PhD in Philology

Associate professor at the Department of Russian and Foreign Languages of Russian University of Transport

127994, Russia, Moscow, Obraztsova str., 9, of. p. 9

t_lalova@mail.ru

DOI:

10.7256/2454-0749.2023.3.39312

EDN:

JLEGJQ

Дата направления статьи в редакцию:

04-12-2022


Дата публикации:

04-04-2023


Аннотация: В данной статье рассматриваются наиболее распространённые статистические компьютерные программы для обработки массива данных. Предлагается методика определения «вручную» необходимого объема экспериментального материала. Основываясь на сведениях описательной статистики, проводится анализ конкретной исследовательской ситуации с использованием математических формул, включающих конечный набор эмпирических данных, полученных в выборке из n измерений, нахождение «наилучшего» значения оценки «точного» значения измеряемой величины и определения точности измерений. В результате произведенных вычислений демонстрируется процент допустимой ошибки, а также необходимый объём исследуемого материала для его уменьшения. По итогам расчетов становится возможным сделать вывод о достоверности результатов проведенного эксперимента. В указанной статье рассматривается вопрос использования статистического программного обеспечения для доказательства истинности и достоверности полученных выводов в результате экспериментов, проводимых в ходе научного исследования. Приводимый метод - анализ данных с использованием статистических расчетов имеет большое значение в различных видах деятельности. Статистическая обработка данных – важный элемент в рамках любой деятельности. В определенных профессиях к статистическому анализу прибегают время от времени, в других- часто или даже ежедневно. С его помощью возможно производить исследование различных массивов данных, управлять ими, делать выводы из полученных результатов, оформлять их в таблицы или представлять их в виде графиков при составлении отчетов и подготовке научных статей.


Ключевые слова:

Программное обеспечение, произношение, описательная статистика, достаточность, необходимость, экспериментальный материал, отклонение, дикторы, аудиторы, фонемы

Abstract: This article discusses the most common statistical computer programs for processing an array of data. The method of determining "manually" the required amount of experimental material is proposed. Based on the data of descriptive statistics, an analysis of a specific research situation is carried out using mathematical formulas that include a finite set of empirical data obtained in a sample of measurements, finding the "best" value for estimating the "exact" value of the measured value and determining the accuracy of measurements. As a result of the calculations performed, the percentage of permissible error is demonstrated, as well as the necessary amount of the studied material to reduce it. Based on the results of calculations, it becomes possible to draw a conclusion about the reliability of the results of the experiment. This article discusses the use of statistical software to prove the truth and reliability of the conclusions obtained as a result of experiments conducted in the course of scientific research. The given method - data analysis using statistical calculations is of great importance in various types of activities. Statistical data processing is an important element in any activity. In certain professions, statistical analysis is resorted to from time to time, in others - often or even daily. With its help, it is possible to study various data arrays, manage them, draw conclusions from the results obtained, formalize them into tables or present them in the form of graphs when compiling reports and preparing scientific articles.


Keywords:

Software, pronunciation, descriptive statistics, sufficiency, necessity, experimental material, deviation, speakers, auditors, phonemes

Данная статья посвящена проблеме обращения к статистическому программному обеспечению с целью доказать истинность и достоверность выводов, получаемых в ходе экспериментального научного исследования.

Статистический анализ данных – важный элемент в рамках любой деятельности. Он необходим практически всем: государственным служащим, разработчикам различного вида технологий, бухгалтерам и финансистам, исследователям в различных областях и научным сотрудникам, студентам и преподавателям. В некоторых профессиях способы статистического анализа используются время от времени, в некоторых - повседневно. На большом рынке программного обеспечения (ПО) существуют достаточно разнообразные пакеты прикладных программ, профессионально ориентированных на обработку статистической информации и позволяющие выявлять закономерности на фоне случайностей, делать обоснованные выводы и прогнозы, оценивать вероятность их выполнения. Среди большого количества подобных программ каждый может выбрать ту, которая подойдет именно ему для решения стоящих перед ним задач. Наиболее удобными и популярными в настоящее время считаются1:

- Minitab

- StatSoft (STATISTICA)

- COMSOL

- Microsoft Excel

- SAS (Statistical Analysis Software)

-MATLAB

- SPSS (IBM)

-STATA

- XL STAT

- Wizard Mac.

Эти пакеты не очень сложны для пользователей и предоставляют высокую точность выполняемых операций. Они дают возможность анализировать массивы данных, управлять ими, обобщать получаемые результаты, составлять таблицы и графики для отчетов и научных статей, выполнять компьютерное моделирование и т.д., то есть позволяют выполнять универсальные задачи для различных целей. Высокая производительность указанных программ позволяет осуществлять необходимые вычисления с большой скоростью. Использовать эти программы могут как начинающие, так и продвинутые пользователи. Существует удобная система поддержки клиентов, которая помогает решать возникающие вопросы. В качестве примера можно подробнее остановиться на пакете Microsoft Excel2 –одной из самая популярных и универсальных программ для статистики. Многие знакомы с этой программой, знают ее функции и возможности, отличительные черты и главные преимущества, основным из которых является наличие набора средств анализа данных («Пакета анализа»), предназначенного для решения сложных статистических задач. Функции, реализующие статистические методы обработки и анализа данных, в Microsoft Excel представлены в виде множества самостоятельных статистических функций (СРЗНАЧØ; МЕДИАНАØ; МОДАØ; ДИСПØ; НОРМРАСПØ; ПУАССОНØ; СТЮДРАСПОБРØ и многих других), а также программных средств решения оптимизационных задач и специального программного расширения – настройки «Пакета анализа», которая входит в постановку данного программного продукта и может устанавливаться по желанию пользователя. В частности, одной из основных функций «Пакета анализа» Microsoft Excel является описательная статистика, позволяющая оперативно обработать набор (массив) числовых экспериментальных данных и определить доверительные вероятность и интервал, либо при заданных этих параметрах рассчитать достаточный набор массива данных.

Таким образом, имея доступ к многочисленным, включая перечисленные выше, удобным в использовании программам статистики, возможно быстрое и точное решение актуальных задач во всех областях профессиональной деятельности. Однако все указанные ПО, как и большинство других, были разработаны зарубежными IT кампаниями, в основном, американскими. В сложившейся ситуации роста количества санкций, затрагивающих различные сферы жизни нашей страны, сложно предсказать возможность дальнейшего их использования в России. При этом можно решать многие вопросы обработки данных, требующие использования статистики, независимо от наличия или отсутствия компьютерных программ, «вручную». Конечно, все зависит от объема обрабатываемого материала, от отпущенного на эту работу времени, от требуемой точности расчетов. Тем не менее, для научной деятельности подобная обработка массива экспериментальных данных представляется оправданной и не слишком трудоемкой. Изложим принципы использования данной методики при проведении эксперимента, а также представим сделанные выводы. Результаты любого исследования, в какой бы области науки оно ни производилось, должны быть надежными и достоверными. В противном случае выдвигаемая в работе гипотеза может быть подвергнута сомнению. Для того чтобы избежать подобной ситуации, следует доказать, что рассматриваемый объём экспериментального материала является необходимым и достаточным для формулирования сделанных выводов. С этой целью необходимо прибегнуть к методике статистической обработки результатов проведенного исследования.Остановимся на теоретических положениях статистики, которые легли в основу проведенных расчетов.

Некоторые сведения из описательной статистики

При обработке результатов измерения некоторой величины X, которая имеет определённое значение, но в результате влияния различных случайных факторов измеряется с некоторой случайной ошибкой, возникает задача: используя конечный набор эмпирических данных , полученных в выборке из n измерений, найти «наилучшее» значение оценки «точного» значения измеряемой величины X и определить точность измерений. Наилучшей оценкой величины X является среднее значение выборки Для оценки величины отклонения измеренных значений от истинного (X – ) необходимо знать среднее квадратичное отклонение этого распределения , определяющего доверительную вероятность P и доверительный интервал .

Вероятность того, что случайная погрешность не выйдет за пределы интервала значений <ξ<, называется доверительным интервалом, а соответствующая ей вероятность – доверительной вероятностью.

Правила обработки прямого многократного измерения 3

При проведении прямого измерения некоторой величины необходимо:

1. Провести многократное измерения при одних и тех же условиях и записать их в таблицу.

2. Рассчитать среднее значение по формуле:

.

3. Вычислить оценку дисперсии:

.

4. Вычислить среднеквадратичную ошибку среднего:

5. Задавшись требуемым уровнем доверительной вероятности Р, определить по таблице коэффициент Стьюдента и модуль доверительного интервала:

6. Округлив соответствующие результаты, записать ответ в виде

X = при доверительной вероятности P.

При определении доверительных интервалов уровни доверительной вероятности обычно принимают равными 0,9 или 0,95, реже 0,99.

Коэффициент Стьюдента при P = 95% (Таблица 1).

Таблица 1

n-1

2

3

4

5

6

7

8

9

t

4,70

3,18

2,78

2,57

2,45

2,37

2,31

2,26

n-1

10

15

20

30

50

100

200

t

2,23

2,13

2,09

2,04

2,01

1,98

1,97

1,96

В качестве примера использования представленной теории приведем определение достоверности результатов проведенного исследования по произнесению округленного, полуоткрытого переднеязычного звука [oe] в позиции после взрывных небно-язычных согласных [k-g]. Эксперимент проводился на материале стихотворения П.Верлена «Осенняя песня» («Chanson d’automne»). Текст был записан 10 дикторами-носителями тамильского языка, проживающими в Пондичерри (Индия)4, которые изучают французский язык как первый иностранный. Запись была прослушана 26-ю аудиторами, хорошо владеющими французским языком. В группу аудиторов входили преподаватели и студенты старших курсов институтов и факультетов иностранных языков г. Москвы.

В результате проведенного слухового анализа было получено 250 ответов из 260 возможных. При этом 208 ответов были отрицательными, а 42 положительными. Что означает, что для 208 аудиторов звук [oe] в позиции после [k-g] произносится неверно. 42 участника слухового анализа сочли произношение рассматриваемого звука как соответствующее орфоэпической норме французского языка.

На следующем этапе эксперимента следовало определить, насколько достоверны полученные результаты, а также достаточно ли материала было проанализировано для подтверждения сделанных выводов. Эксперимент по изучению способов произнесения звука [oe] будем рассматривать в качестве измерения некоторого параметра опытов. Десять дикторов, произносящих один текст (десять индусов), будут считаться в качестве независимых десяти опытов (Таблица 2). 26 аудиторов (их ответов) будем считать результатом измерения параметра опытов. Исключив из обработки один отсутствующий результат, статистическую обработку будем проводить по 25 ответам, то есть положительный ответ одного аудитора составляет 4% от возможных 25 положительных ответов всех аудиторов.

1. В соответствии с первым пунктом правил обработка прямого многократного измерения (далее опыт) составляем таблицу положительных ответов (в %) по аудиторам.

Таблица 2

Опыт

1

2

3

4

5

6

7

8

9

10

,%

12

60

8

68

20

0

0

12

0

0

2. Рассчитываем среднее значение:

3. Вычисляем оценку дисперсии:

4. Вычисляем среднеквадратичную ошибку среднего:

5. Задавшись доверительной вероятностью P = 0,95 и взяв из таблицы t (0,95;9) =2,26, вычислим доверительный интервал:

6. Округлив результаты, получим:

Это означает, что 18% индусов с ошибкой ± 18% правильно произносят исследуемый звук. Для уменьшения величины ошибки следует увеличить число дикторов. Аналогичным образом можно исследовать другие звуки, а потом сделать обобщение на весь язык.

Можно приближённо оценить необходимое число дикторов для обеспечения заданной точности (доверительного интервала). Если считать, что дисперсия результатов измерений не зависит от их числа, то из выражения для доверительного интервала следует:

Приняв для доверительной вероятности P = 0,95 значение t=2,26 (для n = 9 из таблицы) и доверительного интервала - = 10%, получаем:

То есть для снижения ошибки исследования до 10% при доверительной вероятности 95% число дикторов следует, как минимум, утроить.

Для более точного определения % всех жителей Пондичерри, правильно воспроизводящих звук [oe], необходимо увеличить число аудиторов.

Опираясь на проведённый статистический анализ, следует сделать вывод, что при доверительной вероятности 95% взятый объём выборки в 250 опытов обеспечивает точность эксперимента для 82% дикторов, которые с допустимой ошибкой ± 18% неверно произносят фонему [oe].

Исходя из этого, можно констатировать, что результаты проведённого слухового анализа текста стихотворения следует считать статистически достоверными.

Библиография
1. Бочкарёв С.В. [и др.] Планирование и обработка результатов эксперимента: учебник /. – Старый Оскол: ТНТ, 2020.-508 с.
2. Князев Б.А., Черкасов В.С. Начала обработки экспериментальных данных. – Н. – изд. НГУ, 1996. – 43 с.
3. https://softlist.com.ua/articles/10-luchshikh-programm-i-instrumentov-dlia-statisiki-v-2022-godu/
References
1. Bochkarev S.V. [et al.] Planning and processing of experimental results: textbook.-Stary Oskol: TNT, 2020.-508 p.
2. Knyazev B.A., Cherkasov V.S.The beginning of the processing of experimental data.-N.-ed. NGU, 1996.-43 p.
3. https://softlist.com.ua/articles/10-luchshikh-programm-i-instrumentov-dlia-statisiki-v-2022-godu [10 Best Statistics Software and Tools in 2022]

Результаты процедуры рецензирования статьи

В связи с политикой двойного слепого рецензирования личность рецензента не раскрывается.
Со списком рецензентов издательства можно ознакомиться здесь.

Статистический анализ данных – важный элемент в рамках любой деятельности. Бесспорно, он необходим практически всем: государственным служащим, разработчикам различного вида технологий, бухгалтерам и финансистам, исследователям в различных областях и научным сотрудникам, студентам и преподавателям. Обработка данных это не формальная составляющая, а целостный комплекс оценки содержания. Рецензируемая статья посвящена проблеме обращения к статистическому программному обеспечению с целью доказать истинность и достоверность выводов, получаемых в ходе экспериментального научного исследования. Считаю, что подобный ракурс вполне концептуален, он оправдан и с позиций методологии, и с уровня объективации проблемы. Работа практически ориентирована; как отмечает автор, «эксперимент проводился на материале стихотворения П.Верлена «Осенняя песня» («Chanson d’automne»). Текст был записан 10 дикторами-носителями тамильского языка, проживающими в Пондичерри (Индия)4, которые изучают французский язык как первый иностранный. Запись была прослушана 26-ю аудиторами, хорошо владеющими французским языком. В группу аудиторов входили преподаватели и студенты старших курсов институтов и факультетов иностранных языков г. Москвы», «В результате проведенного слухового анализа было получено 250 ответов из 260 возможных. При этом 208 ответов были отрицательными, а 42 положительными. Что означает, что для 208 аудиторов звук [oe] в позиции после [k-g] произносится неверно. 42 участника слухового анализа сочли произношение рассматриваемого звука как соответствующее орфоэпической норме французского языка». Думаю, что фактор статистики важен для достоверности эксперимента, каждый этап маркируется, причем ему дается оценка / комментарий. Расчетные формулы иллюстрируют блок данных, таблицы консолидируют полученные результаты. Думаю, что работы может быть неким образчиком для формирования / написания новых проектов. Заключение содержит следующую информацию: «опираясь на проведённый статистический анализ, следует сделать вывод, что при доверительной вероятности 95% взятый объём выборки в 250 опытов обеспечивает точность эксперимента для 82% дикторов, которые с допустимой ошибкой ± 18% неверно произносят фонему [oe]. Исходя из этого, можно констатировать, что результаты проведённого слухового анализа текста стихотворения следует считать статистически достоверными». Основные уровни работы выдержаны, новизна исследования заключается в аналитической верификации используемого метода оценки данных. Стиль данного труда соотносится с собственно научным типом, серьезных доработок не требуется. Правда, автору можно было расширить библиографический список, включив в него тематически смежные наработки, это придало бы тексту полновесность важности затрагиваемого вопроса. В целом же цель работы достигнута, задачи решены; с учетом сказанного, тезирую: статья «Использование статистических расчетов при определении необходимого и достаточного объема исследуемого материала» может быть допущена к открытой публикации в журнале «Филология: научные исследования».