Частотность

Материал из Клавопедии
Перейти к: навигация, поиск

Частотность — показатель частоты встречаемости букв, буквосочетаний, слов, словосочетаний и других элементов в определенном массиве текста. Для измерения частотности используют корпусы (базы данных, состоящие из подборок текстов). Частотность сильно зависит от тематики базы текстов, в которой ее измеряют.

Корпусы русского языка

В рамках Клавогонок чаще всего используются два профессионально составленных корпуса русского языка — корпус С. А. Шарова и Национальный корпус русского языка (НКРЯ).

Корпус С. А. Шарова

Вероятно, использование корпуса Шарова обусловлено его легкой доступностью в поисковых системах по запросу «частотный словарь», а также наличием уже отсортированного по частоте списка лемм и словоформ[1].

Корпус Шарова построен из подборки современной прозы, политических мемуаров, современных газет и научно-популярной литературы объемом около 40 миллионов слов (на прозу приходится более половины этого объема). Тексты, входящие в этот корпус, были написаны на русском языке в промежутке между 1970-м и 2002-м годом, большей частью в промежутке 1980—1995 г. Газетные тексты датируются 1997—1999 г.

Национальный корпус русского языка

С 2001 года на базе корпуса Шарова создаётся Национальный корпус русского языка (НКРЯ[2]). Его составили на базе более представительного объема текстов (более 340 миллионов словоупотреблений[3]). Однако для использования частотности словоформ приходится делать преобразования самостоятельно, поскольку доступен только алфавитный список словоформ с указанием их частот[4].

Словари Клавогонок на основе частотности

Существует множество словарей, которые в той или иной мере учитывают частотность. В частности, созданы словари и режимы:

  • словоформ (наиболее популярная категория благодаря ее практической ценности; например, Частотный словарь, Соточка, Русский Частотный);
  • лемм (то есть слова только в начальных формах, например существительные в таких словарях упоминаются только в именительном падеже единственного числа — что ограничивает их практическую ценность, поскольку тренируются не все окончания);
  • буквосочетаний (есть словари, основанные на частотности диграмм, триграмм, и т. д.). Одним из режимов, основанных на частоте буквосочетаний, является стандартный режим Абракадабра;
  • букв (стандартный режим Буквы и некоторые пользовательские словари на его основе).

По словоформам

Создано множество словарей, основанных на частотности словоформ.

Частотный словарь

Наиболее известный из них — Частотный словарь, созданный archi77 — подготовлен на основе корпуса русского языка, опубликованного С. А. Шаровым[1]. Данный словарь представляет собой первые 70 словоформ из списка словоформ данного корпуса, отсортированного по частоте[5]. Словарь приобрел большую популярность благодаря тому, что это был самый ранний словарь, основанный на частотности, к тому же включенные в него слова коротки, широко применимы и быстро усваиваются, благодаря чему скорость в данном словаре растет быстро. Частотный словарь archi77 стал своеобразным стандартом и пользуется популярностью, превышающей некоторые стандартные режимы.

Другие наборы словоформ от archi77

Этим автором создан ряд других частотных словарей с дополнительной нумерацией (Частоный словарь-2, Частотный словарь-3 и т. д.), которые представляют собой последовательные наборы словоформ по 200 из того же источника (корпус Шарова). Кроме того, этим автором создано множество других словарей, отчасти основанных на частотности словоформ и слов.

50 % русского текста

Словарь 50% русского текста создан MMMAAANNN на основе корпуса Шарова. В нем использованы первые 630 словоформ частотного списка Шарова. Более частые словоформы в этом словаре встречаются чаще редких для большей имитации естественного текста. Название словаря основано на том факте, что эти 630 словоформ охватывают приблизительно половину корпуса Шарова.

Русский Частотный

Словарь Русский Частотный создан JohnyCar на основе первой тысячи словоформ частотного списка НКРЯ. В этом словаре словоформы встречаются с разной частотой, более частые словоформы попадаются чаще более редких.

По леммам

Наиблее популярным словарем этой категории является словарь 5000 самых частых слов archi77. Кроме того, существуют словари с набором частых глаголов, прилагательных и т. д.

По буквосочетаниям

К этой категории относятся частотные абракадабры авторства Русинова (Абракадабра - частотная 1 и др.), наборы триграмм (Трехбукв сочетания - 1 и др. авторства Onami) и другие словари.

Комбинированные словари

Существует множество словарей, в которых частотность используется, но не является основной характеристикой. В частности, многие кибертексты фактически используют три частотных словоформы в определенном порядке. Есть словари, в которых частотные словоформы использованы в качестве болванки для тренировки других характеристик (например, "частотка!" - (Да ну?)).

Примечания

  1. 1,0 1,1 С. А Шаров. Частотный словарь. [1]
  2. Национальный корпус русского языка
  3. Статистика НКРЯ
  4. О. Н. Ляшевская, С. А. Шаров. Новый частотный словарь русской лексики. 2009 г. Электронная версия издания
  5. Словоформы корпуса Шарова, отсортированные по частоте [2]