Частотность

Материал из Клавопедии
Перейти к: навигация, поиск

Частотность - показатель частоты встречаемости букв, буквосочетаний, слов, словосочетаний и т. п. в определенном массиве текста. Для измерения частотности используют корпусы (базы данных текстов). Частотность сильно зависит от тематики базы текстов, в которой ее измеряют.

Корпусы русского языка

В рамках Клавогонок чаще всего используются два корпуса русского языка - корпус С. А. Шарова и Национальный корпус русского языка (НКРЯ).

Корпус С. А. Шарова

Вероятно, использование корпуса Шарова обусловлено его легкой доступностью в поисковых системах по запросу "частотный словарь", а также наличием уже отсортированного по частоте списка лемм и словоформ.[1]

Корпус Шарова построен из подборки современной прозы, политических мемуаров, современных газет и научно-популярной литературы объемом около 40 миллионов слов (на прозу приходится более половины этого объема). Тексты, входящие в этот корпус, были написаны на русском языке в промежутке между 1970-м и 2002-м годом, большей частью в промежутке 1980-1995 г. Газетные тексты датируются 1997-1999 г.

Национальный корпус русского языка

НКРЯ (http://www.ruscorpora.ru/) состоит из гораздо большего объема текстов. Однако для использования частотности словоформ приходится делать преобразования самостоятельно, поскольку доступен только алфавитный список словоформ с указанием их частот.[2]

Словари Клавогонок на основе частотности

Существует множество словарей, которые в той или иной мере учитывают частотность. В частности, созданы словари и режимы:

  • словоформ (наиболее популярная категория благодаря ее практической ценности; например, Частотный словарь, Соточка, Русский Частотный);
  • лемм (т.е. слова только в начальных формах, например существительные в таких словарях упоминаются только в именительном падеже единственного числа - что ограничивает их практическую ценность, поскольку тренируются не все окончания);
  • буквосочетаний (есть словари, основанные на частотности диграмм, триграмм, и т. д.). Одним из режимов, основанных на частоте буквосочетаний, является стандартный режим Абракадабра;
  • букв (стандартный режим Буквы и некоторые пользовательские словари на его основе).

По словоформам

Создано множество словарей, основанных на частотности словоформ.

Частотный словарь

Наиболее известный из них - Частотный словарь, созданный archi77 - подготовлен на основе корпуса русского языка, опубликованного С. А. Шаровым[1]. Данный словарь представляет собой первые 70 словоформ из списка словоформ данного корпуса, отсортированного по частоте[3]. Словарь приобрел большую популярность благодаря тому, что это был самый ранний словарь, основанный на частотности, к тому же включенные в него слова коротки, широко применимы и быстро усваиваются, благодаря чему скорость в данном словаре растет быстро. Частотный словарь archi77 стал своеобразным стандартом и пользуется популярностью, превышающей некоторые стандартные режимы.

Другие наборы словоформ от archi77

Этим автором создан ряд других частотных словарей с дополнительной нумерацией (Частоный словарь-2, Частотный словарь-3 и т. д.), которые представляют собой последовательные наборы словоформ по 200 из того же источника (корпус Шарова). Кроме того, этим автором создано множество других словарей, отчасти основанных на частотности словоформ и слов.

50% русского текста

Словарь 50% русского текста создан MMMAAANNN на основе корпуса Шарова. В нем использованы первые 630 словоформ частотного списка Шарова. Более частые словоформы в этом словаре встречаются чаще редких для большей имитации естественного текста. Название словаря основано на том факте, что эти 630 словоформ охватывают приблизительно половину корпуса Шарова.

Русский Частотный

Словарь Русский Частотный создан JohnyCar на основе первой тысячи словоформ частотного списка НКРЯ. В этом словаре словоформы встречаются с разной частотой, более частые словоформы попадаются чаще более редких.

По леммам

Наиблее популярным словарем этой категории является словарь 5000 частых слов archi77. Кроме того, существуют словари с набором частых глаголов, прилагательных и т. д.

По буквосочетаниям

К этой категории относятся частотные абракадабры авторства Русинова (Абракадабра - частотная 1 и др.), наборы триграмм (Трехбукв сочетания - 1 и др. авторства Onami) и другие словари.

Комбинированные словари

Существует множество словарей, в которых частотность используется, но не является основной характеристикой. В частности, многие кибертексты фактически используют три частотных словоформы в определенном порядке. Есть словари, в которых

Примечания

  1. 1,0 1,1 С. А Шаров. Частотный словарь. [1]
  2. О. Н. Ляшевская, С. А. Шаров. Новый частотный словарь русской лексики. 2009 г. Электронная версия издания
  3. Словоформы, отсортированные по частоте [2]