Редактирование Частотность
Сделанные вами изменения будут показаны читателям после того, как их утвердит уполномоченный участник (подробнее). |
Внимание! Вы не авторизовались на сайте.
В истории изменений этой страницы будет записан ваш IP-адрес.Правка может быть отменена. Пожалуйста, просмотрите сравнение версий, чтобы убедиться, что это именно те изменения, которые вас интересуют, и нажмите «Записать страницу», чтобы изменения вступили в силу.
Текущая версия | Ваш текст | ||
Строка 1: | Строка 1: | ||
− | '''Частотность''' | + | '''Частотность''' - показатель частоты встречаемости букв, буквосочетаний, слов, словосочетаний и т. п. в определенном массиве текста. Для измерения частотности используют [[корпус]]ы (базы данных, состоящие из подборок текстов). Частотность сильно зависит от тематики базы текстов, в которой ее измеряют. |
== Корпусы русского языка == | == Корпусы русского языка == | ||
− | В рамках Клавогонок чаще всего используются два | + | В рамках Клавогонок чаще всего используются два корпуса русского языка - корпус С. А. Шарова и Национальный корпус русского языка (НКРЯ). |
− | === Корпус С. | + | === Корпус С. А. Шарова === |
− | + | ||
− | Корпус Шарова построен из подборки современной прозы, политических мемуаров, современных газет и научно-популярной литературы объемом около 40 миллионов слов (на прозу приходится более половины этого объема). Тексты, входящие в этот корпус, были написаны на русском языке в промежутке между 1970-м и 2002-м годом, большей частью в промежутке | + | Вероятно, использование [[Корпус Шарова|корпуса Шарова]] обусловлено его легкой доступностью в поисковых системах по запросу "частотный словарь", а также наличием уже отсортированного по частоте списка лемм и словоформ.<ref name="sharov">С. А Шаров. Частотный словарь. [http://www.artint.ru/projects/frqlist.php]</ref> |
+ | |||
+ | Корпус Шарова построен из подборки современной прозы, политических мемуаров, современных газет и научно-популярной литературы объемом около 40 миллионов слов (на прозу приходится более половины этого объема). Тексты, входящие в этот корпус, были написаны на русском языке в промежутке между 1970-м и 2002-м годом, большей частью в промежутке 1980-1995 г. Газетные тексты датируются 1997-1999 г. | ||
=== Национальный корпус русского языка === | === Национальный корпус русского языка === | ||
− | + | ||
+ | [[НКРЯ]] (http://www.ruscorpora.ru/) состоит из гораздо большего объема текстов. Однако для использования частотности словоформ приходится делать преобразования самостоятельно, поскольку доступен только алфавитный список словоформ с указанием их частот.<ref name="Lyashevskaya">О. Н. Ляшевская, С. А. Шаров. Новый частотный словарь русской лексики. 2009 г. [http://dict.ruslang.ru/freq.php Электронная версия издания]</ref> | ||
== Словари Клавогонок на основе частотности == | == Словари Клавогонок на основе частотности == | ||
Строка 17: | Строка 19: | ||
Существует множество словарей, которые в той или иной мере учитывают частотность. В частности, созданы словари и режимы: | Существует множество словарей, которые в той или иной мере учитывают частотность. В частности, созданы словари и режимы: | ||
* словоформ (наиболее популярная категория благодаря ее практической ценности; например, [[Частотный словарь]], [[Соточка]], [[Русский Частотный]]); | * словоформ (наиболее популярная категория благодаря ее практической ценности; например, [[Частотный словарь]], [[Соточка]], [[Русский Частотный]]); | ||
− | * лемм ( | + | * лемм (т.е. слова только в начальных формах, например существительные в таких словарях упоминаются только в именительном падеже единственного числа - что ограничивает их практическую ценность, поскольку тренируются не все окончания); |
− | * буквосочетаний (есть словари, основанные на частотности [[диграмма|диграмм]], [[триграммы|триграмм]], | + | * буквосочетаний (есть словари, основанные на частотности [[диграмма|диграмм]], [[триграммы|триграмм]], и т. д.). Одним из режимов, основанных на частоте буквосочетаний, является стандартный режим [[Абракадабра]]; |
* букв (стандартный режим [[Буквы]] и некоторые пользовательские словари на его основе). | * букв (стандартный режим [[Буквы]] и некоторые пользовательские словари на его основе). | ||
Строка 25: | Строка 27: | ||
==== Частотный словарь ==== | ==== Частотный словарь ==== | ||
− | Наиболее известный из | + | Наиболее известный из них - [[Частотный словарь]], созданный [[archi77]] - подготовлен на основе корпуса русского языка, опубликованного С. А. Шаровым<ref name="sharov" />. Данный словарь представляет собой первые 70 словоформ из списка словоформ данного корпуса, отсортированного по частоте<ref name="slovoformy-sharov">Словоформы корпуса Шарова, отсортированные по частоте [http://www.artint.ru/projects/frqlist/words.num.zip]</ref>. Словарь приобрел большую популярность благодаря тому, что это был самый ранний словарь, основанный на частотности, к тому же включенные в него слова коротки, широко применимы и быстро усваиваются, благодаря чему скорость в данном словаре растет быстро. Частотный словарь archi77 стал своеобразным стандартом и пользуется популярностью, превышающей некоторые стандартные режимы. |
==== Другие наборы словоформ от archi77 ==== | ==== Другие наборы словоформ от archi77 ==== | ||
− | Этим автором создан ряд других частотных словарей с дополнительной нумерацией ( | + | Этим автором создан ряд других частотных словарей с дополнительной нумерацией (Частоный словарь-2, Частотный словарь-3 и т. д.), которые представляют собой последовательные наборы словоформ по 200 из того же источника (корпус Шарова). Кроме того, этим автором создано множество других словарей, отчасти основанных на частотности словоформ и слов. |
− | ==== | + | ==== 50% русского текста ==== |
Словарь [[50% русского текста]] создан MMMAAANNN на основе корпуса Шарова. В нем использованы первые 630 словоформ частотного списка Шарова. Более частые словоформы в этом словаре встречаются чаще редких для большей имитации естественного текста. Название словаря основано на том факте, что эти 630 словоформ охватывают приблизительно половину корпуса Шарова. | Словарь [[50% русского текста]] создан MMMAAANNN на основе корпуса Шарова. В нем использованы первые 630 словоформ частотного списка Шарова. Более частые словоформы в этом словаре встречаются чаще редких для большей имитации естественного текста. Название словаря основано на том факте, что эти 630 словоформ охватывают приблизительно половину корпуса Шарова. | ||
Строка 37: | Строка 39: | ||
=== По леммам === | === По леммам === | ||
− | Наиблее популярным словарем этой категории является словарь [[5000 | + | Наиблее популярным словарем этой категории является словарь [[5000 частых слов]] archi77. Кроме того, существуют словари с набором частых глаголов, прилагательных и т. д. |
=== По буквосочетаниям === | === По буквосочетаниям === | ||
Строка 47: | Строка 49: | ||
== Примечания == | == Примечания == | ||
<references/> | <references/> | ||
− | |||
− |