Редактирование Частотность

Перейти к: навигация, поиск

Внимание! Вы не авторизовались на сайте.

В истории изменений этой страницы будет записан ваш IP-адрес.
Правка может быть отменена. Пожалуйста, просмотрите сравнение версий, чтобы убедиться, что это именно те изменения, которые вас интересуют, и нажмите «Записать страницу», чтобы изменения вступили в силу.
Текущая версия Ваш текст
Строка 1: Строка 1:
'''Частотность''' — показатель частоты встречаемости букв, буквосочетаний, слов, словосочетаний и других элементов в определенном массиве текста. Для измерения частотности используют [[корпус]]ы (базы данных, состоящие из подборок текстов). Частотность сильно зависит от тематики базы текстов, в которой ее измеряют.
+
'''Частотность''' - показатель частоты встречаемости букв, буквосочетаний, слов, словосочетаний и т. п. в определенном массиве текста. Для измерения частотности используют [[корпус]]ы (базы данных текстов). Частотность сильно зависит от тематики базы текстов, в которой ее измеряют.
  
 
== Корпусы русского языка ==
 
== Корпусы русского языка ==
  
В рамках Клавогонок чаще всего используются два профессионально составленных корпуса русского языка — корпус С. А. Шарова и Национальный корпус русского языка (НКРЯ).
+
В рамках Клавогонок чаще всего используются два корпуса русского языка - корпус С. А. Шарова и Национальный корпус русского языка (НКРЯ).
  
=== Корпус С. А. Шарова ===
+
=== Корпус С. А. Шарова ===
Вероятно, использование [[Корпус Шарова|корпуса Шарова]] обусловлено его легкой доступностью в поисковых системах по запросу «частотный словарь», а также наличием уже отсортированного по частоте списка лемм и словоформ<ref name="sharov">С. А Шаров. Частотный словарь. [http://www.artint.ru/projects/frqlist.php]</ref>.
+
  
Корпус Шарова построен из подборки современной прозы, политических мемуаров, современных газет и научно-популярной литературы объемом около 40 миллионов слов (на прозу приходится более половины этого объема). Тексты, входящие в этот корпус, были написаны на русском языке в промежутке между 1970-м и 2002-м годом, большей частью в промежутке 1980—1995 г. Газетные тексты датируются 1997—1999 г.
+
Вероятно, использование [[Корпус Шарова|корпуса Шарова]] обусловлено его легкой доступностью в поисковых системах по запросу "частотный словарь", а также наличием уже отсортированного по частоте списка лемм и словоформ.<ref name="sharov">С. А Шаров. Частотный словарь. [http://www.artint.ru/projects/frqlist.php]</ref>
 +
 
 +
Корпус Шарова построен из подборки современной прозы, политических мемуаров, современных газет и научно-популярной литературы объемом около 40 миллионов слов (на прозу приходится более половины этого объема). Тексты, входящие в этот корпус, были написаны на русском языке в промежутке между 1970-м и 2002-м годом, большей частью в промежутке 1980-1995 г. Газетные тексты датируются 1997-1999 г.
  
 
=== Национальный корпус русского языка ===
 
=== Национальный корпус русского языка ===
С 2001 года на базе корпуса Шарова создаётся Национальный корпус русского языка ({{w|Национальный_корпус_русского_языка|НКРЯ}}<ref>[http://www.ruscorpora.ru/ Национальный корпус русского языка]</ref>). Его составили на базе более представительного объема текстов (более 340 миллионов словоупотреблений<ref>[http://www.ruscorpora.ru/corpora-stat.html Статистика НКРЯ]</ref>). Однако для использования частотности словоформ приходится делать преобразования самостоятельно, поскольку доступен только алфавитный список словоформ с указанием их частот<ref name="Lyashevskaya">О. Н. Ляшевская, С. А. Шаров. Новый частотный словарь русской лексики. 2009 г. [http://dict.ruslang.ru/freq.php Электронная версия издания]</ref>.
+
 
 +
[[НКРЯ]] (http://www.ruscorpora.ru/) состоит из гораздо большего объема текстов. Однако для использования частотности словоформ приходится делать преобразования самостоятельно, поскольку доступен только алфавитный список словоформ с указанием их частот.<ref name="Lyashevskaya">О. Н. Ляшевская, С. А. Шаров. Новый частотный словарь русской лексики. 2009 г. [http://dict.ruslang.ru/freq.php Электронная версия издания]</ref>
  
 
== Словари Клавогонок на основе частотности ==
 
== Словари Клавогонок на основе частотности ==
Строка 17: Строка 19:
 
Существует множество словарей, которые в той или иной мере учитывают частотность. В частности, созданы словари и режимы:
 
Существует множество словарей, которые в той или иной мере учитывают частотность. В частности, созданы словари и режимы:
 
* словоформ (наиболее популярная категория благодаря ее практической ценности; например, [[Частотный словарь]], [[Соточка]], [[Русский Частотный]]);
 
* словоформ (наиболее популярная категория благодаря ее практической ценности; например, [[Частотный словарь]], [[Соточка]], [[Русский Частотный]]);
* лемм (то есть слова только в начальных формах, например существительные в таких словарях упоминаются только в именительном падеже единственного числа — что ограничивает их практическую ценность, поскольку тренируются не все окончания);
+
* лемм (т.е. слова только в начальных формах, например существительные в таких словарях упоминаются только в именительном падеже единственного числа - что ограничивает их практическую ценность, поскольку тренируются не все окончания);
* буквосочетаний (есть словари, основанные на частотности [[диграмма|диграмм]], [[триграммы|триграмм]], и т. д.). Одним из режимов, основанных на частоте буквосочетаний, является стандартный режим [[Абракадабра]];
+
* буквосочетаний (есть словари, основанные на частотности [[диграмма|диграмм]], [[триграммы|триграмм]], и т. д.). Одним из режимов, основанных на частоте буквосочетаний, является стандартный режим [[Абракадабра]];
 
* букв (стандартный режим [[Буквы]] и некоторые пользовательские словари на его основе).
 
* букв (стандартный режим [[Буквы]] и некоторые пользовательские словари на его основе).
  
Строка 25: Строка 27:
  
 
==== Частотный словарь ====
 
==== Частотный словарь ====
Наиболее известный из них — [[Частотный словарь]], созданный [[archi77]] — подготовлен на основе корпуса русского языка, опубликованного С. А. Шаровым<ref name="sharov" />. Данный словарь представляет собой первые 70 словоформ из списка словоформ данного корпуса, отсортированного по частоте<ref name="slovoformy-sharov">Словоформы корпуса Шарова, отсортированные по частоте [http://www.artint.ru/projects/frqlist/words.num.zip]</ref>. Словарь приобрел большую популярность благодаря тому, что это был самый ранний словарь, основанный на частотности, к тому же включенные в него слова коротки, широко применимы и быстро усваиваются, благодаря чему скорость в данном словаре растет быстро. Частотный словарь archi77 стал своеобразным стандартом и пользуется популярностью, превышающей некоторые стандартные режимы.
+
Наиболее известный из них - [[Частотный словарь]], созданный [[archi77]] - подготовлен на основе корпуса русского языка, опубликованного С. А. Шаровым<ref name="sharov" />. Данный словарь представляет собой первые 70 словоформ из списка словоформ данного корпуса, отсортированного по частоте<ref name="slovoformy-sharov">Словоформы, отсортированные по частоте [http://www.artint.ru/projects/frqlist/words.num.zip]</ref>. Словарь приобрел большую популярность благодаря тому, что это был самый ранний словарь, основанный на частотности, к тому же включенные в него слова коротки, широко применимы и быстро усваиваются, благодаря чему скорость в данном словаре растет быстро. Частотный словарь archi77 стал своеобразным стандартом и пользуется популярностью, превышающей некоторые стандартные режимы.
  
 
==== Другие наборы словоформ от archi77 ====
 
==== Другие наборы словоформ от archi77 ====
Этим автором создан ряд других частотных словарей с дополнительной нумерацией (Частотный словарь-2, Частотный словарь-3 и т. д.), которые представляют собой последовательные наборы словоформ по 200 из того же источника (корпус Шарова). Кроме того, этим автором создано множество других словарей, отчасти основанных на частотности словоформ и слов.
+
Этим автором создан ряд других частотных словарей с дополнительной нумерацией (Частоный словарь-2, Частотный словарь-3 и т. д.), которые представляют собой последовательные наборы словоформ по 200 из того же источника (корпус Шарова). Кроме того, этим автором создано множество других словарей, отчасти основанных на частотности словоформ и слов.
  
==== 50 % русского текста ====
+
==== 50% русского текста ====
 
Словарь [[50% русского текста]] создан MMMAAANNN на основе корпуса Шарова. В нем использованы первые 630 словоформ частотного списка Шарова. Более частые словоформы в этом словаре встречаются чаще редких для большей имитации естественного текста. Название словаря основано на том факте, что эти 630 словоформ охватывают приблизительно половину корпуса Шарова.
 
Словарь [[50% русского текста]] создан MMMAAANNN на основе корпуса Шарова. В нем использованы первые 630 словоформ частотного списка Шарова. Более частые словоформы в этом словаре встречаются чаще редких для большей имитации естественного текста. Название словаря основано на том факте, что эти 630 словоформ охватывают приблизительно половину корпуса Шарова.
  
Строка 37: Строка 39:
  
 
=== По леммам ===
 
=== По леммам ===
Наиблее популярным словарем этой категории является словарь [[5000 самых частых слов]] archi77. Кроме того, существуют словари с набором частых глаголов, прилагательных и т. д.
+
Наиблее популярным словарем этой категории является словарь [[5000 частых слов]] archi77. Кроме того, существуют словари с набором частых глаголов, прилагательных и т. д.
  
 
=== По буквосочетаниям ===
 
=== По буквосочетаниям ===
Строка 43: Строка 45:
  
 
=== Комбинированные словари ===
 
=== Комбинированные словари ===
Существует множество словарей, в которых частотность используется, но не является основной характеристикой. В частности, многие [[кибертексты]] фактически используют три частотных словоформы в определенном порядке. Есть словари, в которых частотные словоформы использованы в качестве болванки для тренировки других характеристик (например, [["частотка!" - (Да ну?)]]).
+
Существует множество словарей, в которых частотность используется, но не является основной характеристикой. В частности, многие [[кибертексты]] фактически используют три частотных словоформы в определенном порядке. Есть словари, в которых  
  
 
== Примечания ==
 
== Примечания ==
 
<references/>
 
<references/>
 
[[Категория:Терминология Клавогонок]]
 

Пожалуйста, учтите, что любой ваш вклад в проект «Клавопедия» может быть отредактирован или удалён другими участниками. Если вы не хотите, чтобы кто-либо изменял ваши тексты, не помещайте их сюда.
Вы также подтверждаете, что являетесь автором вносимых дополнений, или скопировали их из источника, допускающего свободное распространение и изменение своего содержимого (см. Клавопедия:Авторские права). НЕ РАЗМЕЩАЙТЕ БЕЗ РАЗРЕШЕНИЯ ОХРАНЯЕМЫЕ АВТОРСКИМ ПРАВОМ МАТЕРИАЛЫ!

Быстрая вставка: <charinsert> «+» „+“ — … |</charinsert> <charinsert>{{+}} + [+] [[|+]] {{+|}} <br /> <br clear="all" />  </charinsert>  <charinsert>#REDIRECT [[+]]</charinsert>  <charinsert> {{DEFAULTSORT:+}} Участник:+ {{u|+}} Special:Contributions/+</charinsert>

<charinsert> </charinsert>   <charinsert>[[+ ()|]] [[+ (фильм)|]] {{commonscat|+}} wikt:+ en:+ </charinsert>

Шаблоны Клавопедии: <charinsert>Information-small.png <> ([[|КП]]|КС) [[|]] (КГ)</charinsert>

Теги:

<charinsert><>+</> <!-- +--> + + + + + +
+

+

<math>+</math> + + <source lang="">+</source>
+
<nowiki>+</nowiki> +</charinsert>

Разделы: <charinsert>== + ==</charinsert>   <charinsert>=== + ===</charinsert>   <charinsert>=== Итог ===</charinsert>  <charinsert>{{подст:Служебные разделы}}</charinsert>   <charinsert>== См. также ==</charinsert>   <charinsert>== Примечания == {{примечания}}</charinsert>  <charinsert>== Литература ==</charinsert>  <charinsert>== Ссылки ==</charinsert>

Шаблоны: <charinsert>{{tl|+}} {{cl|+}} {{lang-en|+}} {{ref-en}} {{unicode|+}} {{заготовка}} {{неоднозначность}} {{викифицировать}} {{чистить}} {{достоверность}} {{rq|+}}</charinsert> <charinsert>{{нет категорий}}</charinsert> <charinsert>{{нет интервики}}</charinsert> <charinsert>{{нет иллюстраций}}</charinsert> <charinsert>{{Нарушение авторских прав|url=+}}</charinsert> <charinsert>{{подст:Предложение к удалению}}</charinsert> <charinsert>{{подст:Короткая статья}}</charinsert> <charinsert>{{подст:Перелить|+}}</charinsert> <charinsert>{{закрыто}}+{{закрыто-конец}}</charinsert> <charinsert>{{начало цитаты}}+{{конец цитаты|источник=}}</charinsert>

Источники: <charinsert> [1] <ref name="">+</ref> <ref name="+" /> {{подст:АИ}} {{нет источников}} {{нет источников в разделе}} </charinsert>

Символы: <charinsert>‘ “ ’ ” ~ # @ § ¶ № • · ← ↖ ↑ ↗ → ↘ ↓ ↙ ↔ ↕ ¡ ¿ \ ½ ¼ ¾ ≈ ≠ ± − × ÷ ° ^ ¹ ² ³ € £ ¥ $ ¢ † © ® ™</charinsert> <charinsert> {{подст:ударение}}</charinsert>

Не копируйте тексты с других сайтов (исключения). Материалы, нарушающие авторские права, будут удалены. Убедитесь, что ваши правки основаны на данных, поддающихся проверке, и ссылайтесь на источники. Правьте смело, но для тестирования, пожалуйста, используйте «песочницу».


Ошибка цитирования Для существующего тега <ref> не найдено соответствующего тега <references/>

Шаблоны, используемые на этой странице: