Граматычная база беларускай мовы / Belarusian Language Grammar Database

Уладзімір Кошчанка

Алесь Булойчык

2021

Анатацыя
This publication is the most complete lexical and grammatical reference source of the present-day Belarusian language. Its database contains over 240,000 words. It is based on the broadest available factual material, incl. academic standard dictionaries of the Belarusian language published in 1984–2016 and other key dictionaries of the recent decades, the Belarusian N Corpus and others. Such coverage has allowed building a truly representative and relevant vocabulary of the Belarusian language. A particular difference and advantage of the Grammar Database of the Belarusian language is its electronic format - previous similar projects were only in paper form - permitting further digital developments related to the Belarusian language. In addition to the disk version, the database will have its current version online at https://bnkorpus.info/grammar.html and a repository of source files at https://github.com/Belarus/GrammarDB. This is the first publication where each lexeme is accompanied by a detailed grammatical description, references to dictionaries and a list of the authors who have used it. The database is distributed under the terms of the CC BY-SA 4.0 License.

Прадмова

Патрэба ў стварэнні агульнай камп’ютарнай базы беларускай мовы ўзнікла яшчэ падчас выканання праграмы “Праблема моўнай рэпрэзентатыўнасці і прынцыпы пабудовы корпуса беларускай мовы”, якая распачалася ў 2001 г. у Інстытуце мовазнаўства імя Якуба Коласа Нацыянальнай акадэміі навук Беларусі. Такая база неабходная для камп’ютарнай апрацоўкі тэкстаў на беларускай мове, стварэння праграм праверкі арфаграфіі і г.д.

З 2011 г. пачалася праца па ўкладанні корпуса тэкстаў для новага “Тлумачальнага слоўніка беларускай мовы”. Стала зразумела, што існыя на той момант напрацоўкі ў гэтым кірунку не адпавядалі новым патрэбам, таму было прынята рашэнне перайсці на новую платформу. За аснову была ўзята граматычная база, якая ўжо існавала ў той час пад вольнай ліцэнзіяй Creative Commons Attribution/Share-Alike і выкарыстоўвалася збольшага для праверкі правапісу. У 2014 г. да распрацоўкі базы далучыўся аддзел лексікалогіі і лексікаграфіі Інстытута мовазнаўства, а з 2017 г. працу пераняў сектар камп’ютарнай лінгвістыкі. У розныя гады ў падрыхтоўцы звестак бралі ўдзел: С. Вагнер, В. Голубева, А. Лапцёнак, Т. Маракуліна, В. Мартысюк, Н. Снігірова, А. Трутчанка.

База была істотна перапрацавана і палепшана з улікам папярэдняга досведу працы над корпусамі тэкстаў (паралельнымі руска-беларускім і беларуска-рускім, а таксама корпусам навуковых тэкстаў Corpus Albaruthenicum).

Агульны аб’ём Базы на сённяшні дзень складае каля 265 тыс. парадыгмаў (каля 4,5 млн. формаў). У гэтым электронным выданні падаецца лексіка, якая зафіксавана ў буйных слоўніках беларускай мовы (гл. пералік ніжэй), і некаторая колькасць слоў, што шырока ўжываюцца, але пакуль не зафіксаваныя ў нарматыўных даведніках і ніжэйадзначаных слоўніках (напр., спампаваць, перазапуск і інш.). Такім чынам, у гэтую версію Базы ўключана ~240 тыс. парадыгмаў.

База даступная ў двух варыянтах: вэб-інтэрфейс для карыстальнікаў і XML-файлы для распрацоўшчыкаў, якія распаўсюджваюцца на ўмовах ліцэнзіі Creative Commons Attribution/Share-Alike 4.0.

Апрача тэкстаў, асноўнымі крыніцамі фактычнага матэрыялу паслужылі: «Тлумачальны слоўнік беларускай мовы. У 5 т.» (1984), «Слоўнік беларускай мовы (пад. рэд. М.В. Бірылы)» (1987), «Граматычны слоўнік назоўніка» (2008), «Граматычны слоўнік дзеяслова» (2008), «Граматычны слоўнік прыметніка, займенніка, лічэбніка, прыслоўя» (2008), «Руска-беларускі слоўнік. У 3 т.» (2011), «Беларуска-рускі слоўнік. У 3 т.» (2012), «Вялікі слоўнік беларускай мовы: арфаграфія, акцэнтуацыя, парадыгматыка (каля 223 000 слоў)» (2012), «Слоўнік беларускай мовы» (2012), «Граматычны слоўнік назоўніка» (2013), «Граматычны слоўнік дзеяслова» (2013), «Граматычны слоўнік прыметніка, займенніка, лічэбніка, прыслоўя» (2013), «Тлумачальны слоўнік беларускай літаратурнай мовы» (2016).

Арфаграфія слоў пададзена ў адпаведнасці з «Правіламі беларускай арфаграфіі і пунктуацыі» (2008) і «Правіламі беларускай арфаграфіі і пунктуацыі» (1959), словазмяненне грунтуецца на нарматыўных акадэмічных граматыках: «Граматыка беларускай мовы» (1962), «Беларуская граматыка» (1985), «Кароткая граматыка беларускай мовы. Фаналогія. Марфаналогія. Марфалогія» (2007).

Будова Граматычнай базы

База прадстаўлена ў фармаце XML-файлаў і ўяўляе сабой збор слоў з марфалагічнымі і іншымі паметамі.

Кожная лексема аформлена ў асобную парадыгму. Кожная парадыгма змяшчае адзін ці больш варыянтаў, якія могуць адрознівацца правапісам, націскам і г.д. Кожны варыянт змяшчае спіс форм.

Атрыбуты парадыгмаў (Paradigm):

Атрыбуты варыянтаў (Variant):

Атрыбуты форм (Form):

Прыклад афармлення назоўніка
Прыклад афармлення дзеяслова

Граматычная інфармацыя рэпрэзентавана тэгамі, якія складаюцца з літар і лічбаў у пэўнай паслядоўнасці:

Назоўнік
Граматычныя пазнакі для ўсёй парадыгмы:
1) Часціна мовы
  • <N> - назоўнік
2) Уласнасць
  • <C> - агульны
  • <P> - уласны
3) Адушаўлёнасць
  • <A> - адушаўлёны
  • <I> - неадушаўлёны
4) Асабовасць
  • <P> - асабовы
  • <I> - неасабовы
5) Скарачэнне
  • <B> - скарачэнне
  • <N> - не скарачэнне
6) Род (апрача субстантываваных і множналікавых назоўнікаў)
  • <M> - мужчынскі
  • <F> - жаночы
  • <N> - ніякі
  • <C> - агульны
  • <S> - субстантываваны
  • <U> - субстантываваны множналікавы
  • <P> - толькі множны лік
7) Скланенне (апрача субстантываваных і множналікавых назоўнікаў)
  • <1> - 1 скланенне
  • <2> - 2 скланенне
  • <3> - 3 скланенне
  • <0> - нескланяльны
  • <4> - рознаскланяльны
  • <6> - змешаны тып скланення
7) Скланенне (для субстантываваных і множналікавых прыметнікаў)
  • <5> - ад’ектыўны тып скланення
7) Скланенне (для множналікавых назоўнікаў)
  • <0> - нескланяльны
  • <7> - множналікавы
Граматычныя пазнакі, уласцівыя асобным формам (уласна назоўнікі):
8) Склон
  • <N> - Назоўны
  • <G> - Родны
  • <D> - Давальны
  • <A> - Вінавальны
  • <I> - Творны
  • <L> - Месны
  • <V> - Клічны (у асобных выпадках)
9) Лік
  • <S> - адзіночны
  • <P> - множны
Граматычныя пазнакі, уласцівыя асобным формам (субстантываваныя прыметнікі):
8) Род (апрача субстантываваных і множналікавых назоўнікаў)
  • <M> - мужчынскі
  • <F> - жаночы
  • <N> - ніякі
  • <P> - адсутнасць роду ў множным ліку
9) Склон
  • <N> - Назоўны
  • <G> - Родны
  • <D> - Давальны
  • <A> - Вінавальны
  • <I> - Творны
  • <L> - Месны
  • <V> - Клічны (у асобных выпадках)
10) Лік
  • <S> - адзіночны
  • <P> - множны
Прыметнік
Граматычныя пазнакі для ўсёй парадыгмы:
1) Часціна мовы
  • <A> - прыметнік
2) Тып
  • <Q> - якасны
  • <R> - адносны
  • <P> - прыналежны
  • <0> - нескланяльны
3) Ступень параўнання (апрача нескланяльных)
  • <P> - станоўчая
  • <C> - вышэйшая
  • <S> - найвышэйшая
Граматычныя пазнакі, уласцівыя асобным формам:
4) Прыметнік у функцыі прыслоўя
  • <R>
4) Род (апрача нескланяльных)
  • <M> - мужчынскі
  • <F> - жаночы
  • <N> - ніякі
  • <P> - множны лік
5) Склон (апрача нескланяльных)
  • <N> - Назоўны
  • <G> - Родны
  • <D> - Давальны
  • <A> - Вінавальны
  • <I> - Творны
  • <L> - Месны
6) Лік (апрача нескланяльных)
  • <S> - адзіночны
  • <P> - множны
Лічэбнік
Граматычныя пазнакі для ўсёй парадыгмы:
1) Часціна мовы
  • <M> - лічэбнік
2) Словазмяненне
  • <N> - як у назоўніка
  • <A> - як у прыметніка
  • <0> - нязменны
3) Значэнне
  • <C> - колькасны
  • <O> - парадкавы
  • <K> - зборны
  • <F> - дробавы
4) Форма
  • <S> - просты
  • <C> - складаны
Граматычныя пазнакі, уласцівыя асобным формам:
5) Род
  • <M> - мужчынскі
  • <F> - жаночы
  • <N> - ніякі
  • <P> - адсутны
5) Нескланяльны
  • <0> - нескланяльны
6) Склон (апрача нескланяльных)
  • <N> - Назоўны
  • <G> - Родны
  • <D> - Давальны
  • <A> - Вінавальны
  • <I> - Творны
  • <L> - Месны
7) Лік (апрача нескланяльных)
  • <S> - адзіночны
  • <P> - множны
Займеннік
Граматычныя пазнакі для ўсёй парадыгмы:
1) Часціна мовы
  • <S> - займеннік
2) Словазмяненне
  • <N> - як у назоўніка
  • <A> - як у прыметніка
3) Разрад
  • <P> - асабовы
  • <R> - зваротны
  • <S> - прыналежны
  • <D> - указальны
  • <E> - азначальны
  • <L> - пытальна–адносны
  • <N> - адмоўны
  • <F> - няпэўны
4) Асоба
  • <1> - першая
  • <2> - другая
  • <3> - трэцяя
  • <0> - безасабовы
Граматычныя пазнакі, уласцівыя асобным формам:
5) Род
  • <M> - мужчынскі
  • <F> - жаночы
  • <N> - ніякі
  • <0> - адсутнасць роду
  • <1> - адсутнасць форм
6) Склон (апрача нескланяльных)
  • <N> - Назоўны
  • <G> - Родны
  • <D> - Давальны
  • <A> - Вінавальны
  • <I> - Творны
  • <L> - Месны
7) Лік (апрача нескланяльных)
  • <S> - адзіночны
  • <P> - множны
Дзеяслоў
Граматычныя пазнакі для ўсёй парадыгмы:
1) Часціна мовы
  • <V> - дзеяслоў
2) Пераходнасць
  • <T> - пераходны
  • <I> - непераходны
  • <D> - пераходны/непераходны
3) Трыванне
  • <P> - закончанае
  • <M> - незакончанае
4) Зваротнасць
  • <R> - зваротны
  • <N> - незваротны
5) Спражэнне
  • <1> - першае
  • <2> - другое
  • <3> - рознаспрагальны
Граматычныя пазнакі, уласцівыя асобным формам:
6) Час
  • <R> - цяперашні
  • <P> - прошлы
  • <F> - будучы
6) Загадны лад
  • <I>
6) Інфінітыў
  • <0>
7) Асоба
  • <1> - першая
  • <2> - другая
  • <3> - трэцяя
  • <0> - безасабовы
7) Дзеепрыслоўе
  • <G> - дзеепрыслоўе
7) Род (прошлы час)
  • <M> - мужчынскі
  • <F> - жаночы
  • <N> - ніякі
8) Лік
  • <S> - адзіночны
  • <P> - множны
Дзеепрыметнік
Граматычныя пазнакі для ўсёй парадыгмы:
1) Часціна мовы
  • <P> - дзеепрыметнік
2) Стан
  • <A> - незалежны
  • <P> - залежны
3) Час
  • <R> - цяперашні
  • <P> - прошлы
4) Трыванне
  • <P> - закончанае
  • <M> - незакончанае
Граматычныя пазнакі, уласцівыя асобным формам:
5) Род
  • <M> - мужчынскі
  • <F> - жаночы
  • <N> - ніякі
  • <P> - множны лік
5) Кароткая форма
  • <R>
6) Склон
  • <N> - Назоўны
  • <G> - Родны
  • <D> - Давальны
  • <A> - Вінавальны
  • <I> - Творны
  • <L> - Месны
7) Лік
  • <S> - адзіночны
  • <P> - множны
Прыслоўе
Граматычныя пазнакі для ўсёй парадыгмы:
1) Часціна мовы
  • <R> - прыслоўе
2) Спосаб утварэння
  • <N> - ад назоўнікаў
  • <A> - ад прыметнікаў
  • <M> - ад лічэбнікаў
  • <S> - ад займеннікаў
  • <G> - ад дзеепрыслоўяў
  • <V> - ад дзеясловаў
  • <E> - ад часціц
  • <I> - ад прыназоўнікаў
Граматычныя пазнакі, уласцівыя асобным формам:
3) Ступень параўнання
  • <P> - станоўчая
  • <C> - вышэйшая
  • <S> - найвышэйшая
Злучнік
1) Часціна мовы
  • <C> - злучнік
2) Тып
  • <S> - падпарадкавальны
  • <K> - злучальны
3) Тып падпарадкавальнага злучніка
  • <B> - прычынны
  • <C> - часавы
  • <D> - умоўны
  • <F> - мэтавы
  • <G> - уступальны
  • <H> - параўнальны
  • <K> - следства
3) Тып злучальнага злучніка
  • <A> - спалучальны
  • <E> - супастаўляльны
  • <O> - пералічальна-размеркавальны
  • <L> - далучальны
  • <U> - градацыйны
Прыназоўнік
1) Часціна мовы
  • <I> - Прыназоўнік
Часціца
1) Часціна мовы
  • <E> - Часціца
Выклічнік
1) Часціна мовы
  • <Y> - Выклічнік
Пабочнае слова
1) Часціна мовы
  • <Z> - Пабочнае слова
Прэдыкатыў
1) Часціна мовы
  • <W> - прэдыкатыў
Часткі слоў
1) Частка слова
  • <F> - частка
2) Тып
  • <P> - прыстаўка
  • <F> - першая састаўная частка складаных слоў
  • <S> - другая састаўная частка складаных слоў

Інтэрфейс для пошуку

Для зручнага карыстання базай распрацаваны візуальны інтэрфейс, які дазваляе хутка атрымліваць інфармацыю пра слова ў анлайн-рэжыме.

Пошук можна рабіць у двух рэжымах: па пачатковай форме слова, па ўсіх формах слова.

Па пачатковай форме: трэба абраць адпаведны рэжым, у поле пошуку ўвесці пачатковую форму слова (інфінітыў для дзеясловаў, назоўны склон для назоўнікаў і г.д.) і націснуць кнопку “Пошук”:

Унізе з’явяцца вынікі пошуку ў выглядзе слова (ці спісу слоў) і яго граматычнай характарыстыкі. Часам падаецца значэнне слова (калі слова рэдкае або ў выпадку аманіміі).

Пры націсканні на слова адкрываецца акно з яго граматычным апісаннем:

Таксама можна рабіць пошук па частках слоў з выкарыстаннем знака «*» і з улікам граматычных характарыстык (палі “Удакладніць граматыку” і “Паказаць адмысловую форму”. Вынікі пошуку можна выводзіць як у прамым алфавітным парадку, так і ў адваротным.

Рэжым “Па ўсіх формах” дазваляе шукаць аманімічныя формы, а таксама ўсе формы слоў (уключна з пачатковымі) паводле зададзеных характарыстык.

Пошук у абодвух рэжымах можна рабіць з указаннем толькі граматычных характарыстык; у такім выпадку генеруецца спіс усіх слоў з абранымі характарыстыкамі як у пачатковай форме, так ва ўскосных.

Калі абрана “Паказваць адмысловую форму” і ў выніках мусіць выводзіцца некалькі ўскосных форм аднаго слова, то такія выпадкі можна згрупаваць, паставіўшы гачак у чэкбокс “Групаваць”.