---
 


Патрэба ў стварэнні агульнай камп’ютарнай базы беларускай мовы ўзнікла яшчэ падчас выканання праграмы “Праблема моўнай рэпрэзентатыўнасці і прынцыпы пабудовы корпуса беларускай мовы”, якая распачалася ў 2001 г. у Інстытуце мовазнаўства імя Якуба Коласа Нацыянальнай акадэміі навук Беларусі. Такая база неабходная для камп’ютарнай апрацоўкі тэкстаў на беларускай мове, стварэння праграм праверкі арфаграфіі і г.д.

З 2011 г. пачалася праца па ўкладанні корпуса тэкстаў для новага “Тлумачальнага слоўніка беларускай мовы”. Стала зразумела, што існыя на той момант напрацоўкі ў гэтым кірунку не адпавядалі новым патрэбам, таму было прынята рашэнне перайсці на новую платформу. За аснову была ўзята граматычная база, якая ўжо існавала ў той час пад вольнай ліцэнзіяй Creative Commons Attribution/Share-Alike і выкарыстоўвалася збольшага для праверкі правапісу. У 2014 г. да распрацоўкі базы далучыўся аддзел лексікалогіі і лексікаграфіі Інстытута мовазнаўства, а з 2017 г. працу пераняў сектар камп'ютарнай лінгвістыкі. У розныя гады ў падрыхтоўцы звестак бралі ўдзел: С. Вагнер, В. Голубева, А. Лапцёнак, Т. Маракуліна, В. Мартысюк, Н. Снігірова, А. Трутчанка.

База была істотна перапрацавана і палепшана з улікам папярэдняга досведу працы над корпусамі тэкстаў (паралельнымі руска-беларускім і беларуска-рускім, а таксама корпусам навуковых тэкстаў Corpus Albaruthenicum).

Агульны аб’ём Базы на сённяшні дзень складае каля 265 тыс. парадыгмаў (каля 4,5 млн. формаў). У гэтым электронным выданні падаецца лексіка, якая зафіксавана ў буйных слоўніках беларускай мовы (гл. пералік ніжэй), і некаторая колькасць слоў, што шырока ўжываюцца, але пакуль не зафіксаваныя ў нарматыўных даведніках і ніжэйадзначаных слоўніках (напр., спампаваць, перазапуск і інш.). Такім чынам, у гэтую версію Базы ўключана ~240 тыс. парадыгмаў.

База даступная ў двух варыянтах: вэб-інтэрфейс для карыстальнікаў і XML-файлы для распрацоўшчыкаў, якія распаўсюджваюцца на ўмовах ліцэнзіі Creative Commons Attribution/Share-Alike 4.0.

Апрача тэкстаў, асноўнымі крыніцамі фактычнага матэрыялу паслужылі: «Тлумачальны слоўнік беларускай мовы. У 5 т.» (1984), «Слоўнік беларускай мовы (пад. рэд. М.В. Бірылы)» (1987), «Граматычны слоўнік назоўніка» (2008), «Граматычны слоўнік дзеяслова» (2008), «Граматычны слоўнік прыметніка, займенніка, лічэбніка, прыслоўя» (2008), «Руска-беларускі слоўнік. У 3 т.» (2011), «Беларуска-рускі слоўнік. У 3 т.» (2012), «Вялікі слоўнік беларускай мовы: арфаграфія, акцэнтуацыя, парадыгматыка (каля 223 000 слоў)» (2012), «Слоўнік беларускай мовы» (2012), «Граматычны слоўнік назоўніка» (2013), «Граматычны слоўнік дзеяслова» (2013), «Граматычны слоўнік прыметніка, займенніка, лічэбніка, прыслоўя» (2013), «Тлумачальны слоўнік беларускай літаратурнай мовы» (2016).

Арфаграфія слоў пададзена ў адпаведнасці з «Правіламі беларускай арфаграфіі і пунктуацыі» (2008) і «Правіламі беларускай арфаграфіі і пунктуацыі» (1959), словазмяненне грунтуецца на нарматыўных акадэмічных граматыках: «Граматыка беларускай мовы» (1962), «Беларуская граматыка» (1985), «Кароткая граматыка беларускай мовы. Фаналогія. Марфаналогія. Марфалогія» (2007).

Уладзімір Кошчанка, Алесь Булойчык


адз. — адзіночны лік
адуш. — адушаўлёны
ас. — асоба дзеяслова
В. — вінавальны склон
выш. — вышэйшая ступень параўнання
Д. — давальны склон
ж. — жаночы род
Кл. — клічны склон
м. — мужчынскі род
мн. — множны лік
Н. — назоўны склон
н. — ніякі род
найвыш. — найвышэйшая ступень параўнання
неадуш. — неадушаўлёны
нескл. — нескланяльнае слова
прош. час — прошлы час
Р. — родны склон
станоўч. — станоўчая ступень параўнання
Т. — творны склон
цяп. час — цяперашні час


База прадстаўлена ў фармаце XML-файлаў і ўяўляе сабой збор слоў з марфалагічнымі і іншымі паметамі.

Кожная лексема аформлена ў асобную парадыгму. Кожная парадыгма змяшчае адзін ці больш варыянтаў, якія могуць адрознівацца правапісам, націскам і г.д. Кожны варыянт змяшчае спіс форм.

Атрыбуты парадыгмаў (Paradigm):

  • pdgId - унікальны ідэнтыфікацыйны нумар парадыгмы;
  • lemma - пачатковая форма асноўнага варыянту;
  • tag - граматычная прыкмета лексемы;
  • meaning - значэнне (неабавязковае поле);
  • govern - кіраванне для дзеяслова (неабавязковае поле - у гэты рэліз не ўваходзіць).

Атрыбуты варыянтаў (Variant):

  • id - унікальны ідэнтыфікацыйны нумар варыянту;
  • lemma - пачатковая форма варыянту;
  • tag - граматычная прыкмета лексемы;
  • slouniki - крыніцы, дзе фіксуецца слова;
  • pravapis - правапіс;
  • type - тып (nonstandard, potential - у гэты рэліз не ўваходзіць).

Атрыбуты форм (Form):

  • tag - граматычная прыкмета формы;
  • slouniki - крыніцы, дзе фіксуецца форма;
  • pravapis - правапіс;
  • type - тып (numeral, short, у гэты рэліз не ўваходзіць: nonstandard, potential);
  • options - адушаўлёнасць (anim, inanim).

Выява 1. Прыклад афармлення назоўніка

Выява 2. Прыклад афармлення дзеяслова

Граматычная інфармацыя рэпрэзентавана тэгамі, якія складаюцца з літар і лічбаў у пэўнай паслядоўнасці:

Назоўнік
Граматычныя пазнакі для ўсёй парадыгмы:
1) Часціна мова <N> - назоўнік
2) Уласнасць <C> - агульны
<P> - уласны
3) Адушаўлёнасць <A> - адушаўлёны
<I> - неадушаўлёны
4) Асабовасць <P> - асабовы
<I> - неасабовы
5) Скарачэнне <B> - скарачэнне
<N> - не скарачэнне
6) Род (апрача субстантываваных і множналікавых назоўнікаў) <M> - мужчынскі
<F> - жаночы
<N> - ніякі
<С> - агульны
<S> - субстантываваны
<U> - субстантываваны множналікавы
<P> - толькі множны лік
7) Скланенне (апрача субстантываваных і множналікавых назоўнікаў) <1> - 1 скланенне
<2> - 2 скланенне
<3> - 3 скланенне
<0> - нескланяльны
<4> - рознаскланяльны
<6> - змешаны тып скланення
7) Скланенне (для субстантываваных і множналікавых прыметнікаў) <5> - ад’ектыўны тып скланення
7) Скланенне (для множналікавых назоўнікаў) <0> - нескланяльны
<7> - множналікавы
Граматычныя пазнакі, уласцівыя асобным формам (уласна назоўнікі):
8) Склон <N> - Назоўны
<G> - Родны
<D> - Давальны
<A> - Вінавальны
<I> - Творны
<L> - Месны
<V> - Клічны (у асобных выпадках)
9) Лік <S> - адзіночны
<P> - множны
Граматычныя пазнакі, уласцівыя асобным формам (субстантываваныя прыметнікі):
8) Род <M> - мужчынскі
<F> - жаночы
<N> - ніякі
<P> - адсутнасць роду ў множным ліку
9) Склон <N> - Назоўны
<G> - Родны
<D> - Давальны
<A> - Вінавальны
<I> - Творны
<L> - Месны
<V> - Клічны (у асобных выпадках)
10) Лік <S> - адзіночны
<P> - множны

Прыметнік
Граматычныя пазнакі для ўсёй парадыгмы:
1) Часціна мовы <A> - прыметнік
2) Тып <Q> - якасны
<R> - адносны
<P> - прыналежны
<0> - нескланяльны
3) Ступень параўнання (апрача нескланяльных) <P> - станоўчая
<C> - вышэйшая
<S> - найвышэйшая
Граматычныя пазнакі, уласцівыя асобным формам:
4) Прыметнік у функцыі прыслоўя <R>
4) Род (апрача нескланяльных) <M> - мужчынскі
<F> - жаночы
<N> - ніякі
<P> - множны лік
5) Склон (апрача нескланяльных) <N> - Назоўны
<G> - Родны
<D> - Давальны
<A> - Вінавальны
<I> - Творны
<L> - Месны
6) Лік (апрача нескланяльных) <S> - адзіночны
<P> - множны

Лічэбнік
Граматычныя пазнакі для ўсёй парадыгмы:
1) Часціна мовы <M> - лічэбнік
2) Словазмяненне <N> - як у назоўніка
<A> - як у прыметніка
<0> - нязменны
3) Значэнне <C> - колькасны
<O> - парадкавы
<K> - зборны
<F> - дробавы
4) Форма <S> - просты
<C> - складаны
Граматычныя пазнакі, уласцівыя асобным формам:
5) Род <M> - мужчынскі
<F> - жаночы
<N> - ніякі
<P> - адсутны
5) Нескланяльны <0> - нескланяльны
6) Склон (апрача нескланяльных) <N> - Назоўны
<G> - Родны
<D> - Давальны
<A> - Вінавальны
<I> - Творны
<L> - Месны
7) Лік (апрача нескланяльных) <S> - адзіночны
<P> - множны

Займеннік
Граматычныя пазнакі для ўсёй парадыгмы:
1) Часціна мовы <S> - займеннік
2) Словазмяненне <N> - як у назоўніка
<A> - як у прыметніка
3) Разрад <P> - асабовы
<R> - зваротны
<S> - прыналежны
<D> - указальны
<E> - азначальны
<L> - пытальна–адносны
<N> - адмоўны
<F> - няпэўны
4) Асоба <1> - першая
<2> - другая
<3> - трэцяя
<0> - безасабовы
Уласцівыя асобным формам:
5) Род <M> - мужчынскі
<F> - жаночы
<N> - ніякі
<0> - адсутнасць роду
<1> - адсутнасць форм
6) Склон <N> - Назоўны
<G> - Родны
<D> - Давальны
<A> - Вінавальны
<I> - Творны
<L> - Месны
7) Лік <S> - адзіночны
<P> - множны

Дзеяслоў
Граматычныя пазнакі для ўсёй парадыгмы:
1) Часціна мовы <V> - дзеяслоў
2) Пераходнасць <T> - пераходны
<I> - непераходны
<D> - пераходны/непераходны
3) Трыванне <P> - закончанае
<M> - незакончанае
4) Зваротнасць <R> - зваротны
<N> - незваротны
5) Спражэнне <1> - першае
<2> - другое
<3> - рознаспрагальны
Граматычныя пазнакі, уласцівыя асобным формам:
6) Час <R> - цяперашні
<P> - прошлы
<F> - будучы
6) Загадны лад <I>
6) Інфінітыў <0>
7) Асоба <1> - першая
<2> - другая
<3> - трэцяя
<0> - безасабовы
7) Дзеепрыслоўе <G> - дзеепрыслоўе
7) Род (прошлы час) <M> - мужчынскі
<F> - жаночы
<N> - ніякі
8) Лік <S> - адзіночны
<P> - множны

Дзеепрыметнік
Граматычныя пазнакі для ўсёй парадыгмы:
1) Часціна мовы <P> - дзеепрыметнік
2) Стан <A> - незалежны
<P> - залежны
3) Час <R> - цяперашні
<P> - прошлы
4)Трыванне <P> - закончанае
<M> - незакончанае
Граматычныя пазнакі, уласцівыя асобным формам:
5) Род <M> - мужчынскі
<F> - жаночы
<N> - ніякі
<P> - множны лік
5) Кароткая форма <R>
6) Склон <N> - Назоўны
<G> - Родны
<D> - Давальны
<A> - Вінавальны
<I> - Творны
<L> - Месны
7) Лік <S> - адзіночны
<P> - множны

Прыслоўе
Граматычныя пазнакі для ўсёй парадыгмы:
1) Часціна мовы <R> - прыслоўе
2) Спосаб утварэння <N> - ад назоўнікаў
<A> - ад прыметнікаў
<M> - ад лічэбнікаў
<S> - ад займеннікаў
<G> - ад дзеепрыслоўяў
<V> - ад дзеясловаў
<E> - ад часціц
<I> - ад прыназоўнікаў
Граматычныя пазнакі, уласцівыя асобным формам:
3) Ступень параўнання <P> - станоўчая
<C> - вышэйшая
<S> - найвышэйшая

Злучнік
1) Часціна мовы <C> - злучнік
2) Тып <S> - падпарадкавальны
<K> - злучальны
3) Тып падпарадкавальнага злучніка <B> - прычынны
<C> - часавы
<D> - умоўны
<F> - мэтавы
<G> - уступальны
<H> - параўнальны
<K> - следства
3) Тып злучальнага злучніка <A> - спалучальны
<E> - супастаўляльны
<O> - пералічальна-размеркавальны
<L> - далучальны
<U> - градацыйны

Прыназоўнік
1) Часціна мовы <I> - прыназоўнік

Часціца
1) Часціна мовы <E> - часціца

Выклічнік
1) Часціна мовы <Y> - выклічнік

Пабочнае слова
1) Функцыя <Z> - пабочнае слова

Прэдыкатыў
1) Часціна мовы <W> - прэдыкатыў

Часткі слоў
1) Частка слова <F> - частка
2) Тып <P> - прыстаўка
<F> - першая састаўная частка складаных слоў
<S> - другая састаўная частка складаных слоў


Для зручнага карыстання базай распрацаваны візуальны інтэрфейс, які дазваляе хутка атрымліваць інфармацыю пра слова ў анлайн-рэжыме.

Пошук можна рабіць у двух рэжымах: па пачатковай форме слова, па ўсіх формах слова.

Па пачатковай форме: трэба абраць адпаведны рэжым, у поле пошуку ўвесці пачатковую форму слова (інфінітыў для дзеясловаў, назоўны склон для назоўнікаў і г.д.) і націснуць кнопку “Пошук”:

 
 

Унізе з’явяцца вынікі пошуку ў выглядзе слова (ці спісу слоў) і яго граматычнай характарыстыкі. Часам падаецца значэнне слова (калі слова рэдкае або ў выпадку аманіміі).

 
 

Пры націсканні на слова адкрываецца акно з яго граматычным апісаннем:

 
 

Таксама можна рабіць пошук па частках слоў з выкарыстаннем знака «*» і з улікам граматычных характарыстык (палі “Удакладніць граматыку” і “Паказаць адмысловую форму”. Вынікі пошуку можна выводзіць як у прамым алфавітным парадку, так і ў адваротным.

 
 
 
 

Рэжым “Па ўсіх формах” дазваляе шукаць аманімічныя формы, а таксама ўсе формы слоў (уключна з пачатковымі) паводле зададзеных характарыстык.

 
 
 

Пошук у абодвух рэжымах можна рабіць з указаннем толькі граматычных характарыстык; у такім выпадку генеруецца спіс усіх слоў з абранымі характарыстыкамі як у пачатковай форме, так ва ўскосных.

 
 
 
 

Калі абрана “Паказваць адмысловую форму” і ў выніках мусіць выводзіцца некалькі ўскосных форм аднаго слова, то такія выпадкі можна згрупаваць, паставіўшы гачак у чэкбокс “Групаваць”.

 

Гэты праект - кутні камень у падмурак беларускага мовазнаўства XXI стагоддзя. Як граматыка Браніслава Тарашкевіча на пачатку XX стагоддзя адыграла важную ролю ў справе практычнага выкарыстання і ўмацавання беларускай мовы, так і Граматычная база мае вялікае практычнае значэнне ў наш лічбавы век, калі прысутнасць мовы ў інфармацыйных тэхналогіях адназначна надае ёй моцную падтрымку і выводзіць у шэрагі канкурэнтаздольных моў.

Базу можна разглядаць як самы поўны камп’ютарны збор слоў беларускае мовы, з усімі формамі і граматычнымі пазнакамі. Гэта дае шмат магчымасцяў, пра якія часам не здагадваюцца нават мовазнаўцы, то бок тыя, хто найбольш зацікаўлены ў выкарыстанні Граматычнай базы.

База ўтрымлівае каля 265 тыс. cлоў і ~4.5 млн. словаформаў. Калі выдаць яе на паперы, то атрымаецца 50-60 тамоў(37 тыс. старонак) такога фармату як “Тлумачальны слоўнік беларускай мовы” (у 5 тамах), таму быў створаны зручны для карыстальнікаў вэб-інтэрфейс.

Цяжка знайсці сучасны праект, звязаны з беларускай мовай, які не будзе мець карысці ад выкарыстання Граматычнай базы. Семантыка, фанетыка, распазнаванне і сінтэз маўлення, дыялекталогія, укладанне падручнікаў, камп’ютарная апрацоўка тэкстаў, пошукавыя сістэмы - для ўсяго гэтага Граматычная база проста неабходная.

Як яна можа ўплываць на існыя мовазнаўчыя праекты

Праверка правапісу. Граматычная база дае найбольш поўны і найбольш якасны спіс слоў для праверкі правапісу. Усе існыя да гэтага спісы не могуць з ёй канкураваць. Гэта значыць, што праверка правапісу беларускае мовы выходзіць на новы якасны ўзровень.

Аналіз. Выбаркі слоў па адмысловым крытэрыі дапамогуць аналізаваць групы слоў. Гэта значна спрашчае працу даследчыкам мовы, рэдактарам, перакладчыкам, выкладчыкам, студэнтам, школьнікам: яны з лёгкасцю могуць знайсці патрэбныя прыклады.

Стварэнне слоўнікаў. База значна спрашчае жыццё стваральнікам слоўнікаў: можна аўтаматычна выяўляць памылкі, правяраць ужыванне таго ці іншага слова, яго нарматыўны статус. Разнастайныя спісы слоў могуць укладацца амаль аўтаматычна.

Карысныя асаблівасці базы, нязвыклыя для карыстальнікаў папяровых слоўнікаў

Лічбавы выгляд. Нават слоўнікі, захаваныя на камп’ютары, разлічаныя на звычайнае чытанне з мінімальнай магчымасцю выбаркі інфармацыі. Але такі фармат зусім не прыдатны для камп’ютарнай апрацоўкі, бо ўтрымлівае розныя скарачэнні, неаднастайнае афармленне і г.д. Наша ж база арыентаваная найперш на камп’ютарную апрацоўку: можна не проста шукаць нейкае слова, як у тэкставым файле слоўніка, а рабіць выбаркі, як у звычайнай базе звестак. Напрыклад, выбраць усе дзеясловы другога спражэння, якія маюць у мінулым часе канчатак -еў. Пры патрэбе граматычную базу можна праглядаць у выглядзе, звыклым для карыстальнікаў папяровых слоўнікаў.

Новыя рэдакцыі - хутка і без памылак друку. Папяровыя кнігі і слоўнікі часам перавыдаюцца, і ў перавыданнях адбываецца спроба выправіць памылкі. Але з-за таго, што яны апрацоўваюцца як звычайны тэкст, падчас набору ці рэдагавання дадаюцца новыя памылкі, якіх раней не было. Захоўванне ў git усіх змен дазваляе адсачыць кожнае выпраўленне, і пазбягаць памылак. Такі падыход дазваляе карыстацца новай рэдакцыяй адразу, не чакаючы перавыдання, якое для папяровых слоўнікаў можа зацягнуцца на гады.

Ліцэнзія. База распаўсюджваецца пад ліцэнзіяй Creative Commons Attribution-ShareAlike 4.0 International (CC BY-SA 4.0). Гэта значыць, яе можна вольна распаўсюджваць і выкарыстоўваць пад такой самай ліцэнзіяй. Гэта адрозніваецца ад звычайных правіл выкарыстання слоўнікаў, дзе выдавецтва зацікаўленае зарабіць грошы на продажы і забараняе вольнае распаўсюджванне. Да таго ж, у Беларусі нават аўтары часам не могуць вызначаць правілы распаўсюджвання сваіх слоўнікаў.

----

База і далей будзе пашырацца і ўдасканальвацца.

Файлы граматычнай базы знаходзяцца на github.com і распаўсюдваюцца пад ліцэнзіяй CC BY-SA 4.0.





Grammar database is licensed under a CC BY-SA 4.0 license.
Corpus engine is licensed under a GPLv3 license.