09.09.2019 - Абноўлены Беларускі N-корпус. Дадалося ~5000 тэкстаў аб'ёмам ~12 млн. словаўжыванняў. Таксама перапрацавана пашпартызацыя большай часткі тэкстаў і выпраўлены асобныя тэхнічныя моманты. У абнаўленне ўвайшлі тэксты класікаў беларускай літаратуры: Брыля, Быкава, Бядулі, Глебкі, Дубоўкі, Дударава, Зарэцкага, Караткевіча, Коласа, Купалы, Маўра, Мележа, Панчанкі, Пушчы, Сіпакова, Чорнага, Чыгрынава, Янішчыц і многіх іншых. Агульны аб'ём Асноўнага корпусу складае ~ 163 млн. словаўжыванняў. Аб'ём усяго корпусу (разам з неразабранымі тэкстамі) - ~337 млн. словаўжыванняў.
   09.02.2017 - зменены інтэрфейс корпусу
   10.08.2016 - абноўлена праверка арфаграфіі для LibreOffice і Firefox/Thunderbird (глядзі старонку Спампаваць)
   09.08.2016 - абноўлена граматычная база
   05.08.2016 - корпус папоўнены публіцыстычнымі тэкстамі ~20 млн. словаўжыванняў. Агульны аб'ём корпусу - ~80 млн. словаўжыванняў.

Беларускі N-корпус - першая спроба стварэння публічнага агульнага корпусу беларускай мовы.

Лексіка-граматычная база даступная на ўмовах ліцэнзіі CC BY-SA 4.0 (таксама можа быць скарыстаная на ўмовах ліцэнзіі LGPLv3).

Рухавік даступны на ўмовах ліцэнзіі GNU General Public License, Version 3.

Вітаецца любая дапамога: прапановы і крытычныя заўвагі, вычытаныя тэксты (з выходнымі звесткамі), дапамога ў зняцці аманіміі і інш.

Дасылайце лісты на bnkorpus@gmail.com

Іншыя корпусы беларускай мовы: корпус навуковых тэкстаў Corpus Albaruthenicum, паралельны беларуска-руска-беларускі корпус на сайце Нацыянальнага корпусу рускай мовы

Артыкул пра корпус: артыкул



Belarusian N-korpus is the first publicly available general Belarusian language corpus.

The grammar database is available under CC BY-SA 4.0 (also can be used under LGPLv3).

The corpus engine is available under GNU General Public License, Version 3.

Contacts: bnkorpus@gmail.com

Other available Belarusian language corpora: Corpus Albaruthenicum - Corpus of the academic Belarusian language, Parallel Belarusian-Russian-Belarusian Corpus on the website of the Russian National Corpus