Identifikační kód |
RIV/67985807:_____/19:00509321 |
Název v anglickém jazyce |
Deep Bayesian Semi-Supervised Active Learning for Sequence Labelling |
Druh |
D - Stať ve sborníku |
Jazyk |
eng - angličtina |
Vědní obor |
10201 - Computer sciences, information science, bioinformathics (hardware development to be 2.2, social aspect to be 5.8) |
Rok uplatnění |
2019 |
Kód důvěrnosti údajů |
S - Úplné a pravdivé údaje o výsledku nepodléhající ochraně podle zvláštních právních předpisů. |
Počet výskytů výsledku |
3 |
Počet tvůrců celkem |
3 |
Počet domácích tvůrců |
1 |
Výčet všech uvedených jednotlivých tvůrců |
Martin Holeňa (státní příslušnost: CZ - Česká republika, domácí tvůrce: A, vedidk: 6036627, scopusid: 6602138487, researcherid: C-4958-2014) J. E. Páll (státní příslušnost: CZ - Česká republika) T. Šabata (státní příslušnost: CZ - Česká republika) |
Popis výsledku v anglickém jazyce |
In recent years, deep learning has shown supreme results in many sequence labelling tasks, especially in natural language processing. However, it typically requires a large training data set compared with statistical approaches. In areas where collecting of unlabelled data is cheap but labelling expensive, active learning can bring considerable improvement. Sequence learning algorithms require a series of token-level labels for a whole sequence to be available during the training process. Annotators of sequences typically label easily predictable parts of the sequence although such parts could be labelled automatically instead. In this paper, we introduce a combination of active and semi-supervised learning for sequence labelling. Our approach utilizes an approximation of Bayesian inference for neural nets using Monte Carlo dropout. The approximation yields a measure of uncertainty that is needed in many active learning query strategies. We propose Monte Carlo token entropy and Monte Carlo N-best sequence entropy strategies. Furthermore, we use semi-supervised pseudo-labelling to reduce labelling effort. The approach was experimentally evaluated on multiple sequence labelling tasks. The proposed query strategies outperform other existing techniques for deep neural nets. Moreover, the semi-supervised learning reduced the labelling effort by almost 80% without any incorrectly labelled samples being inserted into the training data set. |
Klíčová slova oddělená středníkem |
Active Learning;Semi-supervised Learning;Bayesian Inference;Deep Learning;Sequence Labelling |
Stránka www, na které se nachází výsledek |
http://ceur-ws.org/Vol-2444/ialatecml_paper6.pdf |
Odkaz na údaje z výzkumu |
- |