A tagset is a list of part-of-speech tags (POS tags for short), i.e. labels used to indicate the part of speech and sometimes also other grammatical categories (case, tense etc.) of each token in a text corpus.
Urdu part-of-speech tagset is available in Urdu corpora annotated by the shallow parser (IIIT) .
An Example of a tag in the CQL concordance search box: [tag="VM"]
searches all main verbs, e.g. کلک (note: please make sure that you use straight double quotation marks)
Sl. No | Category: Top level | Category: Subtype (level 1) |
Category: Subtype (level 2) | Label | Annotation convention** | Examples | Remarks |
1 | Noun (ism – اسم) | N | N | ‘(laRkaa) لڑکا
‘(raajaa) راجا (kitaab) کتاب |
|||
1.1 | Common (نکره – nakeraa) | NN | N__NN | ‘(kitaab) کتاب
‘(qalam) قلم (cashma) چشمہ |
|||
1.2 | Proper (معرفہ – m’aarefa) | NNP | N__NNP | ‘(Mohan) موہن
‘(Rashmi) رشمی (Ravi) روی |
|||
1.3 | Verbal
(حاصل مصدر [haasil-e-masdar]) |
NNV | N__NNV | ‘(calan) چلن
‘(bahaao) بہاؤ ‘(bahaavat) بناوٹ ‘(jalan) جلن |
May be considered for Urdu-Hindi, too. | ||
1.4 | Nloc (zarf – ظرف) | NST | N__NST | ‘(upar) اوپر
‘(niice) نيچے ‘(aage) آگے (piiche) پيچهے |
|||
2 | Pronoun (zamiir – ضمير) | PR | PR | ‘(yih) يہ
‘(voh) وه (jo) جو |
|||
2.1 | Personal (ضمير شخصی zamiir-e-shakhsii) | PRP | PR__PRP | ‘(voh) وه
(maim) ميں ‘(tum) تم |
In Urdu, unlike Hindi, voh is used both for singular and plural. | ||
2.2 | Reflexive (ضمير معکوسی-zamiir-e-m‘aakoosii) | PRF | PR__PRF | ‘(apnaa) اپنا
‘(khud) خود ‘(apne aap) اپنے آپ |
|||
2.3 | Relative (ضمير موصولہ-zamiir-e-mausoolaa) | PRL | PR__PRL | ‘(jo) جو
‘(jab) جب ‘(jis) جس (jahaM) جہاں |
|||
2.4 | Reciprocal (ضمير راجع-zamiir-e-raaje‘) | PRC | PR__PRC | ‘(baaham) باہم
‘(darmiyaan) درميان (aapas) آپس |
|||
2.5 | Wh-word (ضمير استفہاميہ-zamiir-e-istafhaamiyaa) | PRQ | PR__PRQ | ‘(kaun) کون
‘(kab) کب (kahaaM) کہاں |
|||
3 | Demonstrative (ضمير اشاره-zamiir-e-ishaaraa) | DM | DM | ‘(yih) يہ
‘(voh) وه ‘(inn) ان ‘(unn) ان |
|||
3.1 | Deictic (اشارے – ishaare) | DMD | DM__DMD | ‘(yih) يہ
‘(voh) وه |
|||
3.2 | Relative (ضمير اشاره موصولہ-zamiir-e-ishaaraa mausoolaa) | DMR | DM__DMR | ‘(jo) جو
(jis) جس |
|||
3.3 | Wh-word (ضمير اشاره استفہاميہ-zamiir-e-ishaaraa istafhaamiyaa) | DMQ | DM__DMQ | ‘(kaun) کون
‘(kis) کس ‘(kitnaa) کتنا |
According to Urdu grammar words like koi, kisi, kuch do not come under Wh-word; they are used for indefinite person. For them, another category (subtype), i.e.,tankiir (indefinitive) is used. Under this category following words are also placed: chand, b‘aaz, fulaan, sab, bahut. Can we have a category/subtype like indefinitive demonstrative (DMI)? | ||
4 | Verb (f’el – فعل) | V | V | ‘(giraa) گرا
‘(gayaa) گيا ‘(sonaa) سونا (haMstaa) ہنستا |
|||
4.1 | Main | VM | V__VM | ‘(giraa) گرا
‘(gayaa) گيا ‘(sonaa) سونا (haMstaa) ہنستا |
|||
4.1.1 | Finite (محدود – mahdood) | VF | V__VM__VF | This subtype WILL NOT be used for Hindi as Hindi does not have enough information at the word level. | |||
4.1.2 | Nonfinite (غيرمحدود-ghair د mahdood) | VNF | V__VM__VNF | –do– | |||
4.1.3 | Infinite (مصدر – masdar) | VINF | V__VM__VINF | –do– | |||
4.1.4 | Gerund (حاصل مصدر haasil-e- masdar) | VNG | V__VM__VNG | –do– | |||
4.2 | Auxiliary (فعل امدادی-f‘el-e-imdaadi) | VAUX | V__VAUX | ‘(hai) ہے
‘(rahaa) رہا (huaa) ہوا |
|||
5 | Adjective (sifat – صفت) | JJ | ‘(dilkash) دلکش
‘(safed) سفيد ‘(siyaah) سياه ‘(cauRaa) چوڑا (uuMcaa) اونچا |
||||
6 | Adverb (mut‘alliq-e- f‘elفعل متعلق | RB | ‘(tez) تيز
(jald) جلد |
||||
7 | Postposition (jaar– جارموخر e-moakkhar) | PSP | ‘(se) نے
‘(ko) سے ‘(ne) کو (meiM) ميں |
||||
8 | Conjunction (atf’ – عطف) | CC | CC | ‘(aur) اور
‘(agar) اگر (kyoMki) کيوں کہ |
|||
8.1 | Co-ordinator (حرف وصل – harf-e-vasl) | CCD | CC__CCD | ‘(aur) اور
‘(voh) وه ‘(yaa) يا ‘(ki) کہ (balki) بلکہ |
|||
8.2 | Subordinator (تاب کننده – taab‘e kunindaa) | CCS | CC_CCS | ‘(agar) اگر
(kyoMki) کيوں کہ (to) تو |
|||
8.2.1 | Quotative (اقتباسی – iqtabaasii) | UT | CC__CCS__UT | Not required | |||
9 | Particles (haaliyaa – حاليہ) | RP | RP | ‘(to) تو
‘(hii) ہی (bhii) بهی |
|||
9.1 | Default ( ڈيفالٹ – default) | RPD | RP__RPD | ‘(to) تو
‘(hii) ہی (bhii) بهی |
|||
9.2 | Classifier (درجہ بند – darja band) | CL | RP__CL | Not required | |||
9.3 | Interjection (فجائيہ – fajaa’iyaa) | INJ | RP__INJ | ‘(e) اے
‘(o) او ‘(are) ارے ‘(jii) جی ‘(ahaa) اہا (vaah) واه |
|||
9.4 | Intensifier (حرف تاکيد – harf-e-taakiid) | INTF | RP__INTF | ‘(bahut) بہت
‘(behad) بے حد ‘(albattaa) البتہ ‘(zaroor) ضرور (khabardaar) خبردار |
|||
9.5 | Negation (حرف نہی – harf-e-nahii) | NEG | RP_NEG | ‘(na) نہ
(nahiiM) نہيں |
|||
10 | Quantifiers (کميت نما – kamiiyat numaa) | QT | QT | ‘(cand) چند
‘(qaliil) قليل (kasiir) کثير (muta’adddat) متعدد |
|||
10.1 | General (aam’ – عام) | QTF | QT__QTF | ‘(thoRaa) تهوڑا
‘(bahut) بہت (kuch) کچه |
|||
10.2 | Cardinals (اعداد مطلق – a‘adaad -e-mutlaq) | QTC | QT___QTC | ‘(Ek) ايک
‘(do) دو (tiin) تين |
|||
10.3 | Ordinals (ترتيبی اعداد-tartiibiia‘adaad) | QTO | QT__QTO | ‘(avval) اول
‘(doam) دوم ‘(pahalaa) پہلا (duusaraa) دوسرا |
|||
11 | Residuals (baqi – باقی مانده – maandaa) | RD | RD | ||||
11.1 | Foreign word (بديسی لفظ – bidesii lafz) | RDF | RD__RDF | A word written in script other than the script of the original text. | |||
11.2 | Symbol (alaamat’ – علامت) | SYM | RD__SYM | $, &, *, (, ) & ,$ | Such symbols are not used in Urdu. They are written: ڈالر (dollar), پاونڈ (pound) etc. | ||
11.3 | Punctuation (اوقاف – auqaaf) | PUNC | RD__PUNC | ، , ، : ، ; | Only for Punctuations | ||
11.4 | Unknown (نامعلوم-naa m‘aaloom) | UNK | RD__UNK | ||||
11.5 | Echowords (گونج دار الفاظ – goonjdar lafz) | ECH | RD__ECH | ِوپيار- (ويار
pyaar-) vyaar، )چائے (وائے) caa‘e-) vaa‘e |
Source: Unified Parts of Speech (POS) Standard in Indian Languages.