A tagset is a list of part-of-speech tags (POS tags for short), i.e. labels used to indicate the part of speech and sometimes also other grammatical categories (case, tense etc.) of each token in a text corpus.

Urdu part-of-speech tagset is available in Urdu corpora annotated by the shallow parser (IIIT) .

An Example of a tag in the CQL concordance search box: [tag="VM"] searches all main verbs, e.g. کلک (note: please make sure that you use straight double quotation marks)

Sl. No Category: Top level Category: Subtype (level 1)
Category: Subtype (level 2) Label Annotation convention** Examples Remarks
1 Noun (ism – اسم) N N ‘(laRkaa) لڑکا

‘(raajaa) راجا

(kitaab) کتاب

1.1 Common (نکره – nakeraa) NN N__NN ‘(kitaab) کتاب

‘(qalam) قلم

(cashma) چشمہ

1.2 Proper (معرفہ – m’aarefa) NNP N__NNP ‘(Mohan) موہن

‘(Rashmi) رشمی

(Ravi) روی

1.3 Verbal ‎

(حاصل مصدر

[haasil-e-masdar])

NNV N__NNV ‘(calan) چلن

‘(bahaao) بہاؤ

‘(bahaavat) بناوٹ

‘(jalan) جلن

May be considered for Urdu-Hindi, too.
1.4 Nloc (zarf – ظرف) NST N__NST ‘(upar) اوپر

‘(niice) نيچے

‘(aage) آگے

(piiche) پيچهے

2 Pronoun (zamiir – ضمير) PR PR ‘(yih) يہ

‘(voh) وه

(jo) جو

2.1 Personal (ضمير شخصی zamiir-e-shakhsii) PRP PR__PRP ‘(voh) وه

(maim) ميں

‘(tum) تم

In Urdu, unlike Hindi, voh is used both for singular and plural.
2.2 Reflexive (ضمير معکوسی-zamiir-e-m‘aakoosii) PRF PR__PRF ‘(apnaa) اپنا

‘(khud) خود

‘(apne aap) اپنے آپ

2.3 Relative (ضمير موصولہ-zamiir-e-mausoolaa) PRL PR__PRL ‘(jo) جو

‘(jab) جب

‘(jis) جس

(jahaM) جہاں

2.4 Reciprocal (ضمير راجع-zamiir-e-raaje‘) PRC PR__PRC ‘(baaham) باہم

‘(darmiyaan) درميان

(aapas) آپس

2.5 Wh-word (ضمير استفہاميہ-zamiir-e-istafhaamiyaa) PRQ PR__PRQ ‘(kaun) کون

‘(kab) کب

(kahaaM) کہاں

3 Demonstrative (ضمير اشاره-zamiir-e-ishaaraa) DM DM ‘(yih) يہ

‘(voh) وه

‘(inn) ان

‘(unn) ان

3.1 Deictic (اشارے – ishaare) DMD DM__DMD ‘(yih) يہ

‘(voh) وه

3.2 Relative (ضمير اشاره موصولہ-zamiir-e-ishaaraa mausoolaa) DMR DM__DMR ‘(jo) جو

(jis) جس

3.3 Wh-word (ضمير اشاره استفہاميہ-zamiir-e-ishaaraa istafhaamiyaa) DMQ DM__DMQ ‘(kaun) کون

‘(kis) کس

‘(kitnaa) کتنا

According to Urdu grammar words like koi, kisi, kuch do not come under Wh-word; they are used for indefinite person. For them, another category (subtype), i.e.,tankiir (indefinitive) is used. Under this category following words are also placed: chand, b‘aaz, fulaan, sab, bahut. Can we have a category/subtype like indefinitive demonstrative (DMI)?
4 Verb (f’el – فعل) V V ‘(giraa) گرا

‘(gayaa) گيا

‘(sonaa) سونا

(haMstaa) ہنستا

4.1 Main VM V__VM ‘(giraa) گرا

‘(gayaa) گيا

‘(sonaa) سونا

(haMstaa) ہنستا

4.1.1 Finite (محدود – mahdood) VF V__VM__VF This subtype WILL NOT be used for Hindi as Hindi does not have enough information at the word level.
4.1.2 Nonfinite (غيرمحدود-ghair د mahdood) VNF V__VM__VNF –do–
4.1.3 Infinite (مصدر – masdar) VINF V__VM__VINF –do–
4.1.4 Gerund (حاصل مصدر haasil-e- masdar) VNG V__VM__VNG –do–
4.2 Auxiliary (فعل امدادی-f‘el-e-imdaadi) VAUX V__VAUX ‘(hai) ہے

‘(rahaa) رہا

(huaa) ہوا

5 Adjective (sifat – صفت) JJ ‘(dilkash) دلکش

‘(safed) سفيد

‘(siyaah) سياه

‘(cauRaa) چوڑا

(uuMcaa) اونچا

6 Adverb (mut‘alliq-e- f‘elفعل متعلق RB ‘(tez) تيز

(jald) جلد

7 Postposition (jaar– جارموخر e-moakkhar) PSP ‘(se) نے

‘(ko) سے

‘(ne) کو

(meiM) ميں

8 Conjunction (atf’ – عطف) CC CC ‘(aur) اور

‘(agar) اگر

(kyoMki) کيوں کہ

8.1 Co-ordinator (حرف وصل – harf-e-vasl) CCD CC__CCD ‘(aur) اور

‘(voh) وه

‘(yaa) يا

‘(ki) کہ

(balki) بلکہ

8.2 Subordinator (تاب کننده – taab‘e kunindaa) CCS CC_CCS ‘(agar) اگر

(kyoMki) کيوں کہ

(to) تو

8.2.1 Quotative (اقتباسی – iqtabaasii) UT CC__CCS__UT Not required
9 Particles (haaliyaa – حاليہ) RP RP ‘(to) تو

‘(hii) ہی

(bhii) بهی

9.1 Default ( ڈيفالٹ – default) RPD RP__RPD ‘(to) تو

‘(hii) ہی

(bhii) بهی

9.2 Classifier (درجہ بند – darja band) CL RP__CL Not required
9.3 Interjection (فجائيہ – fajaa’iyaa) INJ RP__INJ ‘(e) اے

‘(o) او

‘(are) ارے

‘(jii) جی

‘(ahaa) اہا

(vaah) واه

9.4 Intensifier (حرف تاکيد – harf-e-taakiid) INTF RP__INTF ‘(bahut) بہت

‘(behad) بے حد

‘(albattaa) البتہ

‘(zaroor) ضرور

(khabardaar) خبردار

9.5 Negation (حرف نہی – harf-e-nahii) NEG RP_NEG ‘(na) نہ

(nahiiM) نہيں

10 Quantifiers (کميت نما – kamiiyat numaa) QT QT ‘(cand) چند

‘(qaliil) قليل

(kasiir) کثير

(muta’adddat) متعدد

10.1 General (aam’ – عام) QTF QT__QTF ‘(thoRaa) تهوڑا

‘(bahut) بہت

(kuch) کچه

10.2 Cardinals (اعداد مطلق – a‘adaad -e-mutlaq) QTC QT___QTC ‘(Ek) ايک

‘(do) دو

(tiin) تين

10.3 Ordinals (ترتيبی اعداد-tartiibiia‘adaad) QTO QT__QTO ‘(avval) اول

‘(doam) دوم

‘(pahalaa) پہلا

(duusaraa) دوسرا

11 Residuals (baqi – باقی مانده – maandaa) RD RD
11.1 Foreign word (بديسی لفظ – bidesii lafz) RDF RD__RDF A word written in script other than the script of the original text.
11.2 Symbol (alaamat’ – علامت) SYM RD__SYM $, &, *, (, ) & ,$ Such symbols are not used in Urdu. They are written: ڈالر (dollar), پاونڈ (pound) etc.
11.3 Punctuation (اوقاف – auqaaf) PUNC RD__PUNC ، , ، : ، ; Only for Punctuations
11.4 Unknown (نامعلوم-naa m‘aaloom) UNK RD__UNK
11.5 Echowords (گونج دار الفاظ – goonjdar lafz) ECH RD__ECH ِوپيار- (ويار

pyaar-) vyaar،

)چائے (وائے)

caa‘e-) vaa‘e

Source: Unified Parts of Speech (POS) Standard in Indian Languages.