Affixes after quotes #27

mansayk · 2019-01-17T09:17:27Z

Hello!

There is a problem that is typical for texts in Tatar language. It is about using affixes after quotes, for example,

"Каз оясы"на каратып
"Алтынчә"не кушамат дип
Ә "Шыксыз үрдәк баласы"н?
Ә "Гали баба һәм кырык юлбасар"ны?
"параллель Җир"дәге
Алар умарталыкны "Бояр бакчасы"на күчерергә
"өчле"гә җавап бирә

And Apertium's tagger doesn't process them correctly:

echo '"өчле"гә җавап бирә' | apertium-destxt -n | lt-proc -z -w 'apertium-tat/tat.automorf.bin' | cg-proc -z 'apertium-tat/tat.rlx.bin' | cg-proc -z -w -1 'apertium-tat/dev/mansur.bin' | apertium-retxt
^"/"<quot>$^өчле/өчле<adj>$^"/"<quot>$^гә/*гә$ ^җавап бирә/җавап бир<v><tv><pres><p3><sg>$

So I want to ask if there is any possible way to make tagger to recognize those cases? They are very typical for Tatar texts. Some statistics from corpus:

  42693 "ның
  25702 "ны
  24363 "да
  22480 "га
  19133 "нең
  13277 "не
  10018 "ка
   9649 "гы
   9387 "нда
   9288 "гә
   9060 "дә
   8753 "та
   8586 "на
   8106 "ндә
   7420 "лар
   6265 "нә
   5428 "дан
   3880 "кә
   3737 "тә
   3724 "ләр
   3247 "тан
   2767 "дән
   2684 "дагы
   2681 "сы
   2576 "ын
   2318 "ннан
   1912 "ларны
   1778 "ннән
   1638 "нан
   1515 "ен
   1512 "се
   1507 "сын
   1421 "лары
   1390 "ларга
   1332 "ларның
   1239 "ле
   1213 "тән
   1204 "ында
   1120 "нын
    982 "дәге
    967 "лы
    917 "ына
    860 "лылар
    805 "тагы
    797 "ларын
    796 "нар
    767 "ләрне
    738 "дип
    736 "ләре
    734 "сен
    710 "ендә
    681 "ларда
    658 "сына
    628 "сында
    614 "ндагы
    606 "ләргә
    561 "ндәге
    543 "дигән
    540 "сыз
    540 "лардан
    536 "ләрнең
    529 "нен
    488 "мы
    456 "леләр
    447 "сендә
    426 "ыннан
    417 "нән
    402 "ының
    384 "ләрен
    372 "енә
    364 "сенә
    332 "ныкы
    329 "ме
    318 "ларына
    317 "чылар
    302 "ләрдә
    300 "ләрдән
    298 "сыннан
    264 "енең
    261 "сының
    259 "тәге
    252 "нәр
    224 "ыбыз
    213 "лек
    212 "еннән
    209 "дыр
    206 "лык
    193 "легә
    192 "ындагы
    173 "нарны
    167 "ларының
    164 "сез
    161 "ым
    161 "нары
    158 "челәр
    155 "чы
    150 "сеннән
    145 "сенең
    142 "ларыннан
    141 "нарга
    140 "ың
    140 "дер
    135 "лап
    128 "лыларның
    127 "нәре
    126 "неке
    123 "быз
    117 "нарның
    115 "ларында
    110 "ендәге

The text was updated successfully, but these errors were encountered:

jonorthwash · 2019-01-18T04:10:10Z

That must be a huge corpus!

I can think of a few ways to approach this problem, but let's hear what @ftyers suggests.

mansayk · 2019-01-19T11:35:28Z

This "Corpus of Written Tatar" (356 mln word occurences) was used:
http://www.corpus.tatar/en

mansayk added enhancement New feature or request help wanted Extra attention is needed labels Jan 17, 2019

mansayk assigned ftyers, jonorthwash and IlnarSelimcan Jan 17, 2019

Provide feedback

Saved searches

Use saved searches to filter your results more quickly

Affixes after quotes #27

Affixes after quotes #27

mansayk commented Jan 17, 2019 •

edited

Loading

jonorthwash commented Jan 18, 2019

mansayk commented Jan 19, 2019

Affixes after quotes #27

Affixes after quotes #27

Comments

mansayk commented Jan 17, 2019 • edited Loading

jonorthwash commented Jan 18, 2019

mansayk commented Jan 19, 2019

mansayk commented Jan 17, 2019 •

edited

Loading