Skip to content
New issue

Have a question about this project? Sign up for a free GitHub account to open an issue and contact its maintainers and the community.

By clicking “Sign up for GitHub”, you agree to our terms of service and privacy statement. We’ll occasionally send you account related emails.

Already on GitHub? Sign in to your account

Affixes after quotes #27

Open
mansayk opened this issue Jan 17, 2019 · 2 comments
Open

Affixes after quotes #27

mansayk opened this issue Jan 17, 2019 · 2 comments
Assignees
Labels
enhancement New feature or request help wanted Extra attention is needed

Comments

@mansayk
Copy link
Member

mansayk commented Jan 17, 2019

Hello!

There is a problem that is typical for texts in Tatar language. It is about using affixes after quotes, for example,

"Каз оясы"на каратып
"Алтынчә"не кушамат дип
Ә "Шыксыз үрдәк баласы"н?
Ә "Гали баба һәм кырык юлбасар"ны?
"параллель Җир"дәге
Алар умарталыкны "Бояр бакчасы"на күчерергә
"өчле"гә җавап бирә

And Apertium's tagger doesn't process them correctly:

echo '"өчле"гә җавап бирә' | apertium-destxt -n | lt-proc -z -w 'apertium-tat/tat.automorf.bin' | cg-proc -z 'apertium-tat/tat.rlx.bin' | cg-proc -z -w -1 'apertium-tat/dev/mansur.bin' | apertium-retxt
^"/"<quot>$^өчле/өчле<adj>$^"/"<quot>$^гә/*гә$ ^җавап бирә/җавап бир<v><tv><pres><p3><sg>$

So I want to ask if there is any possible way to make tagger to recognize those cases? They are very typical for Tatar texts. Some statistics from corpus:

  42693 "ның
  25702 "ны
  24363 "да
  22480 "га
  19133 "нең
  13277 "не
  10018 "ка
   9649 "гы
   9387 "нда
   9288 "гә
   9060 "дә
   8753 "та
   8586 "на
   8106 "ндә
   7420 "лар
   6265 "нә
   5428 "дан
   3880 "кә
   3737 "тә
   3724 "ләр
   3247 "тан
   2767 "дән
   2684 "дагы
   2681 "сы
   2576 "ын
   2318 "ннан
   1912 "ларны
   1778 "ннән
   1638 "нан
   1515 "ен
   1512 "се
   1507 "сын
   1421 "лары
   1390 "ларга
   1332 "ларның
   1239 "ле
   1213 "тән
   1204 "ында
   1120 "нын
    982 "дәге
    967 "лы
    917 "ына
    860 "лылар
    805 "тагы
    797 "ларын
    796 "нар
    767 "ләрне
    738 "дип
    736 "ләре
    734 "сен
    710 "ендә
    681 "ларда
    658 "сына
    628 "сында
    614 "ндагы
    606 "ләргә
    561 "ндәге
    543 "дигән
    540 "сыз
    540 "лардан
    536 "ләрнең
    529 "нен
    488 "мы
    456 "леләр
    447 "сендә
    426 "ыннан
    417 "нән
    402 "ының
    384 "ләрен
    372 "енә
    364 "сенә
    332 "ныкы
    329 "ме
    318 "ларына
    317 "чылар
    302 "ләрдә
    300 "ләрдән
    298 "сыннан
    264 "енең
    261 "сының
    259 "тәге
    252 "нәр
    224 "ыбыз
    213 "лек
    212 "еннән
    209 "дыр
    206 "лык
    193 "легә
    192 "ындагы
    173 "нарны
    167 "ларының
    164 "сез
    161 "ым
    161 "нары
    158 "челәр
    155 "чы
    150 "сеннән
    145 "сенең
    142 "ларыннан
    141 "нарга
    140 "ың
    140 "дер
    135 "лап
    128 "лыларның
    127 "нәре
    126 "неке
    123 "быз
    117 "нарның
    115 "ларында
    110 "ендәге
@mansayk mansayk added enhancement New feature or request help wanted Extra attention is needed labels Jan 17, 2019
@jonorthwash
Copy link
Member

That must be a huge corpus!

I can think of a few ways to approach this problem, but let's hear what @ftyers suggests.

@mansayk
Copy link
Member Author

mansayk commented Jan 19, 2019

This "Corpus of Written Tatar" (356 mln word occurences) was used:
http://www.corpus.tatar/en

Sign up for free to join this conversation on GitHub. Already have an account? Sign in to comment
Labels
enhancement New feature or request help wanted Extra attention is needed
Projects
None yet
Development

No branches or pull requests

4 participants