Skip to content

Commit 105ba96

Browse files
committed
Improving conversion of PDT-C 2.0.
1 parent 7903be3 commit 105ba96

File tree

1 file changed

+10
-0
lines changed

1 file changed

+10
-0
lines changed

udapi/block/ud/cs/fixedeprels.py

Lines changed: 10 additions & 0 deletions
Original file line numberDiff line numberDiff line change
@@ -38,6 +38,7 @@ class FixEdeprels(Block):
3838
# case. And include all other prepositions that have unambiguous morphological
3939
# case, even if they are not secondary.
4040
unambiguous = {
41+
'á': 'na:acc', # "á konto té záležitosti", ovšem "á konto" není ani spojeno jako složená předložka (význam = "na konto")
4142
'abi': 'aby',
4243
'aby_na': 'na:loc',
4344
'ačkoliv': 'ačkoli',
@@ -59,6 +60,7 @@ class FixEdeprels(Block):
5960
'bez_zřetel_k': 'bez_zřetele_k:dat',
6061
'bez_zřetel_na': 'bez_zřetele_na:acc',
6162
'blízko': 'blízko:dat',
63+
'blízko_k': 'blízko:dat',
6264
'blíž': 'blízko:dat',
6365
'cesta': 'cestou:gen',
6466
'coby': 'coby', # remove morphological case
@@ -86,6 +88,8 @@ class FixEdeprels(Block):
8688
'jakoby_pod': 'pod:ins',
8789
'jakožto': 'jako',
8890
'jelikož_do': 'jelikož',
91+
'jenom': 'jen',
92+
'jesli': 'jestli',
8993
'jestli_že': 'jestliže',
9094
'k': 'k:dat',
9195
'k_konec': 'ke_konci:gen',
@@ -98,6 +102,7 @@ class FixEdeprels(Block):
98102
'konec': 'koncem:gen',
99103
'krom': 'kromě:gen',
100104
'kromě': 'kromě:gen',
105+
'leda_když': 'ledaže',
101106
'li_jako': 'li',
102107
'liž': 'li',
103108
'mezi_uvnitř': 'uvnitř:gen',
@@ -131,6 +136,7 @@ class FixEdeprels(Block):
131136
'o_jako': 'jako',
132137
'o_o': 'o:acc',
133138
'od': 'od:gen',
139+
'od_počínaje': 'počínaje:ins', # od brambor počínaje a základní zeleninou konče
134140
'ohledně': 'ohledně:gen',
135141
'okolo': 'okolo:gen',
136142
'oproti': 'oproti:dat',
@@ -162,6 +168,7 @@ class FixEdeprels(Block):
162168
'před_během': 'během:gen', # před a během utkání
163169
'před_po': 'po:loc', # před a po vyloučení Schindlera
164170
'přes': 'přes:acc',
171+
'přes_přes': 'přes:acc', # annotation error
165172
'přestože': 'přestože', # remove morphological case
166173
'při': 'při:loc',
167174
'při_pro': 'při:loc',
@@ -183,6 +190,7 @@ class FixEdeprels(Block):
183190
'směr_k': 'směrem_k:dat',
184191
'směr_na': 'směrem_na:acc',
185192
'směr_od': 'směrem_od:gen',
193+
'směr_přes': 'směrem_přes:acc',
186194
'společně_s': 'společně_s:ins',
187195
'spolu': 'spolu_s:ins',
188196
'spolu_s': 'spolu_s:ins',
@@ -233,6 +241,7 @@ class FixEdeprels(Block):
233241
'v_služba': 've_službách:gen',
234242
'v_směr': 've_směru:gen',
235243
'v_směr_k': 've_směru_k:dat',
244+
'v_směr_na': 've_směru_k:dat', # same meaning as ve_směru_na:acc
236245
'v_smysl': 've_smyslu:gen',
237246
'v_součinnost_s': 'v_součinnosti_s:ins',
238247
'v_souhlas_s': 'v_souhlasu_s:ins',
@@ -319,6 +328,7 @@ def process_node(self, node):
319328
# flagged as solved.
320329
edep['deprel'] = re.sub(r'^advcl:do(?::gen)?$', r'obl:do:gen', edep['deprel']) # od nevidím do nevidím ###!!! Ale měli bychom opravit i závislost v základním stromu!
321330
edep['deprel'] = re.sub(r'^advcl:pro(?::acc)?$', r'advcl:aby', edep['deprel']) # byl by pro, abychom... ###!!! Opravit i konverzi stromu.
331+
edep['deprel'] = re.sub(r'^advcl:s(?::ins)?$', r'advcl', edep['deprel']) ###!!! "seděli jsme tam s Člověče, nezlob se!" Měla by se opravit konverze stromu.
322332
edep['deprel'] = re.sub(r'^acl:k(?::dat)?$', r'acl', edep['deprel'])
323333
edep['deprel'] = re.sub(r'^advcl:k(?::dat)?$', r'obl:k:dat', edep['deprel']) ###!!! Ale měli bychom opravit i závislost v základním stromu!
324334
edep['deprel'] = re.sub(r'^advcl:místo(?::gen)?$', r'obl:místo:gen', edep['deprel']) # 'v poslední době se množí bysem místo bych'

0 commit comments

Comments
 (0)
pFad - Phonifier reborn

Pfad - The Proxy pFad of © 2024 Garber Painting. All rights reserved.

Note: This service is not intended for secure transactions such as banking, social media, email, or purchasing. Use at your own risk. We assume no liability whatsoever for broken pages.


Alternative Proxies:

Alternative Proxy

pFad Proxy

pFad v3 Proxy

pFad v4 Proxy