పుట:అమ్మనుడి జనవరి 2021 సంచిక.pdf/16

వికీసోర్స్ నుండి
ఈ పుట అచ్చుదిద్దబడ్డది

యంత్రానువాదం

పి. సంగీత 98480 84364

యంత్రానువాదంలో 'వాక్యవిశ్లేషకం' అక్కర

1. పరిచయం

గత దశాబ్ద కాలంలో, నంగణళ భాషాశాస్త్రం 'ప్రపంచవ్వాప్తంగా పరిశోధకుల దృష్టిని ఆకర్షించింది. ఆంగ్లంలోనేకాక ఇతర భాషలలో సంగణక సహాయక బాషా సాధనాలు రూపొందించేందుకు పరిశోధకులు మొగ్గుచూపుతున్నారు. ఈ భాషా సాధనాలలో యంత్రానువాదం అత్యంత ఆసక్తికరమైన మరియు కష్టసాధ్యమ్రైనదిగా పేర్కొనబడింది. ప్రపంచ భాషలలో ఏ భాష నుండైనా మనకు కావలసిన భాషకు సులువుగా, తక్కువ సమయంలో అనువాదం చేసుకునేందుకు యంత్రానువాదం ఎంతో దోహదపడుతుంది. యంత్రానువాదంలో వాక్యవిశ్లేషకం (పార్సర్‌) అత్యంత ఆవశ్యకం. పార్సర్‌ అనేది వాక్యాన్ని వ్యాకరణపరంగానూ అర్జపరంగానూ విశ్లేషించేందుకు ఉపయోగించే సాధనం. ఈ వ్యాసంలో వాక్యవిశ్లేషకం గురించి దాని ఆవశ్యకత గురించి మేము రూపొందించిన తెలుగు వాక్యవిశ్లేషకం గురించి క్లుప్తంగా వివరిస్తున్నాను.

2. వాక్యవిశ్లేషణ = పరిచయం

వాక్యంలో ఉన్న ప్రతి పదానికీ అదే వాక్యంలో ఉన్న ఇతర పదాలకూ మధ్యగల అంతర్గత సంబంధాన్ని వ్యాకరణపరంగా/ వాక్యనిర్మాణపరంగా (syntactically) లేదా అర్ధపరంగా (semantically) విశ్లేషించడాన్ని పార్సింగ్‌ అంటారు. పదాల మధ్య ఉన్న సంబంధాలు కనుగొని ప్రతి సంబంధానికీ ఒక ప్రత్వేక టాగ్‌ను ఇవ్వడం పార్సింగ్‌ ప్రక్రియ ప్రధాన ఉద్దేశ్యం. ఒక వాక్యం యొక్క విశ్లేషణలో(parse) నాడికలు (nodes), వాక్యంలోని పదాలకు టీకలూ (సంవర్గ చిహ్నాలూ) పదాల మధ్య రేఖలూ వాటి మధ్యన ఉన్న సంబంధాన్ని తెలియజేస్తాయి. (క్రింది బొమ్మలను చూడండి). ఈ పార్సింగ్‌ ప్రక్రియకు ఉపకరించే సాధనాన్ని పార్సర్‌/వాక్యవిశ్లేషకం అంటారు. ఏ వాక్యంలోనైనా ముఖ్యమైనది క్రియ. అయితే క్రియ, వాక్య నిర్మాణంలో కీలకమైన పొత్రను పొషించడానికి చాలా కారణాలు ఉన్నప్పటికీ ఆ అంశాన్నీ మనం ఇక్కడ విపులంగా చర్చించడం లేదు. వాక్యంలో ఉన్న పదసంబంధాలు అన్నీ కూడ క్రియను అధారంగా చేసుకుని ఏర్పడినవే కనుక, వాక్యవిశ్లేషకం నిర్మాణంలో క్రియ తప్పనిసరిగా ప్రధానపాత్ర పోషిస్తుంది. అయితే ప్రతిసారీ క్రియాసహిత వాక్యాలే కాక కొన్నిసార్లు క్రియారహిత వాక్యాలు సాధారణంగా కూడా ఉపయోగించడం జరుగుతుంది (ఉ.దా. “నేను వైద్యుడిని"). ఇలాంటి క్రియారహిత వాక్యాలకు మాత్రం మేము రూపొందిస్తున్న వాక్యవిశ్లేషకంలో అంతరంగనిర్మాణంలో సహాయక క్రియను చేర్చి బాహ్యనిర్మాణంలో తొలగించడం జరుగుతుందని భావించడం జరిగింది.

సాధారణంగా వాక్యంలో ఏర్పడిన నిర్మాణాత్మకమ్హైన సందిగ్ధత(structural ambiguity)ని తొలగించటానికి వాక్యవిశ్లేషకాన్ని ఉపయోగించడం జరుగుతుంది. వాక్యవిశ్లేషణ చేసేందుకు అనేక వ్యాకరణ సిద్ధాంతాలు అందుబాటులో ఉన్నా కూడా వాటిలో సంగణక ప్రక్రియలకు ఎక్కువగా ఉపయోగించేవి పద నిర్మాణ ఆధారిత (dependency) మరియు పద వర్గ (constituency) వ్యాకరణ సిద్ధాంతాలు. పద నిర్మాణ ఆధారిత (Dependency) వ్యాకరణ సిద్ధాంతం పాణినీయ వ్యాకరణ సాంప్రదాయం నుండి తీసుకోబడినది. ఈ సిద్ధాంతం భారతీయ భాషలకు అనువైనది అని ప్రముఖ భాషాశాస్త్ర పరిశోధకుల అభిప్రాయం. ఈ పత్రంలో పద నిర్మాణ ఆధారిత వ్యాకరణ సిద్ధాంతాన్ని ఉపయోగించడం జరిగింది.

ఆధునిక పద నిర్మాణ ఆధారిత సిద్ధాంతం ఫ్రెంచ్‌ భాషాశాస్త్రవేత్త లూసియన్‌ తెస్నేర్‌ (1959) ప్రతిపాదించారు. ఆయన రాసిన “ఎలెమెంట్స్‌ అఫ్‌ స్టకరల్‌ సింటాక్స్‌ (Elements of structural syntax)" అనే పుస్తకంలో ఈ వ్యాకరణ సిద్దాంతం గురించి స్పష్టమైన రీతిలో వివరించి, ఇది ఏ భాషను విశ్లేషించేందుకైనా అనువైనది అని పేర్మాన్నారు.

వాక్యవిశ్లేషకం రూపొందించే క్రమంలో టీకాసమితి (tagset) ఎంపిక అనేది చాలా ముఖ్యమైన అంశం. పదాల మధ్య గల సంబంధాన్ని తెలియజేయడానికి ప్రతి సంబంధానికి ప్రత్యేకమైన పేరు గల టీకా సమితి అవసరం అవుతుంది. ప్రస్తుతం అనేక రకాల టీకా సమితులు వాడుకలో ఉన్నప్పటికీ వాటిలో పెన్‌ (penn) టీకాసమితి, ప్రేగ్‌ టీకాసమితి, స్టాన్ఫోర్డ్‌ టీకాసమితి, UCREL టీకాసమితి, అన్‌కోరా (anncora) టీకాసమితులు ప్రధానమైనవి. ఈ వాక్యవిశ్లేషకానికి ఆన్‌కోరా (anncora) టీకానమితి ఉపయోగించడం జరిగింది. ఆన్‌కోరా (anncora) టీకాసమితి పాణిని వ్యాకరణం ఆధారంగా రూపొందించబడింది. ఈ టీకాసమితి వాక్యంలోని పదాల మధ్య ఉన్న కారక మరియు ఆకారక సంబంధాల గురించి వివరిస్తుంది. అయితే కారక సంబంధాలు క్రియకు మరియు ఇతర నామవాచకాలకూ మధ్య ఏర్పడే సంబంధాల గురించి తెలియజేస్తే అకారక సంబంధాలు మాత్రం క్రియతో కాకుండా వాక్యంలోని ఇతర భాగాలతో ఏర్పడే సంబంధాల (ఉదా. రవి యొక్క ఇల్లు - ఈ పదబంధంలో “రవి"కి మరియు “ఇల్లు "కి మధ్య గల సంబంధం అకారక సంబంధం) గురించి తెలియజేస్తాయి. ఆన్‌కోరా(anncora) టీకాసమితిలో ప్రస్తుతం 19 రకాల కారక సంబంధాలు అందుబాటులో ఉన్నాయి. అవి: కర్త (k1), కర్మ (k2), ప్రయోజక కర్త (pk1), కర్త సమానాధికారణ (k1s) మొదలగు సంబంధాలు ఉన్నాయి. ఈ టాగ్‌ సెట్‌ లో ఉన్న సంబంధాలేగాక కొత్త వాక్య సంబంధాలు కావలసివచ్చినప్పుడు కొత్త పేర్లు ఈ టీకాసమితిలో చేర్చడం జరుగుతుంది.

ఈ క్రింది విభాగంలో తెలుగు వాక్యవిశ్లేషణ ఎందుకు కష్టం, ఎలాంటి సమస్యలు తలెత్తుతాయో అన్నఅంశాలు చర్చించబడ్డాయి.

3. విభక్తులు - వాక్యవిశ్లేషణా

తెలుగులో విభక్తులు వివిధ రకాల ప్రత్యయాల ద్వారా సూచింపబడతాయి. అయితే ఒక విభక్తికి ఒకే ప్రత్యయం కనుక వాడినట్టయితే వాక్య విశ్లేషణం చాలా సులువుగా ఉండేది. కానీ తెలుగులో ఒకే విభక్తికి అనేక ప్రత్యయాలు, ఒకే ప్రత్యయానికి అనేక విభక్తులు వాడే సదుపాయం భాషలో ఉండటం వల్ల వాక్య విశ్లేషణ కష్టతరమైన ప్రక్రియగా మారుతుంది.

3.1. ఒకే ప్రత్యయం - అనేక విభక్తులు

తెలుగు వాక్యంలోని నామవాచక పదాలు చాలావరకు విభక్తి

తెలుగుజాతి పత్రిక అమ్మనుడి * జనవరి-2021

16