अंेजी ÑहÛद # मशीनी अनुवाद का मानव ...4. म ãय...

8
अंĒेजी - ǑहÛदȣ मशीनी अनुवाद का मानव और èवचालत मूãयांकन Ǔनशीथ जोशी * , हेमंत दरबारȣ ** , इǓत माथुर * * आपाजी संèथान, वनèथलȣ वɮयापीठ, राजèथान ** Ĥगत संगणन वकास कɅ ġ, पुणे , महाराçĚ सारांश: मशीनी अनुवाद मɅ अनुसÛधान करȣब साठ साल से चल रहा है इस वषय क े वकास क े लए, दुǓनया भर मɅ वै£ाǓनक Ǔनतनयी तकनीक का वकास कर रहे है पǐरणामèवǾप हमɅ कई नए सåचालत मशीनी अनुवादक भी मले है एक मशीनी अनुवादक क े Ĥबंधक क े लए यह पता करना बहु त मह×वपूण[ है कȧ उसकȧ Ĥणालȣ मɅ संशोधनɉ क े बाद कतना सुधार हु आ इसी कारणवश मशीनी अनुवादक क े मूãयांकन कȧ आवशकता पड़ी इस लेख मɅ हम क ु छ मशीनी अनुवादकɉ का मूãयांकन Ĥèतुत करेगɅ यह मुãयांकन एक मानव ɮवारा तथा क ु छ èवचालत मूãयांकन मेǑĚÈस ɮवारा कया जायेगा , जो वाÈय, दèतावेज़ और Ĥणालȣ èतर पर होगा। अंत मɅ हम इन दोनɉ मूãयांकनो कȧ तुलना भी करेगɅ सूचक -शÞद: मानव मूãयांकन , èवचालत मूãयांकन , Þलू मैǑĚक, मेटȣयोर मैǑĚक 1. पǐरचय जब से मशीन अनुवादक के वकास एवं अनुसÛधान कȧ ĤĐया शुǾ हु ई है तभी से मशीनी अनुवाद का मूãयांकन चल रहा है। शुǾ मɅ मूãयांकन सफ[ आदमीयɉ ɮवार हȣ होता था। अब यह èवचालत भी होता है। जब भी मशीनी अनुवादक मɅ कोई नया वकास होता है तो एक मशीनी अनुवादक के Ĥयोजना Ĥबंधक के लए यह जानना बहु त ज़ǽरȣ होता है उसके अनुवादक मɅ पछले संèकरण से अभी तक कतना वकास हु आ। दुभा[Êयवश यह Ĥæन इतना सीधा नहȣं है Èयोक कसी मशीनी अनुवादक के दो संèकरणɉ मɅ से दोनɉ हȣ बहु त अÍछा या बहु त बुरा अनुवाद दै सकते हɇ या दोनɉ हȣ आंशक Ǿप से सहȣ अनुवाद दे सकते हɇ जो अलग अलग तरȣके से सहȣ हो। इसलए मूãयांकन बहु त जǽरȣ है जो èपçट Ǒदशा Ǔनदȶशɉ को ĐयािÛवत करे। मानवीय मूãयांकन कȧ ĤĐया पछले छह दशकɉ से चलȣ रहȣ है। इस ĤĐया मɅ एक या अधक मानवɉ ɮवारा मूãयांकन कया जाता है। मãलर और बीबी-सɅटर (1956) तथा पिÝफन (1965) पहले ऐसे व£ाǓनक थे िजनने मानव ɮवारा मशीनी अनुवादक के मूãयांकन को सुझाया। तभी से , इस Ĥकया को सुǑġड करने के लए कई सारे अÚयन कये गए है। इस लेख मɅ हम ऐसी हȣ कु छ पƨǓतयɉ (मानवीय तथा èवचालत) का अÚयन करɅगे। इस लेख के दूसरे खंड मɅ हम पछलȣ कु छ पिÚतयो का अÚयन करɅगे। तीसरे खंड मɅ हम हमारȣ मूãयांकन पƨǓत का वण[न करɅगे। चौथे खंड मɅ हम इस पƨǓत के ɮवारा कु छ ऑनलाइन मशीनी अनुवादकɉ के मूãयांकन के पǐरणामɉ कȧ समी¢ा करेगɅ तथा पांचवे खंड मɅ हम इस ĤĐया का Ǔनçकष[ Ĥèतुत करेगɅ।

Upload: others

Post on 17-Mar-2020

21 views

Category:

Documents


0 download

TRANSCRIPT

  • अं ेजी - ह द मशीनी अनुवाद का मानव और वचा लत मू यांकन

    नशीथ जोशी*, हेमंत दरबार **, इ त माथुर*

    * आपाजी सं थान, वन थल व यापीठ, राज थान

    ** गत संगणन वकास क , पुणे, महारा

    साराशं: मशीनी अनवुाद म अनसु धान कर ब साठ साल से चल रहा है । इस वषय के वकास के लए, दु नया भर म वै ा नक नतनयी तकनीक का वकास कर रहे है । प रणाम व प हम कई नए स चा लत मशीनी अनवुादक भी

    मले है । एक मशीनी अनवुादक के बधंक के लए यह पता करना बहु त मह वपणू है क उसक णाल म संशोधन के बाद कतना सुधार हुआ । इसी कारणवश मशीनी अनवुादक के मू यांकन क आवशकता पड़ी । इस

    लेख म हम कुछ मशीनी अनवुादक का मू यांकन तुत करेग । यह मु याकंन एक मानव वारा तथा कुछ वचा लत मू याकंन मे स वारा कया जायेगा, जो वा य, द तावेज़ और णाल तर पर होगा। अतं म हम

    इन दोन मू यांकनो क तलुना भी करेग ।

    सूचक-श द: मानव मू यांकन, वचा लत मू यांकन, ल ूमै क, मेट योर मै क

    1. प रचय

    जब से मशीन अनवुादक के वकास एव ंअनसु धान क या शु हु ई है तभी से मशीनी अनवुाद का मू यांकन

    चल रहा है। शु म मू यांकन सफ आदमीय वार ह होता था। अब यह वचा लत भी होता है। जब भी मशीनी

    अनवुादक म कोई नया वकास होता है तो एक मशीनी अनवुादक के योजना बधंक के लए यह जानना बहु त

    ज़ र होता है क उसके अनवुादक म पछले सं करण से अभी तक कतना वकास हुआ। दभुा यवश यह न

    इतना सीधा नह ं है यो क कसी मशीनी अनवुादक के दो सं करण म से दोन ह बहु त अ छा या बहु त बरुा

    अनवुाद दै सकते ह या दोन ह आं शक प से सह अनवुाद दे सकते ह जो अलग अलग तर के से सह हो।

    इस लए मू यांकन बहु त ज र है जो प ट दशा नदश को याि वत करे। मानवीय मू यांकन क या पछले

    छह दशक से चल आ रह है। इस या म एक या अ धक मानव वारा मू यांकन कया जाता है। म लर और

    बीबी-सटर (1956) तथा पि फन (1965) पहले ऐसे व ा नक थे िजनने मानव वारा मशीनी अनवुादक के

    मू यांकन को सझुाया। तभी से, इस कया को सु ड करने के लए कई सारे अ यन कये गए है। इस लेख म हम

    ऐसी ह कुछ प तय (मानवीय तथा वचा लत) का अ यन करगे। इस लेख के दसूरे खंड म हम पछल कुछ

    पि तयो का अ यन करगे। तीसरे खंड म हम हमार मू याकंन प त का वणन करगे। चौथे खंड म हम इस प त

    के वारा कुछ ऑनलाइन मशीनी अनवुादक के मू यांकन के प रणाम क समी ा करेग तथा पाचंवे खंड म हम

    इस या का न कष ततु करेग।

  • च 1: मानवीय अनवुाद क या

    2. स बं धत काय क समी ा

    एलपेक (1956) ने पहला मशीनी अनवुाद कया था। उ ह ने इस काय के लए कुछ इसंान क मदद ल थी तथा

    उस समय के मशीनी अनवुादक क गणुव ता का मू यांकन कया था। उ ह ने पाया क मशीनी अनवुाद क या

    बहु त ज टल है तथा इसके वारा दया गए अनवुाद अ यतं खराब है तथा उ ह ने अमर क सरकार के र ा मं ालय,

    जो इस प रयोजना के अनसु धान का न धकरण कर रहा था, को सलाह द क मशीनी अनवुादक म नधी देने क

    बजाय कुछ कम ज टल क यटेूशनल भाषा व ान के काय म पसेै का नवेश कया जाये। मशीनी अनवुादक के

    मु यांकन म एक बड़ी सफलता यप (1979) म हा सल क गयी थी िज ह ने सस ांस नामक एक मशीनी

    अनवुादक के अनवुादक क सु वकयता का अ यन कया। उ ह ने पाया क मशीनी अनवुाद अपने आप एक इसंान

    जैसा अनवुाद नह ं कर सकता पर य द एक इंसान को, िजसको अनवुाद का काय सोपा गया हो, यह अ कचरे से

    अनवुाद दए जाए तो वह कम समय म यादा अनवुाद कर साकता है। इस अ यन के खुलासे के बाद से एक

    मशीनी अनवुादक को एक संपादन उपकरण क तरह देखा जाने लगा। ए क और होर (2005) ने मशीनी अनवुाद

    के साथ उसके ोत वा य के अथ क तलुना का अ यन कया। उ ह ने पाया क यह ोत वा य और अनवुा दत

  • वा य, दोन एक ह अथ को दशाते है तो हम अनवुाद को सह मान सकते ह। गे स (1996) ने अथ स बधंी

    पया तता का अ यन कया। उ ह ने दभुा षय मानव अनवुादक क सहायता से इस मू याकंन को कया। इस

    मू यांकन म उ ह ने अनवुादक को ोत एव ंअनवुा दत वा यो को पढ़ने को कहा तथा उनको बहु बदं ु तर पर रेट

    करने को कहा। वचा लत मू याकंन वतः अनवुाद क गणुव ता को नधा रत करने का एक तर का है। यह मू याकंन मानवीय

    मू यांकन से भ न होता है। इस मू याकंन म हमे मानव वारा कये गए अनवुाद क ज रत होती है। हम इस

    अनवुाद क या का मशीनी अनवुाद के साथ मलान भी कर सकते ह। च 1 म मानवीय मू याकंन दशाया

    गया है तथा च 2 म मशीनी अनवुाद तथा उसका मानवीय मू यांकन से मलान दशाया गया है।

    च 2: मशीनी अनुवाद क या

    लू (प पनेनी 2001) पहल वचा लत मै क थी िजसने मशीनी अनवुाद के मु यांकन म ां त लाने क को शश

    क । इसम मानव वारा र चत संधभ अनवुाद को मशीनी अनवुाद से मलाया जाता है जो 1...4 श द का समूह

    होता है। इस मै क म े वट पेना ट नामक एक उपाय का उपयोग कया गया है िजसके वारा अगर मशीनी

  • अनवुाद मानवीय अनवुाद से छोटा हो तो उसे दि डत कया जाता है इस मै क क गणना गाडना न न ल खत

    सू वारा क जाती है।

    BLEU = min 1, × exp(∑ w log(p )) (1)

    न ट (डो गगंटन 2002) इस मै क का सशंो धत प है। इसका वकास रा य मानक एव ं ो यो गक सं थान

    ( न ट) वारा कया गया है, िजसके नाम पर इस मै क का नाम रखा गया। अपने एन- ाम के कोर क औसत

    क गणना ह न ट एव ं लू को भ न बनाती है। ल ू या मतीय मीन से अपना अं तम कोर नकलती है, न ट

    सामानातंर मीन से अपना अं तम कोर नकालती है।

    मेट योर मै क (डेनकोवसक एव ंलेवी 2011) लू क खा मय को दरू करने के लए बनाई गयी है। इस मै क म, मशीनी अनवुाद एव ंमानवीय सधंभ अनवुाद म कई तरह के मलान कये जात ेहै जो न न कार है :-

    1. शाि दक मलान - यहाँ ऐसे श द का मलान कया जाता है जो मशीनी अनवुाद तथा संधभ अनवुाद म समान

    हो। 2. मूलश द मलान - यहाँ ऐसे मलू श द का मलान कया जाता है जो मशीनी अनवुाद तथा सधंभ अनवुाद म

    समान हो। 3. पयायवाची मलान - यहाँ पयायवाची श द का मलान कया जाता है जो मशीनी अनवुाद तथा सधंभ अनवुाद

    म सामन हो। 4. परैा े ज़ मलान - यहाँ ऐसे साकें तक श द का मलान कया जाता है जो मशीनी अनवुाद तथा सधंभ अनवुाद

    म सामन हो। यहाँ मलान अलग-अलग तर पर होत ेहै। हर तर पर उन श द का मलान होता है िजनका मलान पछले तर

    पर नह ं हुआ हो। म बदं ु1-3 म केवल एक श द का ह मलान होता है जब क म बदं ु4 म एक या उससे

    अ धक श द का मलान होता है।

    3. मू यांकन पर या

    हमन एक हज़ार वा य का कोश तैयार कया है। यह वा य पयटन डोमेन से लए गए है िजनह दस द तावेज म

    यवि थत कया गया है। हर द तावेज म सौ-सौ वा य है। इस कोश का हमने तीन मशीनी अनवुादक पर

    प र ण कया है। ये मशीनी अनवुादक है:

    1. गगूल अनवुादक – यह अनवुादक सबसे लोक य अनवुाद है जो मु त म अनवुाद दान करता है । इस

    अनवुादक को गगूल काप रेशन ने बनाया है। 2. बगं अनवुादक – यह अनवुादक तेजी से गगूल क जगह ले रहा है। इस अनवुादक को म ोसो ट काप रेशन ने

    बनाया है।

  • 3. ईबीएमट (जोशी व अ य 2010) – यह अनवुादक हमन बनाया है। इस अनवुादक को हमने अपनी मशीनी

    अनवुादक क तकनीक समझ को वक सत करने के लए बनाया है। मू यांकन के लए हमने अं जेी- हदं भाषा यु म का योग कया है। हमन मानवीय तथा वचा लत मू यांकन का

    योग कया। वचा लत मू याकंन के लए हमने लू व मे टयोर मै क का योग कया तथा हमने इस मू यांकन

    को वा य तर पर केि त कया। हमने इन दोन मै मै क का प रणाम एक तथा चार सधंभ वा य के साथ

    पजंीकृत कया।

    य क ल ूपहल वचा लत मै क थी तथा कसी भी मू यांकन क इस मै क के बना क पना नह ं क जा

    सकती। हम हदं भाषा पर ल ूके असर को देखना चाहते थे इस लए भी हमने लू को योग म लया। मे टयोर

    का योग कया गया यो क हम सतह भाषाई प का हदं पर भाव देखना चाहते थे। यहाँ मलू-श द मलान के

    लए हमने एक लाइटवेइट टेमर का योग कया जो रंगनाथन व राव (2003) वारा र चत ए गो र म पर

    आधा रत है तथा पयायवाची मलान के लए हमने वडनेट (नारायण व अ य 2008) का योग कया। एक बहु त

    बु नयाद मू यांकन (जोशी व अ य 2012) म यह पाया गया था क लू हदं पर बहु त अ छा प रणाम नह ं देती

    है। इस लए वतमान मू यांकन म हमने लू तथा मे टयोर दोन के ह कई सं करण के साथ योग कया।

    मानवीय मू यांकन के लए हमने एक मै क का अ व कार कया जो दस ब दओु पर मू याकंन करती है। यह दस

    बदं ुहै :-

    1. सं ाओं के लगं व वचन का अनवुाद म योग। 2. मूल वा य म यु त काल का अनवुाद म योग। 3. मूल वा य म यु त वा य का अनवुाद म योग। 4. यि तवाचक सं ा क पहचान। 5. वशेषण व या वशेषण का मूल वा य म सं ा व या के अनकूुल योग। 6. अनवुाद म सह श द /पयाय का चयन। 7. अनवुाद म सं ा, या एव ंसहायक या का म। 8. अनवुाद म वराम च ह का योग। 9. अनवुाद म मूल वा य म यु त मह वपणू भाग पर बल । 10. अनू दत वा य म मलू वा य म न हत अथ का सह समागम।

    मनु य को एक ोत वा य तथा उसका मशीनी अनवुाद दया जाता है और उनसे इस दोन को पड़ने के बाद इन

    दस बदंओुं क 0-4 म रे टगं करने को कहा जाता है। अतं म इन सभी र टगं का औसत नकाल कर अं तम कोर

    ा त कया जाता है।

  • 4. मु यांकन का प रणाम

    हमने हर मशीनी अनवुादक को लू व मे टयोर के चार-चार सं करण पर मू यां कत कया। मानवीय मू याकंन म

    गगूल और बगं को सव े ठ पाया गया। हमारा यास इस मू यांकन को वचा लत मू यांकन के ज़ रये दशाना है।

    इनके लए हमने प रणाम का मानवीय मू याकंन के साथ वचा लत मू यांकन का मलान भी कया। इस योग

    के प रणाम टे बल 1 म व दत है।

    गगूल बगं ईबीएमट

    एक सधंब वा य

    चार सधंब वा य

    एक सधंब वा य

    चार सधंब वा य

    एक सधंब वा य

    चार सधंब वा य

    लू 1- ाम 0.050 0.099 0.073 0.108 0.094 0.110

    लू 2- ाम 0.062 0.099 0.073 0.111 0.115 0.141

    लू 3- ाम 0.074 0.113 0.068 0.089 0.105 0.125

    लू 4- ाम 0.084 0.118 0.077 0.106 0.106 0.117

    मे टयोर शाि दक व मूल-श द मलान

    0.108 0.087 0.065 0.098 0.100 0.107

    मे टयोर शाि दक व पयायवाची मलान

    0.007 0.064 0.065 0.120 0.109 0.114

    मे टयोर शाि दक, मूल-श द व

    पयायवाची मलान

    0.014 0.053 0.063 0.118 0.111 0.096

    मे टयोर शाि दक, मूल-श द, पयायवाची व परैा े ज़ मलान

    0.019 0.011 0.007 0.088 0.040 0.048

    टे बल 1: मशीनी अनवुाद का वचा लत मू यांकन के साथ मलान (correlation)

    इस अ यन म, ईबीएमट ने लू के सभी सं करण के साथ, एक तथा चार संधभ वा य म अपनी द ता सा बत

    क । इसम केवल एक अपवाद रहा िजसम ल ू४- ाम, चार वा य के साथ, गगूल ने सबसे अ छा दशन कया।

    मे टयोर के प रणाम लू से थोड़े भ न थे। इसम मे टयोर शाि दक व मलू-श द मलान म एक वा य के साथ

    गगूल ने अ छा दशन कया और चार वा य के साथ ईबीएमट ने अ छा दशन कया। मे टयोर शाि दक व

    पयायवाची मलान, एक वा य के साथ ईबीएमट ने अ छा दशन कया तथा चार वा य के साथ बगं ने अ छा

  • दशन कया। ये चलन मे टयोर शाि दक, मलू-श द व पयायवाची मलान और मे टयोर शाि दक, मलू-श द,

    पयायवाची व परैा े ज़ मलान के साथ, दोन , एक सधंभ वा य और चार संधभ वा य म भी देखा गया।

    5. न कष

    इस लेख म हमने तीन अं ेज़ी- हदं मशीनी अनवुादक के मू यांकन का व लेषण कया है। इस व लेषण म हमने

    मानवीय मू यांकन का वचा लत मु यांकन के साथ मलान भी कया है। हमने ये पाया क लू कई बार सह

    मू यांकन नह ं कर पाती। ऐसा इस लए भी हो सकता है यो क लू का सधैां तक आधार है क कसी भी अ छे

    ोत वा य के अनवुाद भी अ छे होगे। यह शायद ाकृ तक भाषाओ ंके अथपणूता और न हत अ प टता के कारण

    नह ं हो सकता है।

    इसके ब न पत, मे टयोर ने अ छे प रणाम दए, ले कन अ सर, जब सफ एक ह संधभ वा य के साथ वचा लत

    मू यांकन कया गया तब ये मै क ठ क प रणाम नह ं दे पाई। इसका एक कारण, इस मै क का सतह भाषा

    वै ा नक तर होना है। अगर हम और अ धक जयादा भाषा वै ा नक तर पर थोड़ा और गहन अ यन कर तो

    शायद हम मानवीय मू याकँन जसेै ह प रणाम मले। इस समय हम सफ यह न कष नकाल सकते है क

    मे टयोर शाि दक व पयायवाची मलान या मे टयोर शाि दक, मूल-श द व पयायवाची मलान या मे टयोर शाि दक,

    मूल-श द, पयायवाची व परैा े ज़ मलान का मु यांकन अगर चार वा य के साथ कया जाए तो मानवीय मू यांकन

    के जसेै ह प रणाम मल सकते है।

    संधभ ALPAC Report (1966), Languages and Machines: Computers in Translation and Linguistics (Technical Report). Automatic Language Processing Advisory Committee (ALPAC), Division of Behavioral Sciences, National Academy of Sciences, National Research Council. Church, K. W., & Hovy, E. H. (1993). Good Applications for Crummy Machine Translation. Machine Translation, 8(4), pp239–258. Denkowski M. and Lavie A. (2011), Meteor 1.3: Automatic Metric for Reliable Optimization and Evaluation of Machine Translation Systems, Proceedings of the EMNLP 2011 Workshop on Statistical Machine Translation.

    Gates, D., A. Lavie, L. Levin, A. Waibel, M. Gavaldà, L. Mayfield, M. Woszczyna and P. Zhan. (1996). End-to-End Evaluation in JANUS: a Speech-to-Speech Translation System. Proceedings of the European Conference on Artificial Intelligence (ECAI-1996) (Workshop on “Dialogue Processing in Spoken Language”), Budapest, Hungary, August. Joshi N., Darbari H. and Mathur I. (2012), Human and Automatic Evaluation of English to Hindi Machine Translation Systems, Advances in Computer Science, Engineering & Applications, Wyld D.C. et al. (Eds), Advances in Intelligent and Soft Computing, Vol 166, pp 423-432.

  • Joshi N., Mathur I., and Mathur S. (2011), Translation Memory for Indian Languages: An Aid for Human Translators, Proceedings of 2nd International Conference and Workshop in Emerging Trends in Technology. Miller G.A. & Beebe-Center J.G. (1956), Some Psychological Methods for Evaluating the Quality of Translation, Mechanical Translations, vol 3. Narayan D., Chakrabarti D., Pande P. and Bhattacharyya P. (2002), An Experience in Building the Indo WordNet - a WordNet for Hindi, First International Conference on Global WordNet, Mysore, India, January 2002.

    Papineni K., Roukos S., Ward T., & Zhu W.-J. (2001), Bleu: a method for automatic evaluation of machine translation, RC22176 Technical Report, IBM T.J. Watson Research Center.

    Pfafflin S.M. (1956), Evaluation of Machine Translations by Reading Comprehension Tests and Subjective Judgments, Mechanical Translation and Computational Linguistics, vol. 8, pp 2–8.

    Ramnathan A., & Rao D. (2003), A Lightweight Stemmer for Hindi, In Proceedings of Workshop on Computational Linguistics for South Asian Languages, 10th Conference of the European Chapter of Association of Computational Linguistics, pp 42-48. Slype G.V.(1979), Systran: evaluation of the 1978 version of systran English-French automatic system of the Commission of the European Communities, The Incorporated Linguist, Vol 18, pp 86-89.