شناسهٔ خبر: 63771 - سرویس دیگر رسانه ها

نقش ویرایش در معیارسازی و پردازش ماشینی خط و زبان فارسی

در اینجا ابتدا به‌اختصار تعریفی برای هریک از اصطلاحات «ویرایش»، «معیار»، «معیارسازی» و «پردازش ماشینی» عرضه می‌داریم، سپس از تفاوت متن‌های علمی و خبری با متن‌های ادبی سخن می‌گوییم، بعد به چگونگی تحول ویرایش در متن‌های خبری فارسی اشاره می‌کنیم و نهایتاً به بحث اصلی خود می‌پردازیم.

نقش ویرایش در معیارسازی و پردازش ماشینی خط و زبان فارسی / امید طبیب‌زاده

فرهنگ امروز/ امید طبیب‌زاده

به یاد استاد احمد حب علی موجانی

مقدمه

در اینجا ابتدا به‌اختصار تعریفی برای هریک از اصطلاحات «ویرایش»، «معیار»، «معیارسازی» و «پردازش ماشینی» عرضه می‌داریم، سپس از تفاوت متن‌های علمی و خبری با متن‌های ادبی سخن می‌گوییم، بعد به چگونگی تحول ویرایش در متن‌های خبری فارسی اشاره می‌کنیم و نهایتاً به بحث اصلی خود می‌پردازیم و با انجام یک آزمایش ساده، نشان می‌دهیم که ویرایشِ متن‌های خبری فارسی چه نقش مهمی در فعالیت‌های پردازشی، مثلاً ترجمۀ ماشینی متن‌ها به زبان انگلیسی دارد. بحث دربارۀ اهمیت مطالعات مربوط به پردازش زبان، و لزوم توجه به آنها برای تقویت هرچه بیشتر زبان فارسی از مباحث پایانی این مقاله است.

ویرایش

حسین معصومی‌همدانی دربارۀ اهمیت زبان علم در فارسی به‌درستی چنین گفته است (۱۳۸۲): «یکی از بخت‌های ما ایرانیان این است که زبان ملی و زبان علمی‌مان یکی است. ملت‌هایی در جهان و در کشورهای اطراف ما هستند که یا به‌حکم اوضاع‌و احوال تاریخی یا دانسته و به این گمان که اختیارکردنِ یک زبان اروپایی به‌عنوان زبان علمی می‌تواند ایشان را در کار انتقال علوم و غلبه بر عقب‌ماندگی علمی موفق کند، زبان ملی خود را برای کاربردهای روزمره نگاه داشته‌اند و برای کاربردهای علمی، لااقل در سطوح دانشگاهی، یک زبان اروپایی را برگزیده‌اند. زیان‌های این گزینش به حدی است که بر فواید احتمالی آن می‌چربد...».

معصومی‌همدانی در ادامۀ مقالۀ خود از فواید و اهمیت چنین اتفاق خجسته‌ای در زبان فارسی سخن گفته و ضمن برشمردن شیوه‌هایی برای تثبیت و تقویت این جنبه از زبان فارسی به نیکی از کسانی یاد کرده است که از ابتدای ورود علم جدید به ایران زبان فارسی را برای بیان مفاهیم علمی برگزیدند. با تأسیس فرهنگستانِ اول در سال ۱۳۱۴ نخستین گام‌ها برای برنامه‌ریزی زبانی در حوزۀ واژه‌گزینی در مباحث علمی برداشته شد و پس از آن با شکل‌گیری نهادهایی چون مؤسسۀ انتشارات فرانکلین در ۱۳۳۳ و بعدها مرکز نشر دانشگاهی در ۱۳۵۹، امرِ ویرایش نیز برای تثبیت و تقویت هرچه بیشتر این جنبه از زبان فارسی وارد میدان شد.

ویرایش عبارت است از انجام فعالیت‌های گوناگونی چون یک‌دست‌کردن اصطلاحاتِ متن، یک‌دست‌کردن نشانه‌های سجاوندی و شیوۀ ارجاعات در متن، تنظیم پاراگراف‌بندی‌ها و اطمینان‌یافتن از رعایت دستور زبان معیار و دستور خط مصوب سازمان انتشاراتی در متن، و غیره و غیره، برای کمک به انتقال هرچه بهتر و دقیق‌تر اطلاعات از نویسنده یا مترجم به خواننده. اما نکته‌ای که حتی بسیاری از ویراستاران نیز بدان توجهی ندارند این است که ویرایش بیش از هر چیز، بخشی از یک برنامه‌ریزی زبانی است که هدفش هرچه معیارترکردن زبان معیار است. اهمیت دو مفهوم «زبان معیار» و «برنامه‌ریزی زبانی» در امر ویرایشِ متن‌های علمی و خبری چنان زیاد است که هر تعریفی از ویرایش بدون توجه به آن دو مفهوم، تعریفی ناقص و ناتمام خواهد بود.

زبان معیار و معیارسازی زبان

زبان‌ها مخصوصاً در جوامع بزرگ و پیشرفته، برحسب کاربردشان دارای تنوعات بسیاری هستند. اهل زبان بسته به موقعیت جغرافیایی خود یا بسته به ویژگی‌های دیگری همچون سن و جنس و موقعیت اجتماعی‌شان دارای گونه‌های زبانی متفاوتی هستند؛ مثلاً در مورد زبان فارسی، گونۀ فارسی مشهدی با گونۀ فارسی اصفهانی تفاوت دارد، یا گونۀ زبانی زنان با گونۀ زبانی مردان در بسیاری موارد متفاوت است. همچنین اهل زبان بسته به رسمی‌بودن یا دوستانه‌بودن بافتی نیز که در آن سخن می‌گویند از سبک‌های متفاوتی استفاده می‌کنند؛ مثلاً سبکی که آنها در خانه و میهمانی‌های دوستانه به‌کار می‌برند متفاوت از سبکی است که در محیط‌های رسمی همچون دادگاه و دانشگاه از آن استفاده می‌کنند. گونه‌هایی از یک زبان که متناسب با بافت اجتماعی گفتار مورد استفاده قرار می‌گیرند، سبک‌های مختلف آن زبان به شمار می‌روند (مدرسی ۱۳۶۸: ۱۸۵-۱۸۶؛ همچنین رک. سارلی۱۳۸۷: ۱۶-۱۷). اما در میان این گونه‌ها و سبک‌های متفاوت معمولاً فقط یکی گونۀ معیار (standard) یا گونۀ وجهه‌دارِ (prestigious) زبان شمرده می‌شود. گونۀ معیار به گونۀ وجهه‌داری اطلاق می‌شود که مورد قبول اکثر افراد جامعه است و از آن در نوشتار، اخبارِ رادیو و تلویزیون، احکام حکومتی، و کلیۀ محیط‌های رسمی استفاده می‌کنند. گونۀ معیار همچنین همان گونه‌ای است که غالباً در جوامع چندزبانه از آن به‌عنوان زبان مشترک و میانجی استفاده می‌شود و گاه بدان زبان رسمی یا زبان ملی اطلاق می‌شود.

«معیارسازی» (standardization) هم به انتخاب یک گونۀ زبانی به‌عنوان گونۀ معیار اطلاق می‌شود، و هم به آماده‌سازی و تقویت گونۀ معیار برای انجام هرچه بهتر وظایفی که بر عهده دارد. تدوین فرهنگ‌های لغت و کتاب‌های دستور، تهیۀ واژه‌نامه‌ها و واژگان‌ها، و نگارش آثاری چون «غلط ننویسیم» (نجفی ۱۳۹۷؛ نیز رک. طبیب‌زاده ۱۳۹۷)، «فرهنگ املایی زبان فارسی» (صادقی و زندی‌مقدم ۱۳۹۸)، «راهنمای ویرایش» (سمیعی ۹۵؛ ۹۷)، «فرهنگ توصیفی دستور زبان فارسی» (طباطبایی ۱۳۹۵) و غیره، همه و همه فعالیت‌هایی در جهت هرچه معیارترساختن زبان فارسی محسوب می‌شوند. گاهی معیارسازی به شکل طبیعی و به‌اصطلاح خودانگیخته است، و گاهی به‌صورت آگاهانه. مثلاً تا پیش از نهضت مشروطه در ایران زبان فارسی به‌صورت طبیعی و خودانگیخته و با سرعتی بسیار اندک مسیر معیارشدن را طی می‌کرد، اما طی این مسیر پس از نهضت‌ مشروطه و به‌ویژه در دوران پهلوی اول و پس از تأسیس فرهنگستان نخست، به‌صورت آگاهانه درآمد و مدام بر سرعت آن افزوده شد. البته جریان معیارسازی در مورد زبان‌های زنده و پرکاربرد هیچ‌گاه متوقف نمی‌شود، و چه در حالت خودانگیخته و چه در حالت آگاهانه، همواره وجود دارد و مراحل گوناگون را پشت‌سر می‌گذارد. تعیین ویژگی‌های زبان و خط معیار از طریق تدوین دستورهای زبان و خط امکان‌پذیر است و چون چنین دستورهایی به‌ناگزیر تجویزی هستند، گونۀ معیار نیز خواه‌ناخواه و پس از اندکی، مبدل به گونه‌ای برساخته می‌شود که جریان تحول آن اندکی کندتر از جریان تحول زبان گفتار است. ازاین‌رو می‌توان و باید هر چند سال یک‌بار به تجدیدنظر در ویژگی‌های متفاوت گونۀ معیار پرداخت و از این طریق مانع از ثابت‌ماندن گونۀ معیار و دورشدن آن از جریان تحول کلّی زبان طبیعی گفتار شد.

پردازش  زبان‌های  طبیعی و متن‌های علمی  و  خبری

حوزۀ پردازش زبان‌های طبیعی (Natural Language Processing= NLP) که آغاز شکل‌گیری آن به سال‌های دهۀ پنجاه قرن بیستم بازمی‌گردد، محل تلاقی سه رشتۀ گوناگون زبان‌شناسی و علوم رایانه‌ای و هوش مصنوعی است. این حوزه به تعامل میان رایانه و زبان اختصاص دارد و به موضوعاتی می‌پردازد همچون تحلیل و پردازش خودکارِ داده‌های انبوه زبانی با استفاده از کامپیوتر، درک گفتار، تولید گفتار، تبدیل متن به نوشتار، تبدیل نوشتار به متن، بازیابی اطلاعات از درون متن، تهیۀ پیکره‌های عظیم زبانی و ترجمۀ ماشینی و غیره. به اعتقاد نگارندۀ این سطور اولاً با توجه به پیشرفت‌های روزافزون در حوزۀ پردازش زبان‌های طبیعی، دیری نخواهد گذشت که زبان‌های زندۀ جهان برحسب میزان پیشرفت‌هایشان در استفاده از فناوری‌های جدید در حوزۀ پردازش زبان‌های طبیعی، به دو دستۀ زبان‌های اصلی و زبان‌های پیرامونی تقسیم می‌شوند؛ ثانیاً معیارسازی آگاهانۀ زبان از طریق برنامه‌ریزی‌های زبانی و مخصوصاً از طریق ویرایش، سبب می‌شود تا متن‌های علمی و خبری خودبه‌خود دارای ویژگی‌هایی شوند که کار متخصصانِ حوزه‌های گوناگون در پردازش زبان را در انجام کارهای خود بسیار ساده‌ کند. بدیهی است که اگر قرار باشد زبان فارسی در آینده در زمرۀ زبان‌های پیرامونی نباشد، باید از هم‌اکنون به تقویت هرچه بیشتر آن در این مطالعات یاری رساند. با آزمایشی ساده می‌توان نشان داد که معیارسازی زبان نوشتار از طریق ویرایش، می‌تواند دارای چه سهم مهمی در آماده‌سازی زبان از حیث مباحث مربوط به پردازش زبان باشد.

متن‌های علمی و خبری از حیث نقش (function) و گونه و نیز پردازش دارای تفاوت‌های بسیاری با متن‌های ادبی هستند. از حیث نقش، زبانِ متن‌های علمی و خبری همواره دارای نقش ارجاعی (referential) هستند اما در متن‌های ادبی نقش شاعرانه (poetic) اهمیت دارد؛ یعنی در متن‌های خبری و علمی همواره به جهان بیرون از متن ارجاع داده می‌شود و از این طریق بر اطلاعات خواننده افزوده می‌شود، اما در متن‌های ادبی و مخصوصاً در شعر آنچه اهمیت دارد خود زبان است و آرایه‌های گوناگون ادبی موجود در آن. از حیث گونه، متن‌های علمی و خبری همواره به گونۀ معیار و رسمی نگاشته می‌شوند و استفاده از هر گونۀ دیگری در آنها معمول نیست، اما در متن‌های ادبی از انواع گونه‌ها و سبک‌ها ممکن است استفاده شود. و بالاخره از حیث مسائل مربوط به پردازش زبان‌های طبیعی نیز متن‌های علمی و خبری بیشترین میزان آمادگی را برای متخصصان این قبیل مطالعات دارند، اما به متن‌های ادبی به علت پیچیدگی‌های سبکی و معنایی متعددشان، کمتر از این حیث پرداخته می‌شود. بنابراین کار ویراستارانِ متون علمی و خبری بیش از هر چیز به مسئلۀ گونۀ معیار مربوط می‌شود؛ آنان با افزودن بر صراحت و سادگی این متن‌ها باعث افزایش نقش ارجاعی آنها می‌شوند، و با کاستن از تنوعات زبانی در آنها امکان پردازش هرچه سریع‌تر و دقیق‌تر آنها را افزایش می‌دهند.

بررسی نقش ویرایش در  پردازش ماشینی متن‌های ویراسته  یا معیار

اگر بخواهیم زبان فارسی در آینده در زمرۀ زبان‌های پیرامونی قرار نگیرد، باید از هم‌اکنون ازطریق معیارسازی و نیز از طریق انجام پژوهش و مطالعات هرچه بیشتر در حوزۀ پردازش ماشینی، به تقویت آن یاری برسانیم. در اینجا با آزمایش ساده‌ای نشان می‌دهیم که چگونه معیارسازی آگاهانۀ زبان و مخصوصاً فعالیت‌های ویرایشی، خودبه‌خود باعث تسهیل کار متخصصانِ پردازش زبان فارسی می‌شود.

چهار بند زیر را به‌طور کاملاً تصادفی از چهار روزنامه فارسی که به فواصل ۵۰ تا ۶۰ سال از سال ۱۲۲۹ شمسی تا ۱۳۹۹ منتشر شده‌اند برگزیدیم. این روزنامه‌ها به فواصل ۵۰ تا ۶۰ سال از هم منتشر شده‌اند و هر یک از بندهای زیر نیز به‌طور میانگین شامل ۱۰۲ واژه است. دو متن اول مبین معیارسازی خودانگیخته و دو بند دوم مبین معیارسازی کم‌وبیش آگاهانه هستند:

۱. روزنامچه اخبار دارالخلافۀ طهران [وقایع اتفاقیه]

شمارۀ ۱، جمعه پنجم ربیع‌الثانی ۱۲۶۷ه‌ق/ ۱۸ بهمن ۱۲۲۹: کشتی بزرک دولت فرانسه که در شهر برست بود یکصد و هست عراده توپ در میانش بود یکنفر از توپچیان فشنک آتش‌بازی درست میکرد ناکاه باروطی که در آنجا بود آتش کرفت و خود آن توپچی و هشت نفر دیکر که نزدیک او بودند آتش کرفته هلاک شدند و ده دوازده نفر هم از تخته پاره زخم دار شدند

درین روزها در دریاهای اطراف مملکت انکلیس و فرانسه طوفان زیاد شده و بسیار ضرر بکشتیها خورده است ازجمله یک کشتی در سمت مغرب ولایت انکلیس بسنک خورده و غرق شد و مال‌التجاره که در آن بود سی پنجهزار پوند پول انکلیس بود که هفتاد هفت هزار تومان پول ایران باشد و همه تلف شد.۲

۲. حبل‌المتین (تهران)

شمارۀ ۱، صفحۀ ۲-۳، ۱۵ ربیع‌الاول ۱۳۲۵ه‌ق/ ۹ اردیبهشت ۱۲۸۵ه‌ش: تا کنون هر گونه حوادث و وقایع که نتیجه آنها افتتاح مجلس شورای ملّی بود واقع میشد (انقلاب) میگفتیم اما پاره واقعات که این روزها بظهور رسیده و در بعضی اماکن سرزده و میزند باید آنهارا اختلال بگوئیم انقلاب – مبارزت و ستیزه ‌است که فیما بین دولت و ملت واقع میشود و اختلال عبارت‌است از اغتشاش و هرج‌ومرجی که باغوا واغفال دولت و دولتیان ظاهر میشود و فائده اختلال برای دولت آنستکه انقلاب و مشاجره با دولت توقیف گردیده خلق بجان یکدیگر افتاده دولتیانرا آسوده میگذارند و حکومت از ضعف و سستی خلاص شده محکم و پایدار میگردد

۳. روزنامۀ اطلاعات

شمارۀ ۱۰۶۴۹، سال ۳۶، شانزده آبان ۱۳۴۰: امروز آقای دکتر امینی نخست‌وزیر بخبرنگار ما اظهار داشت که دولت امریکا مبلغی بایران بعنوان کمک بلاعوض میپردازد و یک وام نیز برای انجام کارهای کنونی سازمان برنامه در اختیار این سازمان میگذارد. آقای نخست‌وزیر اظهار داشت که دیروز ساعت ۴ بعد از ظهر آقای هولمز سفیر کبیر آمریکا، باتفاق برن رئیس اصل چهار در ایران، در کاخ نخست‌وزیری حضور یافت ‌و تصمیم دولت آمریکا را در این مورد اطلاع داد. خبرنگار مادر باره جریان کمک بلاعوض آمریکا سؤال کرد و آقای نخست‌وزیر پاسخ داد که این کمک جنبه استثنائی دارد.

۴. روزنامه شرق

شمارۀ ۳۸۵۹، سال ۱۸، دوشنبه ۱۹ آبان ۱۳۹۹: شکست دونالد ترامپ در انتخابات آمریکا، واکنش مقامات و مسئولان را در پی داشت. صفحه توییتر انگلیسی دفتر مقام معظم رهبری در واکنش به شکست ترامپ در انتخابات نوشت: «اوضاع در ایالات‌متحده و آنچه آنها خود در مورد انتخابات می‌گویند یک نمایش است! این نمونه‌ای از چهره زشت لیبرال‌دموکراسی در ایالات‌متحده است. صرف‌نظر از نتیجه، یک چیز کاملا واضح است، سقوط قطعی سیاسی، مدنی و اخلاقی رژیم ایالات‌متحده». رئیس‌جمهور نیز در جلسه روز گذشته ستاد هماهنگی اقتصادی دولت، به نتیجه انتخابات ریاست‌جمهوری آمریکا اشاره کرد و گفت: «دولت آینده آمریکا از فرصت پیش‌آمده برای جبران اشتباهات گذشته استفاده کند.

می‌بینیم که هرچه متن‌ها جدیدتر می‌شوند، نشانه‌های معیارشدگی آنها نیز بیشتر می‌شوند؛ مثلاً در متن شمارۀ ۱ از هیچ علامت سجاوندی استفاده نشده است، در متن ۲ از دو علامت (یک پرانتز و یک خط تیره که کاربرد دومی معلوم نیست)، در متن ۳ از پنج علامت (سه نقطه و دو ویرگول)، و در متن شمارۀ ۴ از ۱۶ علامت (پنج نقطه، پنج ویرگول، دو جفت گیومه نقل قول، دو دونقطه، و یک علامت تعجب) استفاده شده است. با جدیدترشدن متن‌ها به تعداد علائم سجاوندی آنها اضافه می‌شود و هم استفاده از آنها نقش‌مندتر و صحیح‌تر می‌شود. بعداً خواهیم دید که استفادۀ نظام‌مند و دقیق از علائم سجاوندی فقط پردازش متن را برای انسان ساده‌تر نمی‌کند بلکه پردازش آن برای ماشین را نیز، مثلاً در ترجمۀ ماشینی تسهیل می‌کند.

در مورد مسئلۀ جدا یا سرهم‌نوشتن حرف‌های اضافه و پیش‌وندهای فعلی و واژه‌های مرکب با دو گرایش متفاوت مواجه هستیم، در معیارسازی خودانگیخته (متن‌های ۱ و۲) گرایش به استفادۀ هرچه بیشتر از سرهم‌نویسی است، و در معیارسازی آگاهانه (متن‌های ۳ و ۴) گرایش به استفادۀ هرچه بیشتر از جدانویسی. متن شمارۀ ۱ شامل هفت مورد سرهم‌نویسی («یکصد»، «یکنفر» «میکرد» «درین»، «بکشتیها»، «بسنک»، «پنجهزار»)، متن شمارۀ ۲ شامل ۱۲ مورد («میشد»، «میگفتیم» «بظهور» «میزند» «میشود» «باغوا [= به اغوا]»، «میشود»، «آنستکه»، «بجان»، «دولتیانرا»، «میگذارند» «میگردد»)، متن شمارۀ ۳ شامل شش مورد («بخبرنگار»، «بایران [= به ایران]»، «بعنوان» «میپردازد»، «میگذارد»، «باتفاق») است، اما در متن شمارۀ ۴ حتی یک مورد سرهم‌نویسی نیز وجود ندارد. بی‌گمان این امر حاکی از اهمیت یافتن رعایت دستور خط مصوب فرهنگستان زبان و ادب فارسی در سال‌های اخیر بوده است که تأکید بر جدانویسی هرچه بیشتر داشته است.

اصرار نویسندگان دستور خط فرهنگستان بر امر جدانویسی، قطعاً به این دلیل بوده است که می‌دانستند خوانندگان فارسی‌زبان صورت‌هایی چون «دولتیان را» «به اغوا» و «به ایران» را بسیار سریع‌تر از صورت‌هایی چون «دولتیانرا» و «باغوا» و «بایران» درک می‌کنند، اما چنانکه خواهیم دید، تأکید آنان بر جدانویسی خودبه‌خود باعث تسهیل کار پردازش توسط ماشین نیز شده است. ویرایش و خاصه ویرایش متن‌های علمی و خبری ازجمله اقدامات آگاهانه در معیار ساختن زبان محسوب می‌شود، و در این میان هرچه دستورالعمل‌های ویرایشی منطقی‌تر و عقلانی‌تر باشد، و هرچه ویراستاران در رعایت این دستورالعمل‌ها منسجم‌تر و یک‌دست‌تر عمل کنند، تأثیر عمل‌کردِ آنان بر جریان معیارسازی زبان بیشتر خواهد بود.

باری ما چهار متنی را که در بخش قبل به‌تصادف انتخاب و از حیث ویژگی‌های ویرایشی بررسی کرده بودیم، به نرم‌افزار ترجمۀ ماشینی موجود در شبکۀ اجتماعی اینستاگرام سپردیم، و این نرم‌افزار هر متن را در کم‌تر از یک ثانیه به زبان انگلیسی ترجمه کرد و متن‌های ترجمه‌شدۀ زیر را در اختیار ما گذاشت:

۱. روزنامچه اخبار دارالخلافۀ طهران [وقایع اتفاقیه]

شمارۀ ۱، جمعه پنجم ربیع‌الثانی ۱۲۶۷ه‌ق/ ۱۸ بهمن ۱۲۲۹:

۲. حبل‌المتین (تهران)

شمارۀ ۱، صفحۀ ۲-۳، ۱۵ ربیع‌الاول ۱۳۲۵ه‌ق/ ۹ اردیبهشت ۱۲۸۵ه‌ش:

۳. روزنامۀ اطلاعات

شمارۀ ۱۰۶۴۹، سال ۳۶، شانزده آبان ۱۳۴۰:

۴. روزنامه شرق

شمارۀ ۳۸۵۹، سال ۱۸، دوشنبه ۱۹ آبان ۱۳۹۹:

سپس ما این متن‌ها را همراه با نامۀ زیر برای ۱۰ نفر از متخصصان آموزش زبان انگلیسی و زبان‌شناسی ارسال کردیم۳:

 «... به ضمیمه چهار متن بسیار کوتاه انگلیسی را تقدیم می‌دارم. ممنون می‌شوم این متن‌ها را بخوانید و نمره‌ای بین صفر تا ده به آنها بدهید. این متن‌ها همه توسط ماشین از فارسی به انگلیسی ترجمه شده است. لطفاً معیار شما در تصحیح این متن‌ها صرفاً صحت زبان از حیث قواعد دستوری و نگارشی و موفقیت متن در رساندن معنا باشد. بنده فقط به نمره کلی شما احتیاج دارم و خواهش می‌کنم زحمت تصحیح متن‌ها را به خودتان ندهید».

پاسخی که دریافت کردیم به‌وضوح نشان می‌دهد که دو متن جدیدتر که در حوزۀ معیارسازی آگاهانه می‌گنجند، بیشترین امتیاز را از حیث کیفیت ترجمه به انگلیسی دریافت کرده‌اند. جدول زیر مبین نمره یا امتیازی است که هر یک از ترجمه‌های فوق از ۱۰۰ (یا از ۲۰) گرفته است:

برای امتیاز بالای متن شمارۀ ۴ و سپس ۳ به سه دلیل می‌توان اشاره کرد: اول اینکه در این دو متن از علائم نگارشی همچون نقطه و ویرگول و غیره به‌درستی اضافه شده است، و این علائم راهنمای خوبی برای ماشین در تعیین حدودوثغور عبارت‌ها محسوب می‌شوند؛ دوم اینکه در این دو متن و مخصوصاً در متن شمارۀ ۴ از جدانویسی استفاده شده است، و به همین دلیل ماشین در حین پردازش با موارد مبهمی همچون «دولتیانرا» و «باغوا» و «بایران» برخورد نکرده و لذا به هنگام ترجمۀ صورتِ واژه‌ها کمتر دچار اشکال و اشتباه شده است؛ و بالاخره سوم اینکه به علت معیارشدن زبان، ساختار نحوی در دو متن شمارۀ ۳ و ۴ فاقد جمله‌های ناقص و ناتمام و مبهم و درنتیجه دارای انسجام بیشتر است.

جالب است که امتیاز ترجمۀ متن شمارۀ ۱ بسیار بیشتر از امتیاز ترجمۀ متن شمارۀ ۲ است، درحالی‌که متن شمارۀ ۲ بیش از نیم‌قرن پس از متن شمارۀ ۱ نوشته شده است! این افزایش امتیاز دلیلی ندارد جز اینکه موارد سرهم‌نویسی در متن فارسی شمارۀ ۱ (شامل هفت مورد) بسیار کمتر از موارد سرهم‌نویسی در متن شمارۀ ۲ (شامل ۱۲ مورد) است. این افزایش امتیاز ترجمۀ متن شمارۀ ۱ به‌خوبی مبین اهمیت فوق‌العاده زیاد جدانویسی در نوشتار معیار امروز فارسی است. شاید زمانی که نویسندگانِ «دستور خط» در فرهنگستان زبان و ادب فارسی، بر امر جدانویسی تأکید می‌کردند، توجه چندانی به مباحث مرتبط با پردازش ماشینی زبان فارسی نداشتند، اما چون دستورالعمل‌های آنان در مورد جدانویسی مبتنی‌بر تفکری منطقی بوده، نتایج کارشان نیز خودبه‌خود متضمن فواید مهمی برای پردازش زبان شده است. باید توجه داشت که پردازش ماشینی زبان همواره بر اساس واژگانی (lexicon) صورت می‌گیرد که از قبل برای ماشین تدوین شده است؛ در چنین واژگانی احتمال وجود صورت‌هایی چون «دولتیان»، «را»، «به»، «اغوا»، «به»، و «ایران» بسیار بیشتر است تا صورت‌هایی چون «دولتیانرا» و «باغوا» و «بایران»! در این معنا نباید دستور خط را امری صرفاً قراردادی تصور کرد (نجفی ۱۳۹۶ [۱۳۸۴])، زیرا اگر به هنگام تدوین دستور خط به مسائلی چون درک سریع‌تر خوانندگان و نیز توان پردازش ماشین در مباحث مربوط به پردازش زبان‌های طبیعی توجه داشته باشیم، خواهیم دید که برخی قراردادها از این حیث هم نزدیک‌تر به عمل‌کرد ذهن اهل زبان هستند، و هم مناسب‌تر برای امر پردازش ماشینی زبان. درهرحال به قطعیت می‌توان گفت آنچه میزان دقت ترجمۀ ماشینی متن فارسی شمارۀ ۴ را تا بدین حد بالا برده که از ۱۰۰ امتیاز، نمرۀ ۸۲ بگیرد، چیزی نبوده است مگر معیار شدن هرچه بیشتر زبان در چند دهۀ اخیر، و دیگر این‌که زبان فارسی این درجه از معیارشدگیِ متن‌های علمی و خبری را بیش از هر چیز مدیون دستورالعمل‌های ویرایشی و عمومیت یافتن فعالیت‌های ویرایشی است.

لزوم اصلاح خط

خط فارسی مانند خط اکثر زبان‌هایِ برخوردار از انبوهِ متن‌های کهن، خطی نارسا و مشکل‌دار است، اما همین خط نارسایِ نیمه‌هجایی در طی بیش از هزار سال عمر خود، همواره حاملِ مهم‌ترین و زیباترین افکار و آمال ایرانیان بوده است به‌طوری‌که تبدیل آن به خطی کارآمد و مثلاً واج‌نگار، به‌منزلۀ جدا ساختن ایرانیان از گذشتۀ فرهنگی‌شان خواهد بود. پس از ورود دستگاه چاپ به ایران و تولید انبوهِ کتاب‌ها و شکل‌گیری مطبوعات، کم‌کم مسئلۀ اصلاح خط و یک‌دست‌ساختن آن اهمیت یافت و این بحث تا به امروز به انحاءِ گوناگون در جریان بوده است تا اینکه پس از تدوین «دستور خط فارسی» مصوب فرهنگستان زبان و ادب فارسی (چاپ اول ۱۳۸۱؛ چاپ سیزدهم ۱۳۹۴)، به قطعیتی نسبی رسید. اما ماجرای اصلاح خط هیچ‌گاه به انتهای خود نمی‌رسد و همواره به‌مقتضای زمان به اشکال گوناگون مجدداً مطرح می‌شود. امروزه با توجه به اهمیت یافتنِ مسئلۀ پردازش ماشینی زبان فارسی، ما ناچاریم دوباره به این بحث برگردیم و با اتخاذ تدابیری این خط را هرچه بیشتر آمادۀ کارهای پردازشی بکنیم. بحث خود را با اشاره به دو نمونه از چنین مواردی به پایان می‌رسانم.

خط فارسی قادر به نمایش کسرۀ اضافه در تمام موارد وقوع آن نیست، درحالی‌که با اضافه کردن یک نویسۀ مستقل به این خط برای نمایش کسرۀ اضافه، می‌توان کار پردازش متن را تا حد بسیار زیادی بهبود می‌بخشد. تعداد کسره‌های اضافه در هر متن فارسی به‌مراتب بیشتر از تعداد دفعاتی است که نشانۀ مفعولی «را» در آن تکرار می‌شود، اما در خط فارسی نشانۀ مفعولی به‌درستی و با صراحت تمام نمایش داده می‌شود درحالی‌که هیچ نشانۀ ثابت و مستقلی برای نمایش کسرۀ اضافه وجود ندارد. جالب است که جوانان خود در فضای مجازی و برحسب ضرورت، با بهره‌گیری از «هکسره» کسرۀ اضافه را نمایش می‌دهند، و مثلاً «کتاب من» را به‌شکل «کتابه من» می‌نویسند؛ بدیهی است که هکسره شیوۀ مناسبی برای نمایش کسرۀ اضافه نیست، و این بر عهدۀ نهادی چون فرهنگستان زبان و ادب فارسی است که نویسۀ مناسبی را برای نمایش کسرۀ اضافه در خط فارسی ابداع و پیشنهاد کند و با این تمهید ساده رساییِ خط فارسی تا حد بسیار زیادی افزایش دهد.

عامل دیگری که وجود آن برای هرچه معیارتر کردن متن‌های فارسی بسیار ضروری است، تدوین نرم‌افزاری همچون word برای این زبان است. به‌جرئت می‌توان گفت که ضرورت تدوین چنین نرم‌افزاری برای خط فارسی با هیچ طرح ملی دیگری برای صیانت از زبان فارسی و حفظ جایگاه آن در آیندۀ بسیار نزدیک قابل‌مقایسه نیست! چنین نرم‌افزاری اگر از سوی نهادی چون فرهنگستان زبان و ادب فارسی به‌صورت کامل تدوین شود، مهم‌ترین اقدام برای پایان‌بخشیدن به بی‌سروسامانی‌های و پیچیدگی‌های دستور خط فارسی و نیز معیار کردن هرچه بیشتر و پردازش هرچه دقیق‌تر آن محسوب می‌شود.

نتیجه‌گیری

ویرایش را باید بخشی از برنامه‌ریزی زبانی در نظر گرفت که هدف آن هرچه معیارترکردن زبان نوشتار است. بقای زبان فارسی در مقام زبانی زنده و امروزین منوط به نائل‌آمدن به پیشرفت‌های گسترده در حوزۀ پردازشِ ماشینی زبان‌های طبیعی است، و ویرایش و اصلاحات جزئی در خط، باعث شکل‌گیری زبان و خطِ معیاری می‌شود که از بیشترین آمادگی برای پردازش ماشینی برخوردار است. امر ویرایش خاصه در مورد متن‌های علمی و خبری اهمیت زیادی دارد، زیرا از یک‌سو پروژه‌های تحقیقاتی مربوط به پردازشِ زبان‌های طبیعی غالباً متمرکز بر همین متن‌ها هستند، و از سوی دیگر بقای زبان فارسی در مقام زبانی زنده و امروزین منوط به نائل‌آمدن به پیشرفت‌های گسترده و متنوع در پردازش آنها است. خلاصه اینکه هرچه زبان در این قبیل متن‌ها ویراسته‌تر و تثبیت‌شده‌تر باشد کار پردازش ماشینی آنها ساده‌تر خواهد بود.

*استاد آواشناسی و واج‌شناسی پژوهشگاه علوم انسانی و مطالعات فرهنگی

پی‌نوشت‌ها:

۱. مقالۀ حاضر صورت کامل مطلبی است که نخستین بار به مناسبت بیست‌وهشتمین دورۀ هفتۀ کتاب، به‌صورت سخنرانی در همایش «ظرافت‌های ویرایش در متون ترجمه‌ای» در محل «خانۀ کتاب و ادبیات ایران» (پنج‌شنبه ۲۹ آبان ۱۳۹۹) ایراد شد.

۲. ابتدایی‌بودن نثر این بند و بند بعدی را نباید به سبک کهن آنها نسبت داد. در همان زمان نثر فارسی مثلاً در منشآت قائم‌مقام به حد اعلای زیبایی و سلامت خود رسیده بود. درواقع این دو بند مبین نخستین رویارویی زبان فارسی با زبان خبری جهان مدرن هستند و ابتدایی و حتی مغلوط‌بودنشان نیز دلیلی جز همین امر ندارد. بیش از صد سال طول کشید تا نثر فارسی به پختگی و آمادگی لازم برای بیان مفاهیم جدید رسید.

۳. از دوستان و همکاران ارجمند زیر که امر امتیازدهی متن‌های انگلیسی را به عهده گرفتند نهایت امتنان را دارم: آقایان دکتر مهرداد نغزگوی کن، محرم اسلامی، محمد راسخ مهند، مصطفی حسینی، آیت‌الله فاضلی منیع، رضا طاهرخانی، محمد احمدی صفا، و خانم‌ها دکتر انیس مونسی، پونه تباری، زهرا خلجی.

مآخذ:

دستور خط فارسی، ۱۳۹۴، تهران، فرهنگستان زبان و ادب فارسی.

سارلی، ناصرقلی، ۱۳۸۷، زبان فارسی معیار، تهران، هرمس.

سمیعی، احمد، ۱۳۹۵، آیین نگارش، تهران، مرکز نشر دانشگاهی.

سمیعی، احمد، ۱۳۹۷، نگارش و ویرایش، تهران، انتشارات سمت.

صادقی، علی‌اشرف (و) زندی مقدم، زهرا، ۱۳۹۴، فرهنگ املایی زبان فارسی، تهران، فرهنگستان زبان و ادب فارسی.

طباطبایی، علاءالدین، ۱۳۹۵، فرهنگ توصیفی دستور زبان فارسی، تهران، فرهنگ معاصر، ۱۳۹۵.

طباطبایی، علاءالدین، ۱۳۹۷، «زبان نامه فرهنگستان»، مجله نامه فرهنگستان، شماره ۶۶، ص ۲-۹.

طبیب‌زاده، امید، ۱۳۹۷، «درباره ویرایش و دستور زبان»، مجله نامه فرهنگستان، شماره ۶۶، ص ۱۳۸-۱۴۵.

طبیب‌زاده، امید، ۱۳۹۸، غلط ننویسیم از چاپ اول تا ویراست دوم، چ۲، تهران، کتاب بهار

مدرسی، یحیی، ۱۳۶۸، درآمدی بر جامعه‌شناسی زبان، تهران، مؤسسۀ مطالعات و تحقیقات فرهنگی.

معصومی همدانی، حسین، ۱۳۸۲، «واژه‌گزینی و استقلال زبان فارسی»، در: نشر دانش، بهار، شمارۀ ۱۰۷، ۲-۷.

نجفی، ابوالحسن، ۱۳۹۷، غلط ننویسیم، تهران، مرکز نشر دانشگاهی.

منبع: روزنامه شرق