فرهنگ امروز/ امید طبیبزاده
به یاد استاد احمد حب علی موجانی
مقدمه
در اینجا ابتدا بهاختصار تعریفی برای هریک از اصطلاحات «ویرایش»، «معیار»، «معیارسازی» و «پردازش ماشینی» عرضه میداریم، سپس از تفاوت متنهای علمی و خبری با متنهای ادبی سخن میگوییم، بعد به چگونگی تحول ویرایش در متنهای خبری فارسی اشاره میکنیم و نهایتاً به بحث اصلی خود میپردازیم و با انجام یک آزمایش ساده، نشان میدهیم که ویرایشِ متنهای خبری فارسی چه نقش مهمی در فعالیتهای پردازشی، مثلاً ترجمۀ ماشینی متنها به زبان انگلیسی دارد. بحث دربارۀ اهمیت مطالعات مربوط به پردازش زبان، و لزوم توجه به آنها برای تقویت هرچه بیشتر زبان فارسی از مباحث پایانی این مقاله است.
ویرایش
حسین معصومیهمدانی دربارۀ اهمیت زبان علم در فارسی بهدرستی چنین گفته است (۱۳۸۲): «یکی از بختهای ما ایرانیان این است که زبان ملی و زبان علمیمان یکی است. ملتهایی در جهان و در کشورهای اطراف ما هستند که یا بهحکم اوضاعو احوال تاریخی یا دانسته و به این گمان که اختیارکردنِ یک زبان اروپایی بهعنوان زبان علمی میتواند ایشان را در کار انتقال علوم و غلبه بر عقبماندگی علمی موفق کند، زبان ملی خود را برای کاربردهای روزمره نگاه داشتهاند و برای کاربردهای علمی، لااقل در سطوح دانشگاهی، یک زبان اروپایی را برگزیدهاند. زیانهای این گزینش به حدی است که بر فواید احتمالی آن میچربد...».
معصومیهمدانی در ادامۀ مقالۀ خود از فواید و اهمیت چنین اتفاق خجستهای در زبان فارسی سخن گفته و ضمن برشمردن شیوههایی برای تثبیت و تقویت این جنبه از زبان فارسی به نیکی از کسانی یاد کرده است که از ابتدای ورود علم جدید به ایران زبان فارسی را برای بیان مفاهیم علمی برگزیدند. با تأسیس فرهنگستانِ اول در سال ۱۳۱۴ نخستین گامها برای برنامهریزی زبانی در حوزۀ واژهگزینی در مباحث علمی برداشته شد و پس از آن با شکلگیری نهادهایی چون مؤسسۀ انتشارات فرانکلین در ۱۳۳۳ و بعدها مرکز نشر دانشگاهی در ۱۳۵۹، امرِ ویرایش نیز برای تثبیت و تقویت هرچه بیشتر این جنبه از زبان فارسی وارد میدان شد.
ویرایش عبارت است از انجام فعالیتهای گوناگونی چون یکدستکردن اصطلاحاتِ متن، یکدستکردن نشانههای سجاوندی و شیوۀ ارجاعات در متن، تنظیم پاراگرافبندیها و اطمینانیافتن از رعایت دستور زبان معیار و دستور خط مصوب سازمان انتشاراتی در متن، و غیره و غیره، برای کمک به انتقال هرچه بهتر و دقیقتر اطلاعات از نویسنده یا مترجم به خواننده. اما نکتهای که حتی بسیاری از ویراستاران نیز بدان توجهی ندارند این است که ویرایش بیش از هر چیز، بخشی از یک برنامهریزی زبانی است که هدفش هرچه معیارترکردن زبان معیار است. اهمیت دو مفهوم «زبان معیار» و «برنامهریزی زبانی» در امر ویرایشِ متنهای علمی و خبری چنان زیاد است که هر تعریفی از ویرایش بدون توجه به آن دو مفهوم، تعریفی ناقص و ناتمام خواهد بود.
زبان معیار و معیارسازی زبان
زبانها مخصوصاً در جوامع بزرگ و پیشرفته، برحسب کاربردشان دارای تنوعات بسیاری هستند. اهل زبان بسته به موقعیت جغرافیایی خود یا بسته به ویژگیهای دیگری همچون سن و جنس و موقعیت اجتماعیشان دارای گونههای زبانی متفاوتی هستند؛ مثلاً در مورد زبان فارسی، گونۀ فارسی مشهدی با گونۀ فارسی اصفهانی تفاوت دارد، یا گونۀ زبانی زنان با گونۀ زبانی مردان در بسیاری موارد متفاوت است. همچنین اهل زبان بسته به رسمیبودن یا دوستانهبودن بافتی نیز که در آن سخن میگویند از سبکهای متفاوتی استفاده میکنند؛ مثلاً سبکی که آنها در خانه و میهمانیهای دوستانه بهکار میبرند متفاوت از سبکی است که در محیطهای رسمی همچون دادگاه و دانشگاه از آن استفاده میکنند. گونههایی از یک زبان که متناسب با بافت اجتماعی گفتار مورد استفاده قرار میگیرند، سبکهای مختلف آن زبان به شمار میروند (مدرسی ۱۳۶۸: ۱۸۵-۱۸۶؛ همچنین رک. سارلی۱۳۸۷: ۱۶-۱۷). اما در میان این گونهها و سبکهای متفاوت معمولاً فقط یکی گونۀ معیار (standard) یا گونۀ وجههدارِ (prestigious) زبان شمرده میشود. گونۀ معیار به گونۀ وجههداری اطلاق میشود که مورد قبول اکثر افراد جامعه است و از آن در نوشتار، اخبارِ رادیو و تلویزیون، احکام حکومتی، و کلیۀ محیطهای رسمی استفاده میکنند. گونۀ معیار همچنین همان گونهای است که غالباً در جوامع چندزبانه از آن بهعنوان زبان مشترک و میانجی استفاده میشود و گاه بدان زبان رسمی یا زبان ملی اطلاق میشود.
«معیارسازی» (standardization) هم به انتخاب یک گونۀ زبانی بهعنوان گونۀ معیار اطلاق میشود، و هم به آمادهسازی و تقویت گونۀ معیار برای انجام هرچه بهتر وظایفی که بر عهده دارد. تدوین فرهنگهای لغت و کتابهای دستور، تهیۀ واژهنامهها و واژگانها، و نگارش آثاری چون «غلط ننویسیم» (نجفی ۱۳۹۷؛ نیز رک. طبیبزاده ۱۳۹۷)، «فرهنگ املایی زبان فارسی» (صادقی و زندیمقدم ۱۳۹۸)، «راهنمای ویرایش» (سمیعی ۹۵؛ ۹۷)، «فرهنگ توصیفی دستور زبان فارسی» (طباطبایی ۱۳۹۵) و غیره، همه و همه فعالیتهایی در جهت هرچه معیارترساختن زبان فارسی محسوب میشوند. گاهی معیارسازی به شکل طبیعی و بهاصطلاح خودانگیخته است، و گاهی بهصورت آگاهانه. مثلاً تا پیش از نهضت مشروطه در ایران زبان فارسی بهصورت طبیعی و خودانگیخته و با سرعتی بسیار اندک مسیر معیارشدن را طی میکرد، اما طی این مسیر پس از نهضت مشروطه و بهویژه در دوران پهلوی اول و پس از تأسیس فرهنگستان نخست، بهصورت آگاهانه درآمد و مدام بر سرعت آن افزوده شد. البته جریان معیارسازی در مورد زبانهای زنده و پرکاربرد هیچگاه متوقف نمیشود، و چه در حالت خودانگیخته و چه در حالت آگاهانه، همواره وجود دارد و مراحل گوناگون را پشتسر میگذارد. تعیین ویژگیهای زبان و خط معیار از طریق تدوین دستورهای زبان و خط امکانپذیر است و چون چنین دستورهایی بهناگزیر تجویزی هستند، گونۀ معیار نیز خواهناخواه و پس از اندکی، مبدل به گونهای برساخته میشود که جریان تحول آن اندکی کندتر از جریان تحول زبان گفتار است. ازاینرو میتوان و باید هر چند سال یکبار به تجدیدنظر در ویژگیهای متفاوت گونۀ معیار پرداخت و از این طریق مانع از ثابتماندن گونۀ معیار و دورشدن آن از جریان تحول کلّی زبان طبیعی گفتار شد.
پردازش زبانهای طبیعی و متنهای علمی و خبری
حوزۀ پردازش زبانهای طبیعی (Natural Language Processing= NLP) که آغاز شکلگیری آن به سالهای دهۀ پنجاه قرن بیستم بازمیگردد، محل تلاقی سه رشتۀ گوناگون زبانشناسی و علوم رایانهای و هوش مصنوعی است. این حوزه به تعامل میان رایانه و زبان اختصاص دارد و به موضوعاتی میپردازد همچون تحلیل و پردازش خودکارِ دادههای انبوه زبانی با استفاده از کامپیوتر، درک گفتار، تولید گفتار، تبدیل متن به نوشتار، تبدیل نوشتار به متن، بازیابی اطلاعات از درون متن، تهیۀ پیکرههای عظیم زبانی و ترجمۀ ماشینی و غیره. به اعتقاد نگارندۀ این سطور اولاً با توجه به پیشرفتهای روزافزون در حوزۀ پردازش زبانهای طبیعی، دیری نخواهد گذشت که زبانهای زندۀ جهان برحسب میزان پیشرفتهایشان در استفاده از فناوریهای جدید در حوزۀ پردازش زبانهای طبیعی، به دو دستۀ زبانهای اصلی و زبانهای پیرامونی تقسیم میشوند؛ ثانیاً معیارسازی آگاهانۀ زبان از طریق برنامهریزیهای زبانی و مخصوصاً از طریق ویرایش، سبب میشود تا متنهای علمی و خبری خودبهخود دارای ویژگیهایی شوند که کار متخصصانِ حوزههای گوناگون در پردازش زبان را در انجام کارهای خود بسیار ساده کند. بدیهی است که اگر قرار باشد زبان فارسی در آینده در زمرۀ زبانهای پیرامونی نباشد، باید از هماکنون به تقویت هرچه بیشتر آن در این مطالعات یاری رساند. با آزمایشی ساده میتوان نشان داد که معیارسازی زبان نوشتار از طریق ویرایش، میتواند دارای چه سهم مهمی در آمادهسازی زبان از حیث مباحث مربوط به پردازش زبان باشد.
متنهای علمی و خبری از حیث نقش (function) و گونه و نیز پردازش دارای تفاوتهای بسیاری با متنهای ادبی هستند. از حیث نقش، زبانِ متنهای علمی و خبری همواره دارای نقش ارجاعی (referential) هستند اما در متنهای ادبی نقش شاعرانه (poetic) اهمیت دارد؛ یعنی در متنهای خبری و علمی همواره به جهان بیرون از متن ارجاع داده میشود و از این طریق بر اطلاعات خواننده افزوده میشود، اما در متنهای ادبی و مخصوصاً در شعر آنچه اهمیت دارد خود زبان است و آرایههای گوناگون ادبی موجود در آن. از حیث گونه، متنهای علمی و خبری همواره به گونۀ معیار و رسمی نگاشته میشوند و استفاده از هر گونۀ دیگری در آنها معمول نیست، اما در متنهای ادبی از انواع گونهها و سبکها ممکن است استفاده شود. و بالاخره از حیث مسائل مربوط به پردازش زبانهای طبیعی نیز متنهای علمی و خبری بیشترین میزان آمادگی را برای متخصصان این قبیل مطالعات دارند، اما به متنهای ادبی به علت پیچیدگیهای سبکی و معنایی متعددشان، کمتر از این حیث پرداخته میشود. بنابراین کار ویراستارانِ متون علمی و خبری بیش از هر چیز به مسئلۀ گونۀ معیار مربوط میشود؛ آنان با افزودن بر صراحت و سادگی این متنها باعث افزایش نقش ارجاعی آنها میشوند، و با کاستن از تنوعات زبانی در آنها امکان پردازش هرچه سریعتر و دقیقتر آنها را افزایش میدهند.
بررسی نقش ویرایش در پردازش ماشینی متنهای ویراسته یا معیار
اگر بخواهیم زبان فارسی در آینده در زمرۀ زبانهای پیرامونی قرار نگیرد، باید از هماکنون ازطریق معیارسازی و نیز از طریق انجام پژوهش و مطالعات هرچه بیشتر در حوزۀ پردازش ماشینی، به تقویت آن یاری برسانیم. در اینجا با آزمایش سادهای نشان میدهیم که چگونه معیارسازی آگاهانۀ زبان و مخصوصاً فعالیتهای ویرایشی، خودبهخود باعث تسهیل کار متخصصانِ پردازش زبان فارسی میشود.
چهار بند زیر را بهطور کاملاً تصادفی از چهار روزنامه فارسی که به فواصل ۵۰ تا ۶۰ سال از سال ۱۲۲۹ شمسی تا ۱۳۹۹ منتشر شدهاند برگزیدیم. این روزنامهها به فواصل ۵۰ تا ۶۰ سال از هم منتشر شدهاند و هر یک از بندهای زیر نیز بهطور میانگین شامل ۱۰۲ واژه است. دو متن اول مبین معیارسازی خودانگیخته و دو بند دوم مبین معیارسازی کموبیش آگاهانه هستند:
۱. روزنامچه اخبار دارالخلافۀ طهران [وقایع اتفاقیه]
شمارۀ ۱، جمعه پنجم ربیعالثانی ۱۲۶۷هق/ ۱۸ بهمن ۱۲۲۹: کشتی بزرک دولت فرانسه که در شهر برست بود یکصد و هست عراده توپ در میانش بود یکنفر از توپچیان فشنک آتشبازی درست میکرد ناکاه باروطی که در آنجا بود آتش کرفت و خود آن توپچی و هشت نفر دیکر که نزدیک او بودند آتش کرفته هلاک شدند و ده دوازده نفر هم از تخته پاره زخم دار شدند
درین روزها در دریاهای اطراف مملکت انکلیس و فرانسه طوفان زیاد شده و بسیار ضرر بکشتیها خورده است ازجمله یک کشتی در سمت مغرب ولایت انکلیس بسنک خورده و غرق شد و مالالتجاره که در آن بود سی پنجهزار پوند پول انکلیس بود که هفتاد هفت هزار تومان پول ایران باشد و همه تلف شد.۲
۲. حبلالمتین (تهران)
شمارۀ ۱، صفحۀ ۲-۳، ۱۵ ربیعالاول ۱۳۲۵هق/ ۹ اردیبهشت ۱۲۸۵هش: تا کنون هر گونه حوادث و وقایع که نتیجه آنها افتتاح مجلس شورای ملّی بود واقع میشد (انقلاب) میگفتیم اما پاره واقعات که این روزها بظهور رسیده و در بعضی اماکن سرزده و میزند باید آنهارا اختلال بگوئیم انقلاب – مبارزت و ستیزه است که فیما بین دولت و ملت واقع میشود و اختلال عبارتاست از اغتشاش و هرجومرجی که باغوا واغفال دولت و دولتیان ظاهر میشود و فائده اختلال برای دولت آنستکه انقلاب و مشاجره با دولت توقیف گردیده خلق بجان یکدیگر افتاده دولتیانرا آسوده میگذارند و حکومت از ضعف و سستی خلاص شده محکم و پایدار میگردد
۳. روزنامۀ اطلاعات
شمارۀ ۱۰۶۴۹، سال ۳۶، شانزده آبان ۱۳۴۰: امروز آقای دکتر امینی نخستوزیر بخبرنگار ما اظهار داشت که دولت امریکا مبلغی بایران بعنوان کمک بلاعوض میپردازد و یک وام نیز برای انجام کارهای کنونی سازمان برنامه در اختیار این سازمان میگذارد. آقای نخستوزیر اظهار داشت که دیروز ساعت ۴ بعد از ظهر آقای هولمز سفیر کبیر آمریکا، باتفاق برن رئیس اصل چهار در ایران، در کاخ نخستوزیری حضور یافت و تصمیم دولت آمریکا را در این مورد اطلاع داد. خبرنگار مادر باره جریان کمک بلاعوض آمریکا سؤال کرد و آقای نخستوزیر پاسخ داد که این کمک جنبه استثنائی دارد.
۴. روزنامه شرق
شمارۀ ۳۸۵۹، سال ۱۸، دوشنبه ۱۹ آبان ۱۳۹۹: شکست دونالد ترامپ در انتخابات آمریکا، واکنش مقامات و مسئولان را در پی داشت. صفحه توییتر انگلیسی دفتر مقام معظم رهبری در واکنش به شکست ترامپ در انتخابات نوشت: «اوضاع در ایالاتمتحده و آنچه آنها خود در مورد انتخابات میگویند یک نمایش است! این نمونهای از چهره زشت لیبرالدموکراسی در ایالاتمتحده است. صرفنظر از نتیجه، یک چیز کاملا واضح است، سقوط قطعی سیاسی، مدنی و اخلاقی رژیم ایالاتمتحده». رئیسجمهور نیز در جلسه روز گذشته ستاد هماهنگی اقتصادی دولت، به نتیجه انتخابات ریاستجمهوری آمریکا اشاره کرد و گفت: «دولت آینده آمریکا از فرصت پیشآمده برای جبران اشتباهات گذشته استفاده کند.
میبینیم که هرچه متنها جدیدتر میشوند، نشانههای معیارشدگی آنها نیز بیشتر میشوند؛ مثلاً در متن شمارۀ ۱ از هیچ علامت سجاوندی استفاده نشده است، در متن ۲ از دو علامت (یک پرانتز و یک خط تیره که کاربرد دومی معلوم نیست)، در متن ۳ از پنج علامت (سه نقطه و دو ویرگول)، و در متن شمارۀ ۴ از ۱۶ علامت (پنج نقطه، پنج ویرگول، دو جفت گیومه نقل قول، دو دونقطه، و یک علامت تعجب) استفاده شده است. با جدیدترشدن متنها به تعداد علائم سجاوندی آنها اضافه میشود و هم استفاده از آنها نقشمندتر و صحیحتر میشود. بعداً خواهیم دید که استفادۀ نظاممند و دقیق از علائم سجاوندی فقط پردازش متن را برای انسان سادهتر نمیکند بلکه پردازش آن برای ماشین را نیز، مثلاً در ترجمۀ ماشینی تسهیل میکند.
در مورد مسئلۀ جدا یا سرهمنوشتن حرفهای اضافه و پیشوندهای فعلی و واژههای مرکب با دو گرایش متفاوت مواجه هستیم، در معیارسازی خودانگیخته (متنهای ۱ و۲) گرایش به استفادۀ هرچه بیشتر از سرهمنویسی است، و در معیارسازی آگاهانه (متنهای ۳ و ۴) گرایش به استفادۀ هرچه بیشتر از جدانویسی. متن شمارۀ ۱ شامل هفت مورد سرهمنویسی («یکصد»، «یکنفر» «میکرد» «درین»، «بکشتیها»، «بسنک»، «پنجهزار»)، متن شمارۀ ۲ شامل ۱۲ مورد («میشد»، «میگفتیم» «بظهور» «میزند» «میشود» «باغوا [= به اغوا]»، «میشود»، «آنستکه»، «بجان»، «دولتیانرا»، «میگذارند» «میگردد»)، متن شمارۀ ۳ شامل شش مورد («بخبرنگار»، «بایران [= به ایران]»، «بعنوان» «میپردازد»، «میگذارد»، «باتفاق») است، اما در متن شمارۀ ۴ حتی یک مورد سرهمنویسی نیز وجود ندارد. بیگمان این امر حاکی از اهمیت یافتن رعایت دستور خط مصوب فرهنگستان زبان و ادب فارسی در سالهای اخیر بوده است که تأکید بر جدانویسی هرچه بیشتر داشته است.
اصرار نویسندگان دستور خط فرهنگستان بر امر جدانویسی، قطعاً به این دلیل بوده است که میدانستند خوانندگان فارسیزبان صورتهایی چون «دولتیان را» «به اغوا» و «به ایران» را بسیار سریعتر از صورتهایی چون «دولتیانرا» و «باغوا» و «بایران» درک میکنند، اما چنانکه خواهیم دید، تأکید آنان بر جدانویسی خودبهخود باعث تسهیل کار پردازش توسط ماشین نیز شده است. ویرایش و خاصه ویرایش متنهای علمی و خبری ازجمله اقدامات آگاهانه در معیار ساختن زبان محسوب میشود، و در این میان هرچه دستورالعملهای ویرایشی منطقیتر و عقلانیتر باشد، و هرچه ویراستاران در رعایت این دستورالعملها منسجمتر و یکدستتر عمل کنند، تأثیر عملکردِ آنان بر جریان معیارسازی زبان بیشتر خواهد بود.
باری ما چهار متنی را که در بخش قبل بهتصادف انتخاب و از حیث ویژگیهای ویرایشی بررسی کرده بودیم، به نرمافزار ترجمۀ ماشینی موجود در شبکۀ اجتماعی اینستاگرام سپردیم، و این نرمافزار هر متن را در کمتر از یک ثانیه به زبان انگلیسی ترجمه کرد و متنهای ترجمهشدۀ زیر را در اختیار ما گذاشت:
۱. روزنامچه اخبار دارالخلافۀ طهران [وقایع اتفاقیه]
شمارۀ ۱، جمعه پنجم ربیعالثانی ۱۲۶۷هق/ ۱۸ بهمن ۱۲۲۹:
۲. حبلالمتین (تهران)
شمارۀ ۱، صفحۀ ۲-۳، ۱۵ ربیعالاول ۱۳۲۵هق/ ۹ اردیبهشت ۱۲۸۵هش:
۳. روزنامۀ اطلاعات
شمارۀ ۱۰۶۴۹، سال ۳۶، شانزده آبان ۱۳۴۰:
۴. روزنامه شرق
شمارۀ ۳۸۵۹، سال ۱۸، دوشنبه ۱۹ آبان ۱۳۹۹:
سپس ما این متنها را همراه با نامۀ زیر برای ۱۰ نفر از متخصصان آموزش زبان انگلیسی و زبانشناسی ارسال کردیم۳:
«... به ضمیمه چهار متن بسیار کوتاه انگلیسی را تقدیم میدارم. ممنون میشوم این متنها را بخوانید و نمرهای بین صفر تا ده به آنها بدهید. این متنها همه توسط ماشین از فارسی به انگلیسی ترجمه شده است. لطفاً معیار شما در تصحیح این متنها صرفاً صحت زبان از حیث قواعد دستوری و نگارشی و موفقیت متن در رساندن معنا باشد. بنده فقط به نمره کلی شما احتیاج دارم و خواهش میکنم زحمت تصحیح متنها را به خودتان ندهید».
پاسخی که دریافت کردیم بهوضوح نشان میدهد که دو متن جدیدتر که در حوزۀ معیارسازی آگاهانه میگنجند، بیشترین امتیاز را از حیث کیفیت ترجمه به انگلیسی دریافت کردهاند. جدول زیر مبین نمره یا امتیازی است که هر یک از ترجمههای فوق از ۱۰۰ (یا از ۲۰) گرفته است:
برای امتیاز بالای متن شمارۀ ۴ و سپس ۳ به سه دلیل میتوان اشاره کرد: اول اینکه در این دو متن از علائم نگارشی همچون نقطه و ویرگول و غیره بهدرستی اضافه شده است، و این علائم راهنمای خوبی برای ماشین در تعیین حدودوثغور عبارتها محسوب میشوند؛ دوم اینکه در این دو متن و مخصوصاً در متن شمارۀ ۴ از جدانویسی استفاده شده است، و به همین دلیل ماشین در حین پردازش با موارد مبهمی همچون «دولتیانرا» و «باغوا» و «بایران» برخورد نکرده و لذا به هنگام ترجمۀ صورتِ واژهها کمتر دچار اشکال و اشتباه شده است؛ و بالاخره سوم اینکه به علت معیارشدن زبان، ساختار نحوی در دو متن شمارۀ ۳ و ۴ فاقد جملههای ناقص و ناتمام و مبهم و درنتیجه دارای انسجام بیشتر است.
جالب است که امتیاز ترجمۀ متن شمارۀ ۱ بسیار بیشتر از امتیاز ترجمۀ متن شمارۀ ۲ است، درحالیکه متن شمارۀ ۲ بیش از نیمقرن پس از متن شمارۀ ۱ نوشته شده است! این افزایش امتیاز دلیلی ندارد جز اینکه موارد سرهمنویسی در متن فارسی شمارۀ ۱ (شامل هفت مورد) بسیار کمتر از موارد سرهمنویسی در متن شمارۀ ۲ (شامل ۱۲ مورد) است. این افزایش امتیاز ترجمۀ متن شمارۀ ۱ بهخوبی مبین اهمیت فوقالعاده زیاد جدانویسی در نوشتار معیار امروز فارسی است. شاید زمانی که نویسندگانِ «دستور خط» در فرهنگستان زبان و ادب فارسی، بر امر جدانویسی تأکید میکردند، توجه چندانی به مباحث مرتبط با پردازش ماشینی زبان فارسی نداشتند، اما چون دستورالعملهای آنان در مورد جدانویسی مبتنیبر تفکری منطقی بوده، نتایج کارشان نیز خودبهخود متضمن فواید مهمی برای پردازش زبان شده است. باید توجه داشت که پردازش ماشینی زبان همواره بر اساس واژگانی (lexicon) صورت میگیرد که از قبل برای ماشین تدوین شده است؛ در چنین واژگانی احتمال وجود صورتهایی چون «دولتیان»، «را»، «به»، «اغوا»، «به»، و «ایران» بسیار بیشتر است تا صورتهایی چون «دولتیانرا» و «باغوا» و «بایران»! در این معنا نباید دستور خط را امری صرفاً قراردادی تصور کرد (نجفی ۱۳۹۶ [۱۳۸۴])، زیرا اگر به هنگام تدوین دستور خط به مسائلی چون درک سریعتر خوانندگان و نیز توان پردازش ماشین در مباحث مربوط به پردازش زبانهای طبیعی توجه داشته باشیم، خواهیم دید که برخی قراردادها از این حیث هم نزدیکتر به عملکرد ذهن اهل زبان هستند، و هم مناسبتر برای امر پردازش ماشینی زبان. درهرحال به قطعیت میتوان گفت آنچه میزان دقت ترجمۀ ماشینی متن فارسی شمارۀ ۴ را تا بدین حد بالا برده که از ۱۰۰ امتیاز، نمرۀ ۸۲ بگیرد، چیزی نبوده است مگر معیار شدن هرچه بیشتر زبان در چند دهۀ اخیر، و دیگر اینکه زبان فارسی این درجه از معیارشدگیِ متنهای علمی و خبری را بیش از هر چیز مدیون دستورالعملهای ویرایشی و عمومیت یافتن فعالیتهای ویرایشی است.
لزوم اصلاح خط
خط فارسی مانند خط اکثر زبانهایِ برخوردار از انبوهِ متنهای کهن، خطی نارسا و مشکلدار است، اما همین خط نارسایِ نیمههجایی در طی بیش از هزار سال عمر خود، همواره حاملِ مهمترین و زیباترین افکار و آمال ایرانیان بوده است بهطوریکه تبدیل آن به خطی کارآمد و مثلاً واجنگار، بهمنزلۀ جدا ساختن ایرانیان از گذشتۀ فرهنگیشان خواهد بود. پس از ورود دستگاه چاپ به ایران و تولید انبوهِ کتابها و شکلگیری مطبوعات، کمکم مسئلۀ اصلاح خط و یکدستساختن آن اهمیت یافت و این بحث تا به امروز به انحاءِ گوناگون در جریان بوده است تا اینکه پس از تدوین «دستور خط فارسی» مصوب فرهنگستان زبان و ادب فارسی (چاپ اول ۱۳۸۱؛ چاپ سیزدهم ۱۳۹۴)، به قطعیتی نسبی رسید. اما ماجرای اصلاح خط هیچگاه به انتهای خود نمیرسد و همواره بهمقتضای زمان به اشکال گوناگون مجدداً مطرح میشود. امروزه با توجه به اهمیت یافتنِ مسئلۀ پردازش ماشینی زبان فارسی، ما ناچاریم دوباره به این بحث برگردیم و با اتخاذ تدابیری این خط را هرچه بیشتر آمادۀ کارهای پردازشی بکنیم. بحث خود را با اشاره به دو نمونه از چنین مواردی به پایان میرسانم.
خط فارسی قادر به نمایش کسرۀ اضافه در تمام موارد وقوع آن نیست، درحالیکه با اضافه کردن یک نویسۀ مستقل به این خط برای نمایش کسرۀ اضافه، میتوان کار پردازش متن را تا حد بسیار زیادی بهبود میبخشد. تعداد کسرههای اضافه در هر متن فارسی بهمراتب بیشتر از تعداد دفعاتی است که نشانۀ مفعولی «را» در آن تکرار میشود، اما در خط فارسی نشانۀ مفعولی بهدرستی و با صراحت تمام نمایش داده میشود درحالیکه هیچ نشانۀ ثابت و مستقلی برای نمایش کسرۀ اضافه وجود ندارد. جالب است که جوانان خود در فضای مجازی و برحسب ضرورت، با بهرهگیری از «هکسره» کسرۀ اضافه را نمایش میدهند، و مثلاً «کتاب من» را بهشکل «کتابه من» مینویسند؛ بدیهی است که هکسره شیوۀ مناسبی برای نمایش کسرۀ اضافه نیست، و این بر عهدۀ نهادی چون فرهنگستان زبان و ادب فارسی است که نویسۀ مناسبی را برای نمایش کسرۀ اضافه در خط فارسی ابداع و پیشنهاد کند و با این تمهید ساده رساییِ خط فارسی تا حد بسیار زیادی افزایش دهد.
عامل دیگری که وجود آن برای هرچه معیارتر کردن متنهای فارسی بسیار ضروری است، تدوین نرمافزاری همچون word برای این زبان است. بهجرئت میتوان گفت که ضرورت تدوین چنین نرمافزاری برای خط فارسی با هیچ طرح ملی دیگری برای صیانت از زبان فارسی و حفظ جایگاه آن در آیندۀ بسیار نزدیک قابلمقایسه نیست! چنین نرمافزاری اگر از سوی نهادی چون فرهنگستان زبان و ادب فارسی بهصورت کامل تدوین شود، مهمترین اقدام برای پایانبخشیدن به بیسروسامانیهای و پیچیدگیهای دستور خط فارسی و نیز معیار کردن هرچه بیشتر و پردازش هرچه دقیقتر آن محسوب میشود.
نتیجهگیری
ویرایش را باید بخشی از برنامهریزی زبانی در نظر گرفت که هدف آن هرچه معیارترکردن زبان نوشتار است. بقای زبان فارسی در مقام زبانی زنده و امروزین منوط به نائلآمدن به پیشرفتهای گسترده در حوزۀ پردازشِ ماشینی زبانهای طبیعی است، و ویرایش و اصلاحات جزئی در خط، باعث شکلگیری زبان و خطِ معیاری میشود که از بیشترین آمادگی برای پردازش ماشینی برخوردار است. امر ویرایش خاصه در مورد متنهای علمی و خبری اهمیت زیادی دارد، زیرا از یکسو پروژههای تحقیقاتی مربوط به پردازشِ زبانهای طبیعی غالباً متمرکز بر همین متنها هستند، و از سوی دیگر بقای زبان فارسی در مقام زبانی زنده و امروزین منوط به نائلآمدن به پیشرفتهای گسترده و متنوع در پردازش آنها است. خلاصه اینکه هرچه زبان در این قبیل متنها ویراستهتر و تثبیتشدهتر باشد کار پردازش ماشینی آنها سادهتر خواهد بود.
*استاد آواشناسی و واجشناسی پژوهشگاه علوم انسانی و مطالعات فرهنگی
پینوشتها:
۱. مقالۀ حاضر صورت کامل مطلبی است که نخستین بار به مناسبت بیستوهشتمین دورۀ هفتۀ کتاب، بهصورت سخنرانی در همایش «ظرافتهای ویرایش در متون ترجمهای» در محل «خانۀ کتاب و ادبیات ایران» (پنجشنبه ۲۹ آبان ۱۳۹۹) ایراد شد.
۲. ابتداییبودن نثر این بند و بند بعدی را نباید به سبک کهن آنها نسبت داد. در همان زمان نثر فارسی مثلاً در منشآت قائممقام به حد اعلای زیبایی و سلامت خود رسیده بود. درواقع این دو بند مبین نخستین رویارویی زبان فارسی با زبان خبری جهان مدرن هستند و ابتدایی و حتی مغلوطبودنشان نیز دلیلی جز همین امر ندارد. بیش از صد سال طول کشید تا نثر فارسی به پختگی و آمادگی لازم برای بیان مفاهیم جدید رسید.
۳. از دوستان و همکاران ارجمند زیر که امر امتیازدهی متنهای انگلیسی را به عهده گرفتند نهایت امتنان را دارم: آقایان دکتر مهرداد نغزگوی کن، محرم اسلامی، محمد راسخ مهند، مصطفی حسینی، آیتالله فاضلی منیع، رضا طاهرخانی، محمد احمدی صفا، و خانمها دکتر انیس مونسی، پونه تباری، زهرا خلجی.
مآخذ:
دستور خط فارسی، ۱۳۹۴، تهران، فرهنگستان زبان و ادب فارسی.
سارلی، ناصرقلی، ۱۳۸۷، زبان فارسی معیار، تهران، هرمس.
سمیعی، احمد، ۱۳۹۵، آیین نگارش، تهران، مرکز نشر دانشگاهی.
سمیعی، احمد، ۱۳۹۷، نگارش و ویرایش، تهران، انتشارات سمت.
صادقی، علیاشرف (و) زندی مقدم، زهرا، ۱۳۹۴، فرهنگ املایی زبان فارسی، تهران، فرهنگستان زبان و ادب فارسی.
طباطبایی، علاءالدین، ۱۳۹۵، فرهنگ توصیفی دستور زبان فارسی، تهران، فرهنگ معاصر، ۱۳۹۵.
طباطبایی، علاءالدین، ۱۳۹۷، «زبان نامه فرهنگستان»، مجله نامه فرهنگستان، شماره ۶۶، ص ۲-۹.
طبیبزاده، امید، ۱۳۹۷، «درباره ویرایش و دستور زبان»، مجله نامه فرهنگستان، شماره ۶۶، ص ۱۳۸-۱۴۵.
طبیبزاده، امید، ۱۳۹۸، غلط ننویسیم از چاپ اول تا ویراست دوم، چ۲، تهران، کتاب بهار
مدرسی، یحیی، ۱۳۶۸، درآمدی بر جامعهشناسی زبان، تهران، مؤسسۀ مطالعات و تحقیقات فرهنگی.
معصومی همدانی، حسین، ۱۳۸۲، «واژهگزینی و استقلال زبان فارسی»، در: نشر دانش، بهار، شمارۀ ۱۰۷، ۲-۷.
نجفی، ابوالحسن، ۱۳۹۷، غلط ننویسیم، تهران، مرکز نشر دانشگاهی.
منبع: روزنامه شرق