پژوهشگران و سرقت علمی ناخواسته

بسیاری از پژوهشگران به دلیل آنکه از الگوهای ارجاع و نرم‌افزارها اطلاعی ندارند، ناخواسته سارقان علمی می‌شوند. این ناخواسته بودن ممکن است جهل باشد، برخی مواقع اشتباهاً ارجاع می‌دهند و نحوه‌ی ارجاع دادن آن درست نیست؛ فرضاً تصور می‌کند اگر ۳ پاراگراف را پشت سر هم بیاورد و ارجاع دهد، دیگر سرقت علمی به‌حساب نمی‌آید؛ یعنی قصد دارد ارجاع دهد، اما نمی‌داند چگونه ارجاع دهد. برخی اوقات فرایند ارجاع دادن در زبان فارسی بسیار وقت‌گیر است.

فرهنگ امروز/زهرا رستگار: سومین میزگرد تخصصی پژوهشگاه علوم و فناوری اطلاعات ایران با عنوان «بررسی آثار و پیامدهای سرقت علمی و راه‌های جلوگیری از آن» در یک تیرماه برگزار شد. سخنرانان این نشست دکتر مهدی بهنیافر، مهندس امیر پارسی و مهندس عمار جلالی‌منش بودند که به ترتیب مهندس عمار جلالی‌منش پیرامون استراتژی کاهش سرقت علمی و انواع سرقت علمی و فرایند ماشینی ارجاع صحبت کرد. مهندس امیر پارسی اصفهانی تشابه‌یابی و روش‌های آن، معرفی نرم‌افزارهای کشف سرقت علمی و تشابه‌یابی در ایران داک را توضیح داد و در انتها دکتر مهدی بهنیافر به معرفی نرم‌افزار مدیریت استناددهی و سازماندهی منابع پژوهشیار پرداخت.

سرقت علمی امروزه یکی از بی‌اخلاقی‌هایی است که در جامعه‌ی علمی کشور صورت می‌گیرد و شاید یکی از علت‌های آن درخواست یا توقع نابجای اساتید و زمان کم دانشجویان برای کار تحقیقی است. با وجود تعداد بالای دانشجویان و پذیرش آن‌ها توسط دانشگاه‌ها، باز هم نرم‌افزارهایی برای آنکه بتوانیم سرقت علمی را کنترل کنیم، نداریم. آموزش‌ها از یک مقطع پایین باید شروع شود که دانشجویان با اخلاق علمی مواجه شوند. سرقت علمی عمل غیراخلاقی است و مجرمانه نیز می‌تواند باشد. در بحث علمی باید به جنبه‌های اخلاقی و قانونی عمومی و فنی نیز توجه کنیم. در این نشست به بحث مقابله‌ی فنی با سرقت علمی پرداخته شده است که در ذیل می‌خوانیم.

روش‌های علمی در بحث ارجاع و نقل قول

عمار جلالی‌منش در ابتدای سخنرانی خود اشاره کرد: قصد دارم به‌طورکلی گریزی به تأثیرات حوزه‌ی نرم‌افزاری بحث سرقت علمی بزنم و اصل مبحثی که مطرح می‌کنم حول محور ارجاع است. این تقسیم‌بندی من است که چه استراتژی‌هایی می‌توانیم برای کاهش سرقت علمی داشته باشیم. برخی از بحث‌ها مانند بحث پیگرد قانونی که مطرح شده است، برخی از بحث‌ها هم بی‌ارتباط با محیط آموزش نیست مانند بحث مشارکت به جای تنبیه که این امر بسیار در جوامع دیگر پررنگ است. نمونه‌هایی دیدم که اساتید گزارشی در حد یک صفحه، اما مستند خواستند که این خود جنبه‌ی فرهنگ‌سازی و آموزشی دارد. اما اساتیدی که خواهان گزارشی با حجم بالا هستند، با وجود حجم دروس دیگر، این انتظار از دانشجو می‌رود که دست به کپی بزند. در روش‌های ارجاع و نقل قول بحث روش‌های علمی مطرح است.

سرقت علمی خواسته و ناخواسته

عضو هیئت علمی پژوهشگاه فناوری اطلاعات گفت: دو نوع سرقت علمی به‌طورکلی وجود دارد: سرقت علمی خواسته و سرقت علمی ناخواسته. بارها اتفاق می‌افتد که فرایند آموزش، دانشجویان و پژوهشگران را به سمتی هدایت می‌کند که این افراد دچار سرقت علمی می‌شوند. برخی از این سرقت‌های علمی بسیار سطح پایین است که بعدها برای افرادی که مقاله می‌نویسند این اتفاق رخ می‌دهد که فیدبک خشنی به آن‌ها وارد می‌شود که این نقل قولی که انجام نداده‌ای و ... یک انتزاعی از سرقت علمی است. من اعتقاد دارم که وجود نرم‌افزارها و سیستم‌های پشتیبانی علی‌الخصوص در بحث ارجاع و تسهیل فرایند ارجاع از نظر آماری و منطقی حجم سرقت‌های غیرعملی را قطعاً کم خواهد کرد. در تمام دانشگاه‌های دنیا به دانشجویان آموزش می‌دهند که چگونه پلیجریزم (plagiarism) یا سرقت علمی اتفاق نیفتد.

پیچیده بودن فرایند ارجاع و پشتیبانی نکردن از استانداردها

عمار جلالی‌منش در ادامه گفت: بسیاری از پژوهشگران به دلیل آنکه از الگوهای ارجاع و نرم‌افزارها اطلاعی ندارند، ناخواسته سارقان علمی می‌شوند. این ناخواسته بودن ممکن است جهل باشد، برخی مواقع اشتباهاً ارجاع می‌دهد و نحوه‌ی ارجاع دادن آن‌ها درست نیست؛ فرضاً تصور می‌کنند اگر ۳ پاراگراف را پشت سر هم بیاورند و ارجاع دهند دیگر سرقت علمی به‌حساب نمی‌آید؛ یعنی قصد دارد ارجاع دهد، اما نمی‌داند چگونه ارجاع دهد. برخی اوقات فرایند ارجاع دادن در زبان فارسی بسیار وقت‌گیر است و این مورد را متخصصان این حوزه در حال حاضر می‌دانند، مصداق سرقت علمی نیز خوب تبیین نشده است. حال ما از جنبه‌ی نرم‌افزاری چه باید کنیم که فرایند ارجاع تسهیل شود؟ ارجاع از نظر من یکی از عوامل مهم در بحث سرقت علمی است، شیوه‌های ارجاع در پایان‌نامه، رساله و مقاله به‌خوبی تبیین نشده است. شیوه‌نامه‌ی نوشتن پایان‌نامه را ارائه می‌دهند، اما شیوه‌نامه‌ی ارجاع را ارائه نمی‌کنند، از استانداردهای آن گفته نمی‌شود. ابعاد استانداردهای ارجاع‌دهی بسیار متنوع است. قدم اول این است که باید یک شیوه‌نامه و یک استانداردی برای ارجاع دادن داشته باشیم. قدم بعدی این است که شیوه‌نامه‌های ارجاع باید قالب‌های ماشینی به خود بگیرند. نرم‌افزارها و وب‌سایت‌ها پابلیشر باید از این نرم‌افزارها تبعیت کنند. هر زمانی که خدمتی را سخت ارائه دهید حتماً روی‌گردان می‌شود، این یک فاجعه برای حوزه‌ی علمی ما است. هنگامی که ارجاع در زبان فارسی سخت شود، رجوع به زبان انگلیسی می‌شود، ارجاعات در زبان فارسی کم می‌شود، تولیدات علمی که روی هم چیده شوند، خودبه‌خود دچار مخاطره می‌شوند.

پس پیچیده بودن فرایند ارجاع و پشتیبانی نکردن از استانداردها خودبه‌خود باعث کاهش ارجاع دادن دانشمندان زبان فارسی به یکدیگر نیز خواهد شد. پس از اینکه از این استانداردها تبعیت کردند، ناشران باید بتوانند در ذخیره‌شناسی کتاب‌ها اشاعه دهند و بتوانند از طریق سایت یک ناشر به‌راحتی اطلاعات کتاب‌شناختی یک مقاله یا پایان‌نامه را از آن استخراج کنند و نرم‌افزارها نیز از آن پشتیبانی کنند. قدم بعدی این است که نرم‌افزارها با این وب‌سایت‌ها همخوان باشند.

تسهیل فرایند ارجاع؛ آموزش و پیشگیری

عضو هیئت علمی پژوهشگاه فناوری اطلاعات در خاتمه اظهار داشت: پس نقش‌هایی که باید در این فضا مشارکت کند چه کسانی هستند؟ از یک طرف ما یک لایه‌ی سطح بالا داریم که استاندارد است؛ یعنی یک ارگان بالاسری که متولی تعریف استاندارد است مانند پژوهشگاه ایران داک و ... این موارد باید متولی استانداردهای ارجاع یا شیوه‌های ارجاع باشند. در قدم بعدی ناشران باید متضمن این باشند که این استانداردها را رعایت کنند، کمااینکه به نفع خودشان نیز خواهد بود. نقش سوم نقش شرکت‌ها یا سازمان‌هایی است که نرم‌افزارهای مدیریت ارجاع را تولید می‌کنند که بتوانند از این وب‌سایت‌ها پشتیبانی کنند، کمااینکه این نرم‌افزارها به‌طور مستقیم و بدون آنکه شما وارد سایت آن ناشر شوید داخل آن نرم‌افزارها بتوانید جست‌وجو کنید. نکته‌ی مهم دیگر دانشگاه‌ها و پژوهشگرها هستند، آن‌ها باید فرایندهای ارجاع را اجبار و تسهیل کنند. دسترسی به درگاه‌های یگانه هم می‌تواند کمک کند. نرم‌افزارها باید قابلیت این را داشته باشند که از استایل‌های متفاوت پایان‌نامه‌ها و ... پشتیبانی کنند.

در انتها من آموزش و پیشگیری را توصیه می‌کنم. احساس من این است که تسهیل فرایند ارجاع به نوعی از اتفاق سرقت علمی جلوگیری می‌کند. فرهنگ‌سازی و آموزش را نیز یک پایه‌ی مهم می‌دانم که خود نوعی پیشگیری است. بافت دانشجویی و تشویق دانشجویان و پژوهشگران به اینکه این قوانین را رعایت کنند نیز می‌تواند مؤثر باشد.

ایراد نرم‌افزار خارجی؛ عدم دسترسی به منابع داخلی

مهندس امیر پارسی در ابتدای صحبت‌های خود بیان داشت: بحث من در مورد نرم‌افزارهایی است که قصد دارند این تشابه را کشف کنند. در تعریف سرقت علمی و ادبی چیزی نمی‌گویم، اما تشابه‌یابی به فرایند کشف و نمایش بخش‌های سرقت‌شده یا بخش‌های مشابه یک کار اطلاق می‌شود. برای تشخیص تشابه‌یابی تشابهاتی که در متن است ۲ روش شناخته‌شده وجود دارد؛ یکی متن است که این متون را با متون مرجع مقایسه کنیم، روش دیگر، نگاه به خود متن است؛ فرضاً یک پاراگراف آن با متن نمی‌خواند، متوجه می‌شوید که این متن تدوین نیست، بلکه ترجمه است. در روش‌های تشابه‌یابی در متن با روش مقایسه‌ای ۳ تکنیک می‌توان داشت، یکی تکنیک کپی دقیق است، یکی کپی کردن کل متن یا یک کتاب است و دیگری بازنویسی است؛ فرضاً جمله‌ی دیگری به کار می‌برد، یا کلمات را تغییر می‌دهد و یا کلمات معادل به کار می‌برد.

دیگر مورد ترجمه است؛ اما منابع مرجعی که می‌تواند در اختیار ما باشد که این متون را مقایسه کنیم، یک‌سری پایگاه اطلاعاتی هستند، یک منابعی داخلی‌اند مانند اینترنت که منابعی باز هستند و یک‌سری پایگاه‌های اطلاعاتی که باید اجازه بگیریم تا استفاده کنیم. مزایای نرم‌افزارهای تشابه‌یاب چیست؟ فرنگی‌ها خیلی زود وارد این میدان شدند، یکی مانند ترمیتینگ، سرعت و دقت و سرویس‌دهی خوبی دارد. همچنین این نرم‌افزارها به منابع خارجی دسترسی دارند؛ فرض کنید این نرم‌افزار ترمیتینگ به مقاله‌های خارجی دسترسی دارد. برخی مواردی که می‌خواهیم دانلود کنیم، می‌گوید این در کشور شما در دسترس نیست، اما یک‌سری ایرادات اساسی به نرم‌افزارهای خارجی وارد است، یکی عدم دسترسی به منابع داخلی است، آن‌ها به ما دسترسی ندارند و ما نیز نمی‌توانیم به آن‌ها دسترسی بدهیم. مطلب دیگر نادیده گرفتن ویژگی‌های زبان فارسی است. آن‌قدر که دوستان ما در کشور به ویژگی‌های زبان فارسی مسلط هستند، مسلماً آن‌ها نیستند. مطلب خیلی مهم عدم اطمینان ما به آن‌ها در سرقت مطالب و ایده‌های نو است. سرقت ایده یک مسئله است و ما نمی‌توانیم ایده‌ی نو را آنجا بفرستیم برای آنکه ثابت کنیم این مورد کپی نشده است. همچنین در مورد طرح‌های پژوهشی هم این‌گونه است، عدم اطمینان آن‌ها به دلیل شرکت در تحریم‌ها علیه ایران است.

تشابه‌یابی در متن به روش تشابه دقیق

مهندس امیر پارسی در ادامه توضیح داد: در این حوزه‌ها نیازها روزبه‌روز افزایش پیدا می‌کند؛ فرضاً تصور کنید که حتی در سطح مدارس و دانشگاه می‌توان از این موارد استفاده کنیم. آنچه معایب سیستم‌های خارجی محسوب می‌شود محاسن نرم‌افزارهای داخلی محسوب می‌شود. در مورد معایب نرم‌افزارهای داخلی، به‌طور جدی راه‌اندازی نشده‌اند. گاهی می‌شنوید که در فلان جا تشابه‌یاب راه‌اندازی شد، اما در کشور از تشابه‌یاب جدی برخوردار نیستیم، ضمن اینکه از بلوغ کافی هم در ویژگی‌های کارکردی هم در سرعت و دقت نیز برخوردار نیستند. برای دسترسی به منابع خارجی هم با مشکل مواجه هستند. برخی از سرویس‌ها خارجی به روی ما بسته است، حتی اگر پول بدهیم.

بحث دیگر، فیلترینگ است، همچنین با کمبود منابع مالی و غیره نیز روبه‌رو هستیم. بحث دیگر، تولید نرم‌افزار در داخل کشور است که همه‌ی نرم‌افزارهایی که با این مشکلات مواجه هستند -محدودیت‌هایی که هم گروه خارجی و هم گروه داخلی با آن مواجه هستند-. منابع داخلی ما سامان‌یافته نیست و ما پایگاهی که کل پایان‌نامه‌ها متنش داخل آن باشد یا مقالات داخل آن باشد را نداریم. این پایگاه‌هایی که از مقالات در کشور هستند پی‌دی‌اف است و نمی‌توانید آن را تبدیل به متن کنید تا بتوانید در آن مقایسه انجام دهید. بخشی از منابع نیز به‌صورت اسکن هستند مانند پایان‌نامه‌هایی که ما در اینجا داریم. در اسکن امکان جست‌وجو نیست، دستگاه‌های فارسی هم تشخیص نمی‌دهند وگرنه آن‌ها را تبدیل می‌کردیم. در متن‌های فرنگی می‌توان با درصد خطای خیلی کم این متن‌ها را تبدیل کرد، اما در فارسی مشکل است. اما کاری که در ایران داک انجام شده است، تشابه‌یابی در متن را به روش تشابه دقیق انجام داده‌ایم.

در منابع اینترنتی ما را بلاک می‌کنند

مهندس امیر پارسی در انتها اذعان داشت: از چه منابعی استفاده کردیم؟ از اینترنت و پایگاه داخلی خود اینترنت استفاده کردیم. این امکان که از پایگاه‌های اطلاعاتی که در سراسر کشور هست، استفاده شود را داریم. این سیستم روی شبکه‌ی وب نصب شده است و در حال حاضر قابل دستیا‎بی برای همه است. ما اعلام عمومی نکردیم، قصد داشتیم تست کنیم. این نرم‌افزار یک‌سری محدودیت دارد و ما به‌زودی متن تمام پایان‌نامه‌هایی در اختیار داریم که تعداد آن کم نیست و حجم قابل توجهی از پایان‌نامه‌ها متن دارد، این متن‌ها را به‌عنوان مرجعی که می‌توانند مقایسه کنند را به پایگاه خود اضافه خواهیم کرد. همچنین یک‌سری مقالات و منابع خارجی را هم به این مجموعه اضافه می‌کنیم که این کار به‌زودی اتفاق می‌افتد. در اینترنت دسترسی ما به موتورهای جست‌وجو به حدی است که اگر ۲ ساعت شروع کردیم به سرچ کردن در منابع مختلف، جلوی ما را می‌گیرند که شما چه کسی هستید که پول ندادید. همچنین در منابع اینترنتی ما را بلاک می‌کنند، اما می‌توانیم پرداخت کنیم و این سرویس‌ها را بخریم. آنچه که باید در کوتاه‌مدت انجام شود افزودن متن پایان‌نامه و عقد قرارداد با پایگاه خارجی برای استفاده از این‌هاست. اگر پول به آن‌ها بدهیم به ما اجازه‌ی دسترسی می‌دهند. استفاده از اصطلاح‌نامه‌های طراحی‌شده در ایران داک در الگوریتم‌های بازنویسی است و توسعه‌ی منابع به شکل رایگان و غیر آن و در بلندمدت، حرکت به سمت زمینه‌هایی که عرض کردم.

سرقت علمی؛ یکی از سوءرفتارهای پژوهشی

دکتر مهدی بهنیافر در ابتدای سخنرانی خود گفت: سرقت علمی را به‌عنوان یکی از سوءرفتارهای پژوهشی مدنظر قرار می‌دهم، چون سرقت علمی یکی از اقسام سوءرفتارهای پژوهشی است که ما با آن مواجه هستیم. ما در حال حاضر در حال مقابله‌ی نرم‌افزاری با یکی از اقسام سوءرفتارهای پژوهشی هستیم. بحثی که امروز مطرح می‌کنم در میان عوامل مختلف سرقت علمی است که صرفاً یکی به بحث مشابهت‌یاب‌ها و یکی به بحث ابزارهای اضطراری که این دو را ذیل مقوله‌ی فقر استنادی نام‌گذاری کرده‌ام. نکته‌ی مهم دیگر اینکه بحث امروز ما به علوم و دانش‌های زبان‌محور نزدیک‌تر است و خیلی اوقات بحث در باب علوم انسانی را می‌توانیم از جنبه‌ای یا از جهتی به بحث در مورد دانش‌های زبان‌محور فرو بکاهیم. در مقایسه با رشته‌هایی مثل طب و فنی و مهندسی و علوم پایه، در حوزه‌ی علوم انسانی نقش زبان، نقش برجسته‌تری است. بحث امروز بیشتر مربوط به ایران و تولیدات فارسی و عربی است که نسبت به مباحثی که مربوط به مباحث زبان‌های از راست به چپ باشد، معطوف است. اولویت با زبان فارسی و پس از آن با زبان عربی است. البته برخی از مباحثی که می‌گویم نگاهی کلان و بالادستی دارد. بین مشابهت‌یابی و تقلب فرق گذاشته‌ام؛ چراکه نکته آن است که ما هر مشابهتی که در متن واقع می‌شود را نمی‌توانیم عنوان تقلب به آن دهیم به‌خصوص در ابزارهایی که گاهی دیده می‌شود. خیلی از اوقات نقش کوتیشن‌ها و نقش گیومه‌ها در ابزارها نادیده گرفته می‌شود.

پژوهیار یک ابزار استنادی فارسی

مهدی بهنیافر اظهار کرد: ابزارهای بومی استناددهی وجود واقعی و مؤثر ندارند. من با مهندس جلالی‌منش هم موافق هستم. ابزار استنادی بومی ابزاری است که کارایی آسان داشته باشد، رابط کاربری فهم‌پذیر داشته باشد، فهم‌پذیری به این معنا که رابط کاربری طوری تنظیم شده باشد که مشخص شود یکی از اجزای فهم‌پذیری است. ابزار استنادی بومی ابزاری است که کلید استناددهی به اقلام اطلاعاتی بومی را داشته باشیم. وقتی بحث استناد پیش می‌آید فوری معطوف به کتاب مقاله و پایان‌نامه می‌شویم؛ فرض کنید بخواهید بین مقاله‌های ژورنال با مقاله‌های روزنامه‌ای و دیگر اقسام مقالات ارتباطی برقرار کنید، مقالات در یک تعریف کلی هر چیزی که واجب حق مؤلف باشد، باید استناد به آن صورت گیرد، هنگامی که از آن بهره‌برداری می‌شود و در هنگام نگارش یک مقاله یا پایان‌نامه یا یک اثر مهم. از ابزار استناددهی بومی توقع داریم زبان راست به چپ را پشتیبانی کند. البته شیوه‌نامه استناد بومی را با مشخصاتی که بعداً معرفی می‌کنم پشتیبانی می‌کند. بله پژوهیار گامی در این راه است که به‌عنوان یک ابزار استنادی فارسی تولید شده و در مرکز قرار گرفته است و نهایتاً ابزاری است که رویکرد ایجابی و نه سلبی دارد، همچنین جزء ابزارهای مقام پژوهش و نه ابزارهای مقام کشف سرقت یا کشف مشابهت است.

با داشتن این ابزار فارسی که از آن صحبت می‌کنیم ما با ۲ دسته از مشکلات مواجه هستیم، دسته‌ی اول مشکلاتی که در فضای کاربری و انسانی در حال رخ دادن است. پژوهشیار به هر نرم‌افزار استنادی که امروز در سال ۹۳ روی میز باشد و روی میز کاربران باشد از کمبودهای ۲ حوزه رنج می‌برد، یکی حوزه‌ی دانش کاربران و دیگری حوزه‌ی مهارت کاربران. در حوزه‌ی دانش کاربران بحث من معطوف به حوزه‌ی علوم انسانی است. ما در حوزه‌ی علوم انسانی دانش استنادی پایینی داریم، سواد استنادی ما سواد پایینی است و اینکه چه ضرورت اخلاقی و علمی وجود دارد که باید دست به استناددهی بزنیم، بسیار پایین است، وقتی این دانش پایین باشد عنصر دوم هم در پی آن می‌آید. دانشوران ایرانی علوم انسانی در مقام تولید علم با کیفیات و نه کمیات سنجش‌پذیر سروکار دارند، با برهان به معنای ریاضی کلمه کمتر سروکار دارند. البته عالمان علوم انسانی بیش از دیگر رشته‌ها با منابع پژوهشی و چندزبانه سروکار دارند. دانشوران این عرصه بهره‌گیری از امکانات وب را کمتر می‌شناسند و نرم‌افزارهای پردازش متن را کمتر به خدمت می‌گیرند.

بانک فراداده‌ای قابل اتکا و استانداردی نداریم

مهدی بهنیافر در ادامه خاطرنشان کرد: دانشوران علوم انسانی در مواجهه با تولید علمی دیگران گاهی به استناددهی ناخواسته اهمیت کمتری می‌دهند و گاهی به شکل اندیشیدن مدلل برای سرقت علمی مصادیق چندانی قائل نیستند. حضور این نگرش را گاهی در لایه‌های فقهی قدیمی در میان قدمای مشهور گذشته می‌بینیم. یک رساله‌ای در حدود ۴۰ صفحه عیناً کپی از رساله‌ی دیگری است و نه آنکه قصد داشته دست به سرقت بزند، بلکه در حقیقت مشخص می‌شود که او نیازی نمی‌دیده است که دست به چنین استنادی بزند. نگرش دیگری نیز در برخی از لایه‌های تفکر پست‌مدرن وجود دارد که گاهی این نگرش را می‌توان رهگیری کرد. یک دسته از مطالب این بود که به مسائل انسانی بازمی‌گشت.

نکته‌ی دیگر، پژوهیار یا هر ابزار استناددهی دیگری در زمینه‌ی پژوهشی که ما امروز در حوزه‌ی زبان فارسی داریم از برخی کمبودهای زیرساختی رنج می‌برد. ما بانک فراداده‌ای قابل اتکا و استانداردی نداریم، بانک فراداده‌ای که توسط یک نرم‌افزار استنادی قابل واکشی باشد، نداریم. همچنین پس از آنکه دیتا را واکشی کردیم دچار خطا و مشکل با آن نباشیم، به جرئت می‌توان گفت چنین بانکی نداریم. نکته این است که نرم‌افزارهای استنادی مرسوم است و پژوهیار هم این قابلیت را دارد که می‌تواند از متون و منابع و مقالات پایگاه‌های اطلاعاتی استفاده کند، اما باید از یک استاندارد تبعیت کند. تعداد پایگاه‌های علمی که استاندارد باشد به زبان فارسی محدودند؛ یعنی پایگاه علمی تمام متن به زبان فارسی داریم، اما گاهی این موارد استاندارد نیستند. نکته‌ی بعدی فقدان شیوه‌نامه‌های استاندارد و بومی، تخصصی است، البته بومی یک مسئله و تخصصی نیز مسئله دیگری است.

کاستی‌های حوزه‌ی انسانی، قضایی و واکاوی اطلاعاتی

بهنیافر گفت: شیوه‌نامه‌های بومی استنادی نیز شیوه‌ی مؤثر و توزیع‌شده در دسترس و قابل اتکایی ندارند. دکتر علیدوستی گام نخست را در این زمینه برداشته‌اند و ما نیز قصد داریم آن را در پژوهیار استفاده کنیم، اما این گام باید توسعه پیدا کند و تبدیل به شیوه‌نامه‌های تخصصی علوم مختلف تبدیل شود. شیوه‌نامه‌ی استنادی بومی که از آن استفاده می‌کنیم شیوه‌نامه‌ای است که افزون بر شیوه‌نامه‌های استنادی مشخص‌شده که مقتضیات زبان‌های راست به چپ را پشتیبانی کند، کلیدواژه‌های فارسی در آن قرار داده شده باشد. شیوه‌نامه‌ی استنادی بومی در معنای عمیق‌تر این است که بتواند تخصصی علوم مختلف باشد -هر دانشی اقلام اختصاصی خاص خود را دارد که باید در این بخش گنجانیده شود-. با داشتن چنین شیوه‌نامه‌ای می‌توانیم از تولید علم بومی استفاده کنیم. کمبود انسانی پیرامون ابزارهای استنادی شامل دانش پایه و مهارتی و کمبودهای زیرساختی منجر می‌شود به آنکه راهکارهای ماشینی و راهکارهای نرم‌افزاری برای مقابله با ثروت ملی به‌خصوص در زبان فارسی عقیم هستند و نمی‌توانند ثمره‌ی چندانی بار آورند.

مسائلی که مطرح شد، در مورد نرم‌افزار مشابهت‌یاب نیز می‌توان مطرح کرد. ادعای این نرم‌افزار بر پایه مشابهت است نه آنکه بخواهد ادعایی در مورد خروجی آن داشته باشد. ۳ دسته کاستی‌ها بر سر راه این نرم‌افزار مشابهت‌یاب یا هر نرم‌افزار مشابهت‌یاب دیگری وجود دارد؛ کاستی‌های حوزه‌ی انسانی و قضایی و واکاویی اطلاعاتی است. یکی از کاستی‌های حوزه‌ی علوم انسانی این است که فهم عمومی از نرم‌افزارهای مشابهت‌یاب این است که به کار اساتید می‌آید. نرم‌افزار مشابهت‌یاب یک کارکرد ایجابی نیز دارد که برای جست‌وجوی خود پژوهشگر در انواع مطالب مفید است. ممکن است من پژوهشگر در جایی فراموش کنم که به چه چیزی باید استناد کنم، از طریق این نرم‌افزار می‌توانم مطلب را پیدا کنم. به مرور زمان سوءرفتارهای پژوهشی با سوءرفتارهای الگوریتمی افزایش پیدا می‌کنند و شاید بتوان این ارتقا را در خود به کار برد. قوانین ما در موضوع سرقت ادبی و علمی اگرچه وجود دارند، اما برای مقتضیات ماشینی نوشته نشده‌اند؛ یعنی جدای از این ماجرا تفکیکی هم میان اقلام مختلف سوءرفتارهای اجتماعی در آن قوانین دیده نشده است.

پورتال با وب‌سایت متفاوت است

مهدی بهنیافر در انتها توضیح داد: ما با منظومه‌ای از نیازها برای مواجهه‌ی ماشینی و نرم‌افزاری با فرایند سرقت علمی مواجه هستیم. ما داده‌های بین‌زبانی نداریم. زبانی که از مشابهت‌یاب صحبت می‌کنیم، مشابهت‌یاب را گاهی در زبانی و گاهی بین‌زبانی مطرح می‌کنیم. برای آنکه مشابهت‌یابی بین‌زبانی صورت بگیرد ما باید بتوانیم داده‌های دوزبانی و موازی و پیکرهای مناسبی برای این کار داشته باشیم.

دسترسی به‌عنوان یک ارزش باید ترویج شود. دسترس‌پذیر شدن متون و منابع علمی یک ارزش است و این دسترس پذیری الزاماً به معنای به خطر افتادن مالکیت فردی یا سازمانی نیست. همچنین استناد هم باید به‌عنوان یک ارزش باشد. ما باید رویکردهای پورتالی را در تعاملات بین‌‌سازمانی گسترش بدهیم. واقعیت این است که هر زمان که می‌خواهیم اعلام کنیم وب‌سایتی پیشرفته است به آن پورتال می‌گویند. شما می‌دانید که پورتال با یک وب‌سایت متفاوت است. اگر گشودگی سازمانی در برابر سرویس‌های پورتالی ایجاد شود و اگر متوجه باشیم که رفتار پورتالی به‌منزله‌ی مغز مالکیت نیست و به‌منزله‌ی این نیست که قرار است تمام دیتا را به سمت خود کشف کنیم. اگر این دو را در نظر بگیریم، رفتار پورتالی میان سازمان‌ها قدری تسهیل می‌شود. همچنین جست‌وجوی اطلاعات هم الزاماً به معنای نمایش تفضیلی آن نیست، این مطلب بدیهی است، اما ما باید این نکات را در جلسات سیاست‌گذارانه‌ی خود بیاوریم. همچنین بتوانیم سرویس‌های مبتنی بر پورتال را از طریق مشابهت‌یاب جزئی منابع چندگانه اما با مالکیت متعدد توسعه دهیم.