نویسنده: محمدرضا باباگلی
ايميل: MohammadRezaBabagoli.AI@gmail.com
دانشجوی ارشد هوش‌ مصنوعی دانشگاه فردوسی مشهد
آزمایشگاه شناسایی الگو دکتر هادی صدوقی یزدی

تشخیص سرقت ادبی - Plagiarism Detection

مقدمه

سرقت ادبی چیست؟ سرقت ادبی یا Plagiarism یکی از انواع نقض مالکیت فکری است که به معنای استفاده از آثار دیگران، شامل آثار ادبی، هنری و علمی، بدون اشاره به منبع اصلی است. سرقت ادبی می‌تواند نقض حق نشر (کپی رایت) محسوب شود و به عنوان سرقت آثار و نقض حقوق مولف اثر شناخته شود. سرقت ادبی به انگلیسی ، پلاجریسم (Plagiarism) نامیده می‌شود. در حقیقت، سرقت ادبی یک نوع تخلف اخلاقی در حوزه علم و پژوهش است که اعتبار نویسنده و پژوهشگر را تحت تاثیر قرار می‌دهد و می‌تواند عواقب قانونی و حرفه‌ای سنگینی به همراه داشته باشد. این پدیده نه تنها در آثار علمی و دانشگاهی، بلکه در تمام زمینه‌های خلاقانه از جمله ادبیات، هنر، و حتی محتوای دیجیتال نیز قابل مشاهده است.

تشخیص سرقت ادبی (Plagiarism Detection) Plagiarism detection یا «تشخیص سرقت ادبی» به مجموعه‌ای از روش‌ها و سیستم‌ها گفته می‌شود که برای شناسایی شباهت غیرمجاز بین یک متن و منابع دیگر به کار می‌روند. هدف آن تشخیص این است که آیا بخشی از یک متن، به‌طور مستقیم یا غیرمستقیم، از آثار دیگران بدون ارجاع مناسب استفاده شده است یا نه.

انواع سرقت ادبی

۱. سرقت ادبی مستقیم (Direct / Verbatim Plagiarism) در این نوع، نویسنده بخش‌هایی از متن را کلمه به کلمه از منبع دیگری کپی می‌کند بدون اینکه از نقل‌قول (“quotation marks”) یا ارجاع مناسب استفاده کند. این شکل از سرقت ادبی ساده‌ترین و آشکارترین نوع است.

۲. سرقت ادبی کامل (Global / Complete Plagiarism) کل یک متن، مقاله یا اثر را از منبع دیگر بدون هیچ تغییری و بدون دادن اعتبار به صاحب اصلی ارائه می‌دهد. این نوع در بسیاری از ساختارهای دانشگاهی شدیدترین تخلف محسوب می‌شود.

۳. سرقت ادبی موزاییکی (Mosaic / Patchwork Plagiarism) ترکیبی از بخش‌های مختلف منابع متفاوت را برداشته و آن‌ها را با تغییرات کوچک (مثلاً جایگزینی چند واژه) کنار هم می‌گذارد، اما باز هم منبع داده نمی‌شود. در حقیقت متن جدید از قطعات دیگران تشکیل شده اما به‌طور مصنوعی به نظر می‌رسد.

۴. بازنویسی سرقتی (Paraphrasing Plagiarism) فرد ایده یا محتوای منبع دیگری را با تغییر ساختار یا واژگان بازنویسی می‌کند اما به منبع اصلی اشاره نمی‌کند. تفاوت آن با سرقت مستقیم این است که جملات کپی نمی‌شوند، اما مفهوم بدون ارجاع منتقل می‌شود.

۵. خودسرقت ادبی (Self-Plagiarism) نویسنده از آثار قبلی خودش استفاده می‌کند و آن را به‌عنوان کار جدید ارائه می‌دهد بدون اینکه بگوید این محتوا قبلاً منتشر شده است. این نوع در پژوهش و انتشار علمی نیز به‌عنوان تخلف شناخته می‌شود.

۶. سرقت ادبی ناخواسته (Accidental Plagiarism) به‌دلیل بی‌دقتی، عدم آگاهی از روش صحیح ارجاع‌دهی یا سوء‌تفاهم در نحوۀ بازنویسی، فرد به‌طور ناخواسته منابع را به‌درستی ذکر نمی‌کند یا مفهوم منبع را خیلی نزدیک به متن اصلی می‌نویسد. حتی اگر قصد اخلاقی نداشته باشد، باز هم می‌تواند تخلف محسوب شود

۷. سرقت ادبی مبتنی بر منبع (Source-Based Plagiarism / Misleading Attribution) ارجاع به منبع اشتباه، ارائه منبعی که وجود ندارد، یا ارجاع به ثانویه بدون ذکر منبع اصلی زمانی رخ می‌دهد که نویسنده به شکلی گمراه‌کننده منابع را معرفی کند

روش‌های تشخیص سرقت ادبی

روش‌های تشخیص سرقت ادبی (plagiarism detection) در ادبیات کامپیوتر و مهندسی نرم‌افزار به چند دسته اصلی تقسیم می‌شود که هر یک بر پایهٔ ویژگی‌های متفاوت متن و الگوریتم‌های مختلف عمل می‌کنند. این روش‌ها معمولاً در ابزارهای تجاری و پژوهشی به‌صورت ترکیبی به کار می‌روند تا حالات گوناگون سرقت (کپی مستقیم، پارافرایز، ترجمه و غیره) را شناسایی کنند.

۱) روش‌های تطبیق رشته‌ای (String Matching / Exact Matching) در این روش متن به رشته‌ها یا بخش‌های کوتاه تقسیم می‌شود و سپس این رشته‌ها در مجموعهٔ منابع جستجو می‌شوند. اگر بخش‌های طولانی از متن مشابه منابع دیگر باشند، احتمال سرقت ادبی بالاست. این روش برای تشخیص کپی مستقیم مناسب است اما در برابر بازنویسی یا تغییرات واژگانی آسیب‌پذیر است.

۲) روش‌های n-گرم و اثرانگشت (n-gram و Fingerprinting) متن به توالی‌های k‌تایی از کاراکترها یا کلمات تقسیم می‌شود (n-گرم) و سپس این توالی‌ها به امضاهای عددی (hash) تبدیل می‌شوند. مقایسهٔ این امضاها بین دو سند میزان شباهت را نشان می‌دهد و به کارایی بالا در مقایسه با پایگاه داده‌های بزرگ کمک می‌کند. Jaccard similarity یکی از معیارهای رایج برای سنجش همپوشانی این امضاهاست.

۳) روش‌های معنایی و مبتنی بر NLP (Semantic / NLP-based) این روش‌ها تلاش می‌کنند معنای واقعی جملات را استخراج کنند و نه فقط شباهت لفظی. با استفاده از تکنیک‌هایی مثل word embedding (مثلاً Word2Vec یا BERT)، بردارهایی از مفاهیم جملات ساخته می‌شود و شباهت معنایی آن‌ها اندازه‌گیری می‌شود. این نوع روش برای تشخیص پارافرایزهای پیچیده و بازنویسی‌ها کاربرد دارد.

۴) تحلیل نحو و رشته‌واره‌ها (Syntactic / Grammar-based) در این رویکرد ساختار دستوری متن بررسی می‌شود (مثلاً با تگ‌گذاری نقش دستوری یا تحلیل درختی). سپس شباهت‌های نحوی بین جملات یا بخش‌های متن محاسبه می‌شود که می‌تواند بازنویسی با تغییر ساختار را هم تا حدی شناسایی کند.

۵) روش‌های آماری و برداری (Vector-based / Statistical) در این روش‌ها متن به بردارهای عددی تبدیل می‌شود (مثلاً TF-IDF) و سپس بردارها با معیارهایی مثل کسینوس شباهت مقایسه می‌شوند. این روش‌ها در ابزارهای ساده برای سنجش میزان شباهت کلی متن استفاده می‌شوند و سرعت بالایی دارند.

۶) روش‌های درون‌متنی و بدون استفاده از مرجع (Intrinsic Detection) این دسته زمانی به کار می‌رود که مرجع خارجی وجود ندارد یا در دسترس نیست. الگوریتم‌ها تغییرات سبک نوشتار یا عدم همگونی را در یک سند تحلیل می‌کنند تا بخش‌هایی را که به سبک کلی نویسنده نمی‌خورند پیدا کنند. این روش می‌تواند نشان‌دهندهٔ سرقت ناخواسته باشد.

۷) روش‌های مبتنی بر سبک نگارش (Stylometry / Authorship Attribution) این روش‌ها ویژگی‌های آماری سبک نوشتار (مثلاً توزیع طول جملات، فراوانی واژگان، الگوهای نگارشی) را تحلیل می‌کنند تا مشخص کنند آیا بخش‌های مختلف یک متن به یک نویسنده تعلق دارند یا خیر. این می‌تواند در تشخیص سرقت ادبی پیچیده یا بررسی مشارکت چند نویسنده مفید باشد.

۸) روش‌های ترکیبی و یادگیری ماشین (Machine Learning / Hybrid Methods) روش‌های جدید از یادگیری ماشین، شبکه‌های عصبی عمیق، یا مدل‌های پیش‌آموزش‌دیده (مثلاً LSTM و transformerها) استفاده می‌کنند تا هم شباهت سطحی و هم معنایی را همزمان بررسی کنند. این دسته در مواجهه با متون بازنویسی‌شده، تغییرات ساختاری و حتی ترجمه‌ها کارایی بهتری از روش‌های سنتی دارد.

ابزارهای تجاری و پژوهشی معمولاً چند تا از این روش‌ها را با هم ترکیب می‌کنند تا هم سرعت و هم دقت را افزایش دهند و انواع مختلف سرقت ادبی را شناسایی کنند.

شناسایی نویسنده (Authorship Attribution)

۱. ویژگی‌های سبک‌سنجی (Stylometric Features)

ویژگی‌های سبک‌سنجی ابزارهایی هستند که برای کمی‌سازی سبک نوشتاری استفاده می‌شوند. این ویژگی‌ها به دسته‌های مختلفی تقسیم می‌شوند:

۱.۱ ویژگی‌های واژگانی (Lexical Features)

الف) ویژگی‌های مبتنی بر توکن

ساده‌ترین روش برای بررسی متن، در نظر گرفتن آن به عنوان دنباله‌ای از توکن‌ها (کلمات، اعداد، علائم نگارشی) است. ویژگی‌های پایه شامل:

طول جمله: تعداد کلمات در هر جمله
طول کلمه: تعداد حروف در هر کلمه
توزیع علائم نگارشی: فراوانی استفاده از ویرگول، نقطه، علامت سوال و غیره

ب) توابع غنای واژگانی

این توابع تلاش می‌کنند تنوع واژگان یک متن را کمی کنند:

نسبت نوع به نمونه (Type-Token Ratio):

TTR = V/N

که در آن:

V = تعداد کلمات یکتا (منحصر به فرد)
N = تعداد کل کلمات متن

مشکل: این نسبت به شدت به طول متن وابسته است و با افزایش طول متن، مقدار آن کاهش می‌یابد.

تابع K یول (Yule’s K):

K = 10^4 × (Σ(i² × Vi) - N) / N²

که در آن:

Vi = تعداد کلماتی که دقیقاً i بار تکرار شده‌اند
N = تعداد کل کلمات

تابع R هونور (Honore’s R):

R = 100 × log(N) / (1 - V1/V)

که در آن:

V1 = تعداد کلماتی که فقط یک بار ظاهر شده‌اند (hapax legomena)

این توابع تلاش می‌کنند تا پایداری بیشتری نسبت به طول متن داشته باشند، اما هنوز به طور کامل قابل اعتماد نیستند.

ج) فراوانی کلمات

رایج‌ترین روش نمایش متن، استفاده از بردار فراوانی کلمات است. تفاوت مهم در تشخیص نویسندگی نسبت به طبقه‌بندی موضوعی:

کلمات تابعی (Function Words) مانند “و”، “از”، “به” بهترین ویژگی‌ها برای تمایز بین نویسندگان هستند، چرا که:

به طور ناخودآگاه استفاده می‌شوند
مستقل از موضوع هستند
الگوهای سبکی خالص را نشان می‌دهند

مثال‌هایی از مجموعه‌های کلمات تابعی:

150 کلمه (Abbasi و Chen، 2005)
303 کلمه (Argamon و همکاران، 2003)
675 کلمه (Argamon و همکاران، 2007)

روش انتخاب: استخراج n کلمه پرتکرار متن (معمولاً 100 تا 1000 کلمه)

د) n-گرام‌های کلمه‌ای

برای در نظر گرفتن اطلاعات زمینه‌ای، n کلمه متوالی به عنوان ویژگی استفاده می‌شود:

مثال: عبارت “take on a new challenge”

بای‌گرام‌ها: “take on”، “on a”، “a new”، “new challenge”
تری‌گرام‌ها: “take on a”، “on a new”، “a new challenge”

محدودیت‌ها:

افزایش شدید ابعاد مسئله
پراکندگی بالای داده‌ها
احتمال گرفتن اطلاعات موضوعی به جای سبکی

۱.۲ ویژگی‌های کاراکتری (Character Features)

در این روش، متن به عنوان دنباله‌ای از کاراکترها در نظر گرفته می‌شود.

الف) ویژگی‌های ساده

تعداد حروف الفبا
تعداد ارقام
تعداد حروف بزرگ و کوچک
فراوانی هر حرف
تعداد علائم نگارشی

ب) n-گرام‌های کاراکتری

تعریف: n کاراکتر متوالی

مثال: برای عبارت “A more elaborate”

4-گرام‌ها:

A_mo

_mor

ore_

re_e

e_el

(علامت

نشان‌دهنده مرز n-گرام و _ نشان‌دهنده فاصله است)

مزایا:

سادگی محاسباتی: نیاز به ابزار پیش‌پردازش ندارد
مقاومت در برابر نویز: اشتباهات املایی تأثیر کمی دارد
مستقل از زبان: برای زبان‌های مختلف قابل استفاده
جامعیت: اطلاعات واژگانی، زمینه‌ای و نگارشی را می‌گیرد

مثال مقاومت در برابر نویز: کلمه “simplistic” و “simpilstc” (غلط) تری‌گرام‌های مشترک زیادی دارند:

مشترک:

sim

imp

mpi

pil

ils

lst

متفاوت: stc (در کلمه غلط) و sti ، tic (در کلمه صحیح)

انتخاب n:

n کوچک (2-3): اطلاعات زیرکلمه‌ای (هجا مانند)
n بزرگ (4-5): اطلاعات کلمه‌ای و زمینه‌ای بهتر، اما ابعاد بیشتر
n متغیر: ترکیب مزایای هر دو

n-گرام‌های متغیر: استفاده از تمام n-گرام‌ها با طول‌های مختلف (مثلاً 2 تا 5)

ج) روش‌های فشرده‌سازی

ایده اصلی: استفاده از الگوریتم‌های فشرده‌سازی متن برای اندازه‌گیری شباهت

روش کار:

فشرده‌سازی متن نویسنده A: C(A)
الحاق متن ناشناخته x به A: A+x
فشرده‌سازی متن ترکیبی: C(A+x)
محاسبه تفاوت: d(x,A) = C(A+x) - C(A)

اگر x و A توسط نویسنده یکسانی نوشته شده باشند، تفاوت کم خواهد بود.

الگوریتم‌های فشرده‌سازی مورد استفاده:

RAR (بهترین نتایج)
GZIP
BZIP2
7ZIP

۱.۳ ویژگی‌های نحوی (Syntactic Features)

این ویژگی‌ها اطلاعات ساختار دستوری جملات را می‌گیرند.

الف) برچسب‌گذاری نقش دستوری (POS Tagging)

به هر کلمه یک برچسب دستوری نسبت داده می‌شود:

مثال: “Another attempt to exploit syntactic information”

Another/DT attempt/NN to/TO exploit/VB syntactic/JJ information/NN

که در آن:

DT = تعیین‌کننده
NN = اسم
TO = حرف اضافه
VB = فعل
JJ = صفت

ویژگی‌ها:

فراوانی هر برچسب
فراوانی بای‌گرام‌ها یا تری‌گرام‌های برچسب‌ها

ب) تجزیه قطعه‌ای (Chunking)

شناسایی عبارات مختلف در جمله:

مثال: “Another attempt to exploit syntactic information was proposed”

NP[Another attempt] VP[to exploit] NP[syntactic information] VP[was proposed]

که در آن:

NP = عبارت اسمی
VP = عبارت فعلی

ویژگی‌ها:

تعداد عبارات اسمی
تعداد عبارات فعلی
طول میانگین عبارات
نسبت انواع عبارات

ج) قوانین بازنویسی (Rewrite Rules)

تجزیه کامل ساختار نحوی:

مثال قانون:

A:PP → P:PREP + PC:NP

معنی: یک عبارت حرف اضافه‌ای قیدی (A:PP) از یک حرف اضافه (P:PREP) و یک عبارت اسمی (PC:NP) تشکیل می‌شود.

ویژگی: فراوانی هر قانون بازنویسی در متن

مشکل: نیاز به تجزیه‌گر کامل و دقیق که برای متون غیررسمی معمولاً خطا دارد.

۱.۴ ویژگی‌های معنایی (Semantic Features)

این ویژگی‌ها سطح بالاترین تحلیل را ارائه می‌دهند اما استخراج آنها دشوارتر است.

الف) مترادف‌ها و مفاهیم

استفاده از WordNet یا منابع مشابه برای یافتن:

مترادف‌های کلمات
روابط مفهومی (hypernym/hyponym)
افعال علّی

ب) ویژگی‌های کارکردی (Functional Features)

مبتنی بر نظریه دستور زبان نقش‌گرای سیستمی (Systemic Functional Grammar):

مثال: طرحواره CONJUNCTION که نشان می‌دهد یک جمله چگونه بر جنبه‌ای از زمینه قبلی خود گسترش می‌یابد:

ELABORATION (توضیح): کلماتی مثل “specifically”، “in other words”
EXTENSION (افزودن): کلماتی مثل “moreover”، “in addition”
ENHANCEMENT (تقویت): کلماتی مثل “therefore”، “consequently”

ویژگی‌ها: فراوانی استفاده از هر نوع گسترش معنایی

۱.۵ ویژگی‌های وابسته به کاربرد

الف) ویژگی‌های ساختاری

برای متون الکترونیکی مثل ایمیل یا پست‌های آنلاین:

استفاده از سلام و خداحافظی
نوع امضا
استفاده از تورفتگی (Indentation)
طول پاراگراف
استفاده از تگ‌های HTML
رنگ و اندازه فونت

ب) ویژگی‌های خاص موضوع

کلمات کلیدی مرتبط با موضوع خاص که نویسندگان متفاوت از آنها به شکل‌های مختلف استفاده می‌کنند.

مثال: در پیام‌های فروش آنلاین: “deal”، “sale”، “obo” (or best offer)

ج) ویژگی‌های خاص زبان

مثال: در یونانی مدرن، پایانه‌های فعلی که در انواع رسمی (Katharevousa) و غیررسمی (Dimotiki) زبان متفاوت هستند.

۲. گروه‌های زیررشته کلیدی: ساخت درخت پسوند برای نمایش تمام n-گرام‌های ممکن و سپس گروه‌بندی آنها بر اساس فراوانی و افزونگی.

۲. روش‌های تشخیص نویسندگی

روش‌های تشخیص نویسندگی بر اساس نحوه برخورد با متون آموزشی به سه دسته تقسیم می‌شوند:

۲.۱ روش‌های مبتنی بر پروفایل (Profile-based)

اصل کار:

تمام متون آموزشی هر نویسنده به یک فایل بزرگ متصل می‌شوند و یک نمایش تجمعی (پروفایل) از سبک نویسنده استخراج می‌شود.

معماری:

متون نویسنده A → [متن₁ + متن₂ + متن₃] → پروفایل A
متون نویسنده B → [متن₁ + متن₂] → پروفایل B
متن ناشناخته → پروفایل متن ناشناخته

فرمول تخمین نویسنده:

author(x) = argminₐ∈A d(PR(x), PR(xₐ))

توضیح فرمول تخمین نویسنده

این فرمول یک روش آماری/ریاضی برای شناسایی نویسنده یک متن ناشناس ارائه می‌دهد. اجزای فرمول را به ترتیب توضیح می‌دهم:

۱. هدف فرمول: تعیین نویسنده‌ی یک متن مجهول (x) با مقایسه‌ی آن با نوشته‌های نویسندگان شناخته‌شده.

۲. اجزای فرمول:

x: متن ناشناسی که می‌خواهیم نویسنده‌ی آن را شناسایی کنیم.

A: مجموعه‌ای از نویسندگان کاندید (نویسندگان شناخته‌شده‌ای که احتمال می‌دهیم نویسنده‌ی متن x باشند).

a: یک نویسنده خاص از مجموعه A.

xₐ: تمام متون شناخته‌شده‌ای که از نویسنده a در اختیار داریم (اتصال/کنار هم گذاشتن همه‌ی نوشته‌های آن نویسنده).

PR(x): پروفایل یا ویژگی‌های استخراج‌شده از متن x. این پروفایل می‌تواند شامل معیارهایی مانند:

فراوانی کلمات تابع (the، is، و…)
میانگین طول جملات
الگوهای نشانه‌گذاری
سبک‌های نگارشی خاص
ویژگی‌های آماری دیگر

PR(xₐ): پروفایل نویسنده a که از تحلیل تمام نوشته‌های شناخته‌شده‌ی او به دست آمده است.

d(·, ·): تابع فاصله که میزان شباهت یا تفاوت بین دو پروفایل را اندازه می‌گیرد. هرچه این فاصله کمتر باشد، دو پروفایل شبیه‌تر هستند.

argminₐ∈A: این بخش می‌گوید: “آن نویسنده a از مجموعه A را انتخاب کن که مقدار تابع فاصله برای آن مینیمم (کمترین) باشد.”

۳. تفسیر کلی فرمول:

“نویسنده‌ی متن ناشناس x، آن نویسنده‌ای از بین نویسندگان شناخته‌شده است که پروفایل سبک نوشتاری‌اش (بر اساس همه‌ی نوشته‌های قبلی‌اش) کمترین فاصله را با پروفایل متن ناشناس x داشته باشد.”

۴. مراحل اجرا: ۱. از متن مجهول x یک پروفایل سبکی استخراج می‌کنیم (PR(x)) ۲. برای هر نویسنده کاندید a:

همه‌ی متون شناخته‌شده‌ی او را جمع می‌کنیم (xₐ)
از این مجموعه، پروفایل نویسنده را استخراج می‌کنیم (PR(xₐ))
فاصله بین PR(x) و PR(xₐ) را محاسبه می‌کنیم ۳. نویسنده‌ای که کمترین فاصله را داشته باشد، به عنوان نویسنده‌ی احتمالی متن x انتخاب می‌شود.

۵. مثال: فرض کنید متنی ناشناس داریم و سه نویسنده کاندید: الف، ب، ج.
فاصله‌ی پروفایل متن ناشناس با پروفایل هر نویسنده:

فاصله با الف: ۲.۱
فاصله با ب: ۰.۸
فاصله با ج: ۳.۴

نویسنده‌ی ب انتخاب می‌شود زیرا کمترین فاصله (۰.۸) را دارد.

این روش مبتنی بر این فرض است که هر نویسنده “امضای سبکی” منحصر به فردی دارد که در نوشته‌هایش پایدار است.

معماری مرسوم روش مبتنی بر پروفایل

۲.۲ روش‌های مبتنی بر نمونه (Instance-based)

اصل کار:

هر متن آموزشی به طور جداگانه نمایش داده می‌شود و یک مدل طبقه‌بندی آموزش داده می‌شود.

معماری:

متن₁ نویسنده A → بردار ویژگی x_{A,1}
متن₂ نویسنده A → بردار ویژگی x_{A,2}
متن₃ نویسنده A → بردار ویژگی x_{A,3}
                        ↓
                مدل طبقه‌بندی
                        ↓
متن ناشناخته → بردار ویژگی x_u → نویسنده تخمینی

معماری مرسوم روش مبتنی بر نمونه

۲.۳ روش‌های ترکیبی (Hybrid)

روش van Halteren:

هر متن آموزشی جداگانه نمایش داده می‌شود (مثل روش‌های instance-based)
بردارهای نمایش برای متون هر نویسنده میانگین‌گیری می‌شوند (مثل روش‌های profile-based)
فاصله بین پروفایل متن ناشناخته و پروفایل هر نویسنده با تابع وزن‌دار محاسبه می‌شود:

d(x, a) = Σᵢ wᵢ × (xᵢ - āᵢ)²

d(x, a): فاصله (تفاوت) بین متن ناشناس x و نویسنده a
هرچه این مقدار کمتر باشد، شباهت بیشتر است.

i: اندیس ویژگی‌ها (مثلاً اگر ۱۰۰ ویژگی داشته باشیم، i از ۱ تا ۱۰۰ تغییر می‌کند)

xᵢ: مقدار ویژگی i-ام در متن ناشناس x

āᵢ: میانگین مقدار ویژگی i-ام برای نویسنده a
(بر اساس همه متون آموزشی آن نویسنده محاسبه شده)

(xᵢ - āᵢ)²: تفاوت مربع (فاصله اقلیدسی مربع) برای ویژگی i

wᵢ: وزن ویژگی i

این قسمت مهم روش van Halteren است
برخی ویژگی‌ها در تشخیص نویسنده مهم‌تر هستند
وزن‌ها معمولاً از طریق تحلیل آماری یا یادگیری تعیین می‌شوند

Σᵢ: جمع‌زنی روی همه ویژگی‌ها

۲.۴ مقایسه روش‌ها

معیار	Profile-based	Instance-based
نمایش متون آموزشی	یک نمایش تجمعی برای هر نویسنده	هر متن جداگانه نمایش داده می‌شود
مزیت با متون کوتاه	اتصال متون کوتاه ممکن است بهتر باشد	نمایش جداگانه ضعیف‌تر است
ترکیب ویژگی‌ها	دشوار	آسان
الگوریتم‌های قوی	محدود	SVM و دیگر الگوریتم‌های پیشرفته
هزینه آموزش	کم	نسبتاً زیاد
هزینه اجرا	کم	کم
مسئله عدم توازن	بستگی به طول متون دارد	بستگی به تعداد متون دارد

نتیجه‌گیری

تشخیص نویسندگی یک حوزه فعال و در حال رشد است که در دهه اخیر پیشرفت‌های قابل توجهی داشته است:

دستاوردها:

روش‌های کاملاً خودکار با دقت بالا
استفاده از الگوریتم‌های یادگیری ماشین قدرتمند
ارزیابی عینی با مجموعه‌داده‌های استاندارد
کاربردهای متنوع در دنیای واقعی

چالش‌های باقی‌مانده:

کار با متون بسیار کوتاه
تشخیص قابل اعتماد برای دادگاه‌ها
تفکیک کامل سبک از موضوع
کار با تعداد زیاد نویسنده
انتقال بین ژانرها

انتساب نویسنده در عصر مدل‌های زبانی بزرگ (LLMs): مسائل، روش‌ها و چالش‌ها

این قسمت به بررسی انتساب نویسنده در عصر مدل‌های زبانی بزرگ می‌پردازد. با پیشرفت LLMها، تمایز میان متن‌های انسانی و ماشینی دشوارتر شده و روش‌های سنتی با چالش‌های جدی روبه‌رو هستند.

آیا مدل های زبان بزرگ می توانند نویسنده را شناسایی کنند؟

در این کار، راهبرد “پرامپت‌دهی مبتنی بر دانش زبانی” (Linguistically Informed Prompting یا LIP) را پیشنهاد می‌شود که با ارائه‌ی راهنمایی‌های زبانی درون‌متنی، توان استدلال مدل‌های زبانی بزرگ را در وظایف راستی‌آزمایی و انتساب نویسندگی افزایش می‌دهد و هم‌زمان توضیحاتی قابل‌فهم به زبان طبیعی ارائه می‌کند.

فرض کنید، دو متن مانند تصویر زیر داریم و می‌خواهیم با استفاده از مدل زبانی مشخص کنیم آیا نویسنده هر دو متن یک شخص هست یا خیر.

روش اول: فقط پرامت ساده بدون هیچ راهنمایی در تصویر زیر می‌بینیم که فقط از مدل زبانی خواسته شده تصمیم بگیرد که آیا نویسنده دو متن یک شخص هست یا خیر، و توضیحی اضافه‌ای داده نشده.

می‌بینیم که مدل در پاسخ جواب False را برگشت داده است. یعنی نویسنده دو متن یکسان نیستند.

روش دوم: پرامت به همراه راهنمایی سبک نویسندگی در اینجا، علاوه بر پرامت اولیه که از مدل خواسته‌شده تا یکسان بودن نویسنده‌ها را مشخص کند، به او گفته شده که سبک نوشتن متن را بدون توجه به موضوع و محتوای متن تحلیل کند.

می‌بینیم که مدل در پاسخ جواب False را برگشت داده است. یعنی نویسنده دو متن یکسان نیستند.

روش سوم: پرامت به همراه راهنمایی در گرامر متن

در این روش، علاوه بر پرامت اصلی، به مدل گفته می‌شود که روی سبک دستوری متن که نشان‌دهنده نویسندگی هستند تمرکز کند.

می‌بینیم که مدل در پاسخ جواب False را برگشت داده است. یعنی نویسنده دو متن یکسان نیستند.

روش چهارم: Linguistically Informed Prompting (LIP) - پرامپت‌دهی مبتنی بر دانش زبانی

LIP رویکردی در طراحی پرامپت است که به‌جای تکیه‌ی صرف بر مثال‌ها یا دستورهای کلی، دانش و نشانه‌های زبانی (مانند سبک نگارش، واژگان، نحو، انسجام متن و الگوهای سبکی) را به‌صورت راهنمای درون‌متنی در اختیار مدل زبانی قرار می‌دهد. هدف آن تقویت توان استدلال مدل‌های زبانی بزرگ در وظایفی مانند راستی‌آزمایی نویسندگی و انتساب نویسنده است، به‌گونه‌ای که مدل علاوه بر تصمیم نهایی، بتواند توضیحاتی شفاف و قابل‌فهم به زبان طبیعی ارائه دهد.

ترجمه پرامت در تصویر: بررسی کن آیا دو متن ورودی توسط یک نویسنده نوشته شده‌اند یا خیر. سبک نگارش دو متن را تحلیل کن و تفاوت‌های موضوعی و محتوایی را نادیده بگیر. استدلال خود را بر اساس ویژگی‌های زبانی مانند افعال عبارتی، افعال وجهی، نشانه‌گذاری، واژگان نادر، وندها(پیشوند، پسوند)، کمیت‌ها، طنز، کنایه، خطاهای تایپی و غلط‌های املایی ارائه بده.

همانطور که می‌بینیم، اکنون مدل نویسنده دو متن را یکسان در نظر گرفته است. دلایل انتخاب مدل (ترجمه خروجی):

هر دو متن لحن محاوره‌ای و غیررسمی دارند و از ضمایر شخصی و بیان نظرات ذهنی به‌طور مکرر استفاده می‌کنند. در هر دو، ترکیبی از جملات ساده و مرکب دیده می‌شود و به‌کارگیری عبارات معترضه برای افزودن توضیحات جانبی قابل‌توجه است. طنز و کنایه نیز در هر دو متن وجود دارد، مانند عبارت‌هایی نظیر «total dimwits» و «corny (no pun intended)». سبک نشانه‌گذاری مشابه است؛ استفاده‌ی زیاد از ویرگول و گاهی سه‌نقطه مشاهده می‌شود. همچنین برخی خطاهای تایپی و زبان غیررسمی به چشم می‌خورد، مانند «pretty original idea» و «pretty well developed». هر دو متن از افعال وجهی مانند «might» و «should» بهره می‌برند و استفاده‌ی پیوسته از افعال عبارتی و اصطلاحات محاوره‌ای دارند. در مجموع، ویژگی‌های زبانی و سبک نگارش بسیار مشابه‌اند و این شباهت‌ها نشان می‌دهد که احتمالاً هر دو متن توسط یک نویسنده نوشته شده‌اند.

مثال بالا راهبرد «پرامپت‌دهی مبتنی بر دانش زبانی» (Linguistically Informed Prompting یا LIP) را با روش‌های پایه‌ای دیگر که راهنمایی زبانی کمتری برای وظیفه‌ی راستی‌آزمایی نویسندگی ارائه می‌دهند مقایسه می‌کند. خروجی‌های مدل زبانی بزرگ به دو دسته‌ی «تحلیل» (Analysis) و «پاسخ» (Answer) تقسیم شده‌اند. تنها راهبرد LIP به‌درستی تشخیص می‌دهد که دو متن داده‌شده توسط یک نویسنده واحد نوشته شده‌اند. متن‌هایی که با رنگ نارنجی مشخص شده‌اند تفاوت‌ها را در چهار سطح مختلفِ راهنمایی نشان می‌دهند. متن‌های آبی‌رنگ بیانگر فرایند استدلال مبتنی بر دانش زبانی هستند و متن آبی نشان‌دهنده‌ی محتوای ارجاع‌داده‌شده از اسناد اصلی است.

جمع‌بندی

تشخیص سرقت ادبی و انتساب نویسندگی دو حوزه‌ی به‌هم‌پیوسته و کلیدی در تحلیل متون هستند که نقش مهمی در حفظ اصالت علمی، امنیت اطلاعات و اعتبار محتوای دیجیتال ایفا می‌کنند. تشخیص سرقت ادبی عمدتاً بر شناسایی شباهت‌های متنی، بازنویسی‌ها و استفاده‌ی بدون ارجاع از آثار دیگران تمرکز دارد، در حالی‌که انتساب نویسندگی به دنبال شناسایی یا تأیید نویسنده‌ی یک متن بر اساس الگوهای سبکی و ویژگی‌های زبانی اوست. با گسترش فضای دیجیتال و افزایش حجم داده‌های متنی، هر دو حوزه از روش‌های آماری، یادگیری ماشین و تحلیل‌های زبانی عمیق بهره می‌برند تا بتوانند الگوهای پنهان در متون را آشکار کنند.

با ظهور مدل‌های زبانی بزرگ، مرز میان متن انسانی و متن تولیدشده توسط ماشین کمرنگ‌تر شده و چالش‌های جدیدی برای هر دو مسئله ایجاد شده است. در این شرایط، روش‌های پیشرفته‌ای که علاوه بر شباهت سطحی، به تحلیل ویژگی‌های زبانی، سبک نگارش و الگوهای استدلال توجه دارند، اهمیت بیشتری یافته‌اند. ترکیب رویکردهای تشخیص سرقت ادبی و انتساب نویسندگی، به‌ویژه با تأکید بر تعمیم‌پذیری و تبیین‌پذیری، می‌تواند چارچوبی قدرتمند برای ارزیابی اصالت متن و افزایش اعتماد به سیستم‌های پردازش زبان طبیعی در محیط‌های علمی، حقوقی و رسانه‌ای فراهم کند

تشخیص سرقت ادبی - Plagiarism Detection

Hadi Sadoghi Yazdi

تشخیص سرقت ادبی - Plagiarism Detection

مقدمه

انواع سرقت ادبی

روش‌های تشخیص سرقت ادبی

شناسایی نویسنده (Authorship Attribution)

۱. ویژگی‌های سبک‌سنجی (Stylometric Features)

۱.۱ ویژگی‌های واژگانی (Lexical Features)

الف) ویژگی‌های مبتنی بر توکن

ب) توابع غنای واژگانی

ج) فراوانی کلمات

د) n-گرام‌های کلمه‌ای

۱.۲ ویژگی‌های کاراکتری (Character Features)

الف) ویژگی‌های ساده

ب) n-گرام‌های کاراکتری

ج) روش‌های فشرده‌سازی

۱.۳ ویژگی‌های نحوی (Syntactic Features)

الف) برچسب‌گذاری نقش دستوری (POS Tagging)

ب) تجزیه قطعه‌ای (Chunking)

ج) قوانین بازنویسی (Rewrite Rules)

۱.۴ ویژگی‌های معنایی (Semantic Features)

الف) مترادف‌ها و مفاهیم

ب) ویژگی‌های کارکردی (Functional Features)

۱.۵ ویژگی‌های وابسته به کاربرد

الف) ویژگی‌های ساختاری

ب) ویژگی‌های خاص موضوع

ج) ویژگی‌های خاص زبان

۲. روش‌های تشخیص نویسندگی

۲.۱ روش‌های مبتنی بر پروفایل (Profile-based)

اصل کار:

۲.۲ روش‌های مبتنی بر نمونه (Instance-based)

اصل کار:

۲.۳ روش‌های ترکیبی (Hybrid)

۲.۴ مقایسه روش‌ها

نتیجه‌گیری

انتساب نویسنده در عصر مدل‌های زبانی بزرگ (LLMs): مسائل، روش‌ها و چالش‌ها

آیا مدل های زبان بزرگ می توانند نویسنده را شناسایی کنند؟

جمع‌بندی

منابع