ایران ترجمه – مرجع مقالات ترجمه شده دانشگاهی ایران

خلاصه سازی فیلم ها و مستندات با زیرنویس ها و اسکریپت ها

خلاصه سازی فیلم ها و مستندات با زیرنویس ها و اسکریپت ها

خلاصه سازی فیلم ها و مستندات با زیرنویس ها و اسکریپت ها – ایران ترجمه – Irantarjomeh

 

مقالات ترجمه شده آماده گروه کامپیوتر
مقالات ترجمه شده آماده کل گروه های دانشگاهی

مقالات رایگان

مطالعه ۲۰ الی ۱۰۰% رایگان مقالات ترجمه شده

۱- قابلیت مطالعه رایگان ۲۰ الی ۱۰۰ درصدی مقالات ۲- قابلیت سفارش فایل های این ترجمه با قیمتی مناسب مشتمل بر ۳ فایل: pdf انگیسی و فارسی مقاله همراه با msword فارسی -- تذکر: برای استفاده گسترده تر کاربران گرامی از مقالات آماده ترجمه شده، قیمت خرید این مقالات بسیار کمتر از قیمت سفارش ترجمه می باشد.  

چگونگی سفارش

الف – پرداخت وجه بحساب وب سایت ایران ترجمه (شماره حساب) ب- اطلاع جزئیات به ایمیل irantarjomeh@gmail.com شامل: مبلغ پرداختی – شماره فیش / ارجاع و تاریخ پرداخت – مقاله مورد نظر -- مقالات آماده سفارش داده شده عرفا در زمان اندک یا حداکثر ظرف مدت چند ساعت به ایمیل شما ارسال خواهند شد. در صورت نیاز فوری از طریق اس ام اس اطلاع دهید.

قیمت

قیمت این مقاله: ۱۵۰۰۰ تومان (ایران ترجمه - irantarjomeh)

توضیح

بخش زیادی از این مقاله بصورت رایگان ذیلا قابل مطالعه می باشد.

مقالات ترجمه شده کامپیوتر - ایران ترجمه - irantarjomeh

www.irantarjomeh.com

خلاصه سازی فیلم ها و مستندات با زیرنویس ها و اسکریپت ها

شماره       
۲۱۶
کد مقاله
COM216
مترجم
گروه مترجمین ایران ترجمه – irantarjomeh
نام فارسی
خلاصه سازی فیلم ها و مستندات بر مبنای زیرنویس ها و اسکریپت ها
نام انگلیسی
Summarization of films and documentaries based on subtitles and scripts
تعداد صفحه به فارسی
۳۲
تعداد صفحه به انگلیسی
۶
کلمات کلیدی به فارسی
خلاصه سازی اتوماتیک متن, خلاصه سازی ژنریک, خلاصه سازی فیلم ها, خلاصه سازی مستندات
کلمات کلیدی به انگلیسی
Automatic text summarization, Generic summarization,
Summarization of films, Summarization of documentaries
مرجع به فارسی
مقالات شناسایی الگو
مؤسسه دانشگاه دیلیسبو، لیسبون، پرتغال
الزویر
مرجع به انگلیسی
Pattern Recognition Letters; Instituto Universitário de Lisboa (ISCTE-IUL), Av. das Forças Armadas, Lisboa 1649–۰۲۶, Portugal; Elsevier
سال
۲۰۱۶
کشور
پرتغال

خلاصه سازی فیلم ها و مستندات با زیرنویس ها و اسکریپت ها

 

خلاصه سازی فیلم ها و مستندات بر مبنای زیرنویس ها و اسکریپت ها
چکیده
در این مقاله ما نسبت به ارزیابی عملکرد الگوریتم های خلاصه سازی متن به صورت ژنریک که در ارتباط با فیلم ها و مستندات می باشند با استفاده از ویژگی های استخراج شده از مقالات خبری حاصل آمده به وسیله مدل های مرجعی خلاصه سازی استخراجی اقدام می نماییم. بر این مبنا ما از سه بانک اطلاعات ذیل استفاده می نماییم: (۱) اخبار، (۲) اسکریپت ها یا متن ها و زیرنویس های فیلم و (۳) زیرنویس های مستند. ویژگی های سنجشی ROUGE استاندارد برای مقایسه مؤلفه های خلاصه سازی شده مرتبط با توجه به چکیده های اخبار، خلاصه های ارائه شده و مؤلفه های اجمالی مورد استفاده قرار گرفته اند. ما نشان می دهیم که الگوریتم هایی که دارای بهترین عملکرد هستند شامل LSA، برای اخبار و فیلم های مستند، و LexRank و Support Sets، برای فیلم می باشند. علیرغم طبیعت متفاوت فیلم ها و مستندها، رفتار نسبی آنها در تطابق با موارد حاصل شده برای اخبار می باشد.

کلمات کلیدی: خلاصه سازی اتوماتیک متن، خلاصه سازی ژنریک، خلاصه سازی فیلم ها، خلاصه سازی مستندات

خلاصه سازی فیلم ها و مستندات با زیرنویس ها و اسکریپت ها

 

۱- مقدمه
رسانه ورودی برای خلاصه سازی اتوماتیک دارای تنوع گوناگونی می باشد و می توان این تنوع را از مؤلفه های متنی [۵، ۱۸] تا موارد مرتبط با صحبت یا بیان [۲۱، ۳۴، ۳۹] و ویدیو [۱] در نظر گرفت، اما در عین حال حوزه کاربردی آنها به طور کلی محدود به منابع اطلاعاتی ذیل می باشد: اخبار [۲، ۱۱، ۳۰، ۳۳]، نشست ها / جلسات [۸، ۲۶]، یا سخنرانی ها [۷]. با این وجود، نواحی کاربردی در محدوده صنعت سرگرمی هم اکنون مورد توجه قرار گرفته اند: همانند خلاصه سازی داستان های کوتاه ادبی [۱۲]، خلاصه سازی موسیقی [۳۱]، خلاصه سازی کتاب ها [۲۴]، یا شامل سازی تحلیل کاراکتر در خلاصه سازی های مربوط به فیلم [۳۶]. ما این مسیر را دنبال نموده و بر مبنای آن اقدام به ارائه ویژگی های استخراجی و مؤلفه های خلاصه شده مبتنی بر متن ویدیویی برای فیلم ها یا موارد مستند نموده ایم.
ویژگی های مربوط به مستند تحت عنوان مؤلفه های سینماتیک با قابلیت حقیقی در نظر گرفته شده اند [۱۰]. امروزه، این موارد شامل رخدادهای تاریخی، مباحث و تحقیقات نیز می شوند. آنها به طور کلی تحت عنوان حاصل آوردن موارد حقیقی و واقعی در نظر گرفته شده و بنابراین ذاتاً ویژگی غیرداستانی دارند. فیلم ها، در مقابل، عمدتاً در ارتباط با داستان تلقی می شوند. با این وجود، فیلم ها و مستندات به طور اساسی تفاوتی ندارند: بسیاری از استراتژی ها و ساختارهای تعریف شده که در فیلم ها بکار گرفته شده اند را می توان در مستندات نیز مورد استفاده قرار داد [۲۷].
در این مبحث، فیلم ها (موارد داستانی) ارائه دهنده داستان هایی بر مبنای رخدادهای ساختگی می باشند، در حالی که مستندات (موارد غیرداستانی) عمدتاً مخاطب قرار دهنده موضوعات علمی هستند. بر این مبنا ما نسبت به مطالعه ویژگی های برابر بین اطلاعات حاصل آمده در خصوص زیرنویس ها و متون یا اسکریپت های هر دو مورد فیلم ها و مستندات اقدام می نماییم. روش های خلاصه سازی حاصله به طور گسترده برای مستندات مربوط به اخبار مورد بررسی قرار گرفته اند [۱۶، ۲۲، ۲۳، ۲۹، ۳۰، ۳۷]. هدف اصلی ما درک کیفیت خلاصه سازی اتوماتیک، حاصل آمده برای فیلم یا مستند، با استفاده از رفتار شناخته شده مربوط به موضوعات اخبار به عنوان یک ویژگی مرجع می باشد. خلاصه های ایجادی با توجه به چکیده های دستی با استفاده از ویژگی های سنجشی ROUGE مورد ارزیابی قرار می گیرند که در تطابق با قضاوت های انسانی خواهند بود [۱۵، ۱۷].
این مبحث به شرح ذیل سازماندهی شده است: بخش دو ارائه دهنده الگوریتم های خلاصه سازی می باشد. بخش سه مشخص کننده بانک های اطلاعاتی جمع آوری شده است. بخش چهار ارائه دهنده ویژگی های مربوط به ارزیابی است. بخش پنج نتایج ما را مورد بررسی قرار می دهد و بخش شش ارائه دهنده نتیجه گیری ها و رویه های مربوط به تحقیقاتی آتی است.
۲- خلاصه سازی ژنریک
شش رویکرد خلاصه سازی متن مبنا جهت خلاصه سازی مقالات مربوط به اخبار روزنامه ها، زیرنویس ها و متون و اسکریپت ها بکار گرفته شد. آنها در بخش های ذیل تشریح می شوند.
۲ـ۱٫ ارتباط حاشیه ای حداکثری (MMR)
MMR یک روش خلاصه سازی مبتنی بر پرس و جو می باشد [۴]. این روش به صورت تکراری جملاتی را از طریق معادله (۱) انتخاب میکند (Q به عنوان یک پرس و جو به شمار می آید، Sim۱ و Sim۲ نیز به طور مشابه به عنوان ویژگی های سنجشی مطرح هستند، Si و Sj جملات غیرانتخابی و قبلاً انتخابی به ترتیب به شمار می آیند). λ نیز قابلیت تراز میزان ارتباط و جدید بودن موارد را خواهد داشت. MMR قابلیت ایجاد خلاصه های ژنریک از طریق ملاحظه جملات ورودی در حول مرکز به عنوان یک ویژگی پرس و جو را خواهد داشت [۲۵، ۳۸].
۲ـ۲٫ LexRank
LexRank ]۶] یک روش مرکز مبنا بر حسب سیستم رتبه بندی صفحه گوگل یا PageRank [۳] می باشد. یک نمودار با استفاده از جملات ایجاد شده که به وسیله بردارهای TFIDF تحت عنوان رأس ها مشخص می شود. یال ها یا لبه ها به هنگامی ایجاد می شوند که مشابهت کسینوسی فراتر از یک آستانه مشخص شود. معادله (۲) در هر رأس محاسبه شده تا آنکه نرخ خطای بین دو تکرار متوالی کمتر از یک مقدار مشخص شده گردد. در این معادله، d به عنوان ضریب میرایی جهت اطمینان از روش همگرایی به شمار می آید، N تعداد رأس ها و S(Vi) نمره i امین رأس به شمار می آید.
۲ـ۳٫ آنالیز معنایی نهفته (LSA)
LSA قابلیت استنتاج کاربرد معنایی یا بافتی هر متن بر حسب ویژگی های رخدادی هر کلمه را خواهد داشت [۱۳، ۱۴]. مؤلفه های مهم بدون نیاز به منابع لغوی خارجی مشخص می شوند [۹]: هر تکرار کلمه ارائه دهنده اطلاعاتی در خصوص معنای آن می باشد، که خود سبب ایجاد ارتباطاتی بین کلمات و جملات گردیده و بنابراین نوعی تطابق با روشی را به وجود می آورند که قابلیت ارتباط با انسان ها را خواهند داشت. تجزیه مقدار واحد (SVD) برای هر سند اعمال می گردد، که به وسیله ماتریس جملات ـ ترم t × n مشخص کننده A ارائه گردیده، که خود منجر به تجزیه USVT می گردد. خلاصه سازی متشکل از انتخاب k بالاترین مقدار واحد از S می باشد که بر حسب Sk حاصل می گردد. U و VT به Uk و  به ترتیب کاهش یافته و با تقریب گیری A از طریق  موارد مشخص شده به دست می آیند. مهمترین جملات بر این مبنا از  حاصل می شوند.
۲ـ۴٫ مجموعه های پشتیبان
مستندات نوعاً متشکل از ترکیبی از موضوعات مختلف شامل مؤلفه های اصلی و یا غیراصلی متفاوت هستند. مجموعه های پشتیبان بر مبنای این ملاحظه شکل گرفته اند [۳۵]. محتوای مهم از طریق ایجاد یک مجموعه پشتیبان برای هر مسیر، بر مبنای مقایسه آن با موارد دیگر، مشخص می شود. مهمترین عبارات معنایی، که از طریق مجاورت هندسی مشخص شده اند، در مجموعه پشتیبان شامل می گردند. خلاصه ها متشکل از انتخاب غالب موارد مرتبط هستند، یعنی موردی که در بیشترین تعداد مجموعه های پشتیبان حضور دارند. برای منبع اطلاعات تفکیک شده ، مجموعه های پشتیبان Si برای هر مؤلفه pi نیز بر مبنای معادله (۳) مشخص می شود، که در آن Sim به عنوان تابع مشابهت به شمار آمده، و  نیز آستانه تلقی می شود. معروفترین رویدادهای مهم نیز بر حسب معادله (۴) مشخص می گردند.
۲ـ۵٫ مرکزیت عبارت مبنای کلید (مرکزیتKP)
Ribeiro و همکاران [۳۲] یک ویژگی خاص را تحت عنوان الگوریتم مرکزیت در بخش ۲ـ۴ ارائه نمودند که از یک ویژگی مهم دو مرحله ای روش بازیافت استفاده می نماید. اولین مرحله متشکل از یک مرحله استخراج عبارت کلیدی مدیریت شده غنی از ویژگی می باشد، که با استفاده از جعبه ابزار MAUI با ویژگی های معنایی اضافه مورد استفاده قرار می گیرد: تشخیص سیگنال های بلاغی، تعداد هویت های نامگذاری شده، تگ ها یا برچسب های شامل بخشی از سخن (POS) و احتمالات مود حوزه چهار n ـ گرم [۱۹، ۲۰]. مرحله دوم متشکل از استخراج مهمترین ویژگی های رخ داده می باشد که در آن عبارات کلیدی تحت عنوان رخدادهای عادی تلقی می شوند.
۲ـ۶٫ قدم زنی تصادفی گراف با جذب StateS با قابلیت مرکزیت در بین مرکزیت برای رتبه بندی (GRASSHOPPER)
GRASSHOPPER [۴۰] به عنوان یک الگوریتم رتبه بندی مجدد به شمار می آید که قابلیت به حداکثر رسانی گوناگونی و به حداقل رسانی موارد تکراری را خواهد داشت. این الگوریتم از یک گراف وزن دار W استفاده می نماید (n × n: n رأس که معرف جملات می باشد، وزن های بر حسب یک تابع برآورد مشابهت مشخص می شوند)، توزیع احتمال r (که معرف رتبه قبلی است)، و λ ∈ [۰، ۱]، که قابلیت ایجاد تعادل بین موارد دارای اهمیت نسبی W و r را خواهد داشت. در حالی که هیچ گونه رتبه بندی قبلی وجود نداشته باشد، یک توزیع یکنواخت را می توان بکار گرفت. جملات از طریق بکارگیری روش قدم زنی تصادفی تلپورتینگ در یک زنجیره مارکوف جذب کننده رتبه بندی می شوند، که بر مبنای n × n ماتریس گذرای  می باشد (محاسبه شده بر حسب نرمال سازی ردیف های W)، یعنی . اولین جمله ای که می بایست ذخیره شود در حقیقت موردی می باشد که دارای بالاترین ویژگی احتمال ثابت می باشد که بر حسب توزیع ثابت  است.
۳- مجموعه های داده
ما از سه مجموعه داده استفاده نموده ایم: اخبار روزنامه ها (داده های خط مبنا)، فیلم ها و مستندات. داده های فیلم متشکل از زیرنویس ها و نوشته ها یا اسکریپت ها می باشد که حاوی توصیف صحنه و دیالوگ است. داده های مستند شامل زیرنویس ها است که غالباً به صورت مونولوگ هستند. داده های مرجع نیز متشکل از ویژگی های ارائه شده دستی (برای مقالات درج شده در روزنامه)، خلاصه های مشخص شده (برای فیلم یا مستندات) و موارد اجمالی (برای فیلم ها) می باشند. خلاصه های مشخص شده نیز حاوی موارد تشریحی هستند که به عنوان یک ویژگی مکفی برای خوانندگان به منظور حاصل آوردن اطلاعات کافی از آنچه که در فیلم یا مستند روی می دهد تلقی می شود. موارد خلاصه یا اجمالی نیز بسیار طولانی تر بوده و ممکن است حاوی جزئیات مهم مربوط به بروز حوادث یا رخدادهای یک داستان باشند. کلیه مجموعه های داده از طریق حذف نقطه گذاری ها داخل جملات و مهرهای زمانی از زیرنویس ها تحت فرآیندهای نرمال سازی قرار گرفته اند.
۳ـ۱٫ مقالات روزنامه ای
TeMário [۲۸] متشکل از صد عنوان روزنامه ای در روزنامه های پرتغالی برزیل می باشد (جدول ۱) که شامل حوزه هایی نظیر اطلاعات جهانی، سیاست و امور خارجی است. هر موضوع دارای خلاصه ایجاد شده توسط انسان (چکیده) می باشد.
 
۳ـ۲٫ فیلم ها
ما نسبت به گردآوری صد فیلم با میانگین چهار پلات خلاصه (حداقل ۱، حداکثر ۷) و یک پلات مشخص شده با جزئیات در هر فیلم اقدام نمودیم (جدول۲). جدول ۳ ارائه دهنده ویژگی های مربوط به زیرنویس ها، دست نوشته ها یا اسکریپت ها و الحاقیه های مربوط به هر دوی این موارد می باشد. البته کلیه اطلاعات ارائه شده در این اسکریپت ها در اینجا عرضه نشده اند: دیالوگ ها به منظور ایجاد مشابهت با خلاصه های هر یک از پلات ها حذف گردیده اند.
۳ـ۳٫ فیلم های مستند
ما نسبت به جمع آوری ۹۸ مورد فیلم مستند اقدام نمودیم. جدول ۴ ارائه دهنده ویژگی های مربوط به زیرنویس آنها می باشد: توجه شود که تعداد جملات در فیلم ها کوچکتر می باشند و بنابراین بر روی نمرات ROUGE (مبتنی بر ویژگی فراخوانی) تأثیرگذار می باشد.
ما ۲۲۳ خلاصه دستی را جمع آوری نموده و متعاقباً آنها را به چهار کلاس ذیل تقسیم بندی نمودیم (جدول ۵): ۱۴۳ مورد فیلم های اطلاع دهنده و آگاهی بخش، ۶۳ مورد فیلم های استفهامی و پرسشی، ۹ مورد موارد مرتبط با فراخوانی و دعوت و ۸ مورد نیز فیلم های چالش برانگیز. خلاصه های اطلاع دهنده و آموزشی شامل اطلاعات حقیقی در خصوص برنامه ها هستند. خلاصه های استفهامی شامل سئوالاتی در خصوص کنجکاوی و بررسی نکته نظرات است، همانند “معنی زندگی چیست؟”. موارد مربوط به فراخوانی نیز مؤلفه های مربوط به دعوت در زمینه های مختلف را شامل می شود همانند “آماده یک سفر ۲۴ ساله باشید؟” و فیلم های چالش برانگیز نیز شامل نکته نظرات اشخاص در ارتباط با ویژگی های شخصی است همانند “آیا آماده انجام… هستید؟”. ما خلاصه های آگاهی بخش را به واسطه مشابهت آنها به جملات استخراج شده بر حسب الگوریتم های خلاصه سازی انتخاب نمودیم. به طور میانگین، دو خلاصه مرتبط در زمینه مستندات وجود دارند (حداقل ۱، حداکثر ۳).
۴- ویژگی های تجربی
برای مقالات مربوط به اخبار، خلاصه ها با استفاده از اندازه میانگین چکیده های دستی ایجاد شدند (تقریباً ۳۱ درصد اندازه آنها).
برای هر فیلم، دو خلاصه بر حسب انتخاب تعداد جملات مساوی با مورد ذیل ایجاد گردیدند: (۱) طول میانگین خلاصه دستی و (۲) طول موارد خلاصه شده و چکیده. در تعارض با اخبار و فیلم های مستند، سه نوع ورودی مشخص گردیدند: استکریپت یا دست نوشته ها، زیرنویس ها، زیرنویس + اسکریپت.
۵- نتایج و مباحث
زیرنویس ها و دست نوشته ها یا اسکریپت ها با تعداد خلاصه های دستی و موارد چکیده مقایسه گردیده تا قابلیت تعریف یک مرجع عملکرد بهینه به وجود آید. بخش های ذیل ارائه دهنده میانگین نمرات ROUGE-1، ROUGE-2 و ROUGE-SU4 می باشند (که از این به بعد تحت عنوان R-1، R-2 و R-SU4 در نظر گرفته می شوند)، و شامل عملکرد هر الگوریتم خلاصه سازی خواهند بود، که تحت عنوان نسبت بین نمره خلاصه های ایجادی و مرجع آن (عملکرد نسبی) به شمار خواهند آمد. پارامتربندی متعدد الگوریتم ها نیز استفاده شده است (ما صرفاً بهترین نتایج را ارائه نموده ایم). با توجه به MMR، ما مشخص ساختیم که بهترین λ مترادف با یک تعداد میانگین بالاتر کلمات بر مبنای مورد خلاصه می باشد. با توجه به GRASSHOPPER ما از توزیع یونیفرم یا یکنواخت به عنوان یک ویژگی قبلی استفاده نموده ایم.
۵ـ۱٫ مقالات مربوط به روزنامه ها (TeMário)
جدول ۶ ارائه دهنده نمرات هر الگوریتم خلاصه می باشد. LSA بهترین نمرات را برای R-1، R-2 و R-SU4 حاصل آورده است. شکل ۱ نشان دهنده نتایج عملکرد نسبی می باشد.
 
۵ـ۲٫ فیلم ها
جدول ۷ ارائه دهنده نمرات برای ترکیبات داده های فیلم در برابر خلاصه های حاصل آمده می باشد. به طور کلی، مجموعه های پشتیبان، LSA، و LexRank قابلیت حاصل آوردن مرتبط ترین جملات برای این موارد خلاصه را خواهند داشت. بنابراین برای هر الگوریتم نظیر GRASSHOPPER و MMR این مورد مدنظر خواهد بود که گوناگونی حداکثری با توجه به عملکرد در چنین محتوایی حاصل شود چرا که خلاصه های مرتبط نسبتاً کوتاه بوده و بنابراین بر روی مهمترین ویژگی های فیلم بدون محتوای تکراری تمرکز خواهد شد.
۵ـ۳٫ فیلم های مستند
از کلیه الگوریتم ها (جدول ۹)، LSA بهترین نتایج را برای R-1 و R-SU4 حاصل آورده است، همراه با LexRank برای R-1. ویژگی مرکزیت ـ KP نیز بهترین نتایج را برای R-2 حاصل کرده است. ذکر این نکته ضروری است که LSA قابلیت ایجاد خلاصه ها را با بالاترین شمارش کلمه (فراخوانی مطلوب) خواهد داشت. شکل ۲ نشان دهنده نتایج عملکرد نسبی می باشد: LSA دارای عملکرد بهتری در مقایسه با کلیه الگوریتم های دیگر برای R-1 و R-SU4 می باشد، و ویژگی مرکزیت ـ KP نیز به عنوان بهترین مورد برای R-2 به شمار می آید. مجموعه های پشتیبان و مرکزیت ـ KP دارای عملکرد نزدیکی با LSA برای R-SU4 می باشند. بهترین نتایج MMR به صورت پیوسته دارای رشد چندانی در ارتباط با کلیه ویژگی های سنجشی نبوده است (خلاصه های MMR دارای پایین ترین شمارش کلمه می باشند).
۵ـ۴٫ مباحث
مقالات مربوط به اخبار قابلیت پاسخگویی به سئوالات اصلی در خصوص رخدادهای خاص را خواهد داشت: چه کسی، کدام، کی، کجا، چرا و غالباً، چگونه. ساختار آنها را می توان تحت عنوان “هرم معکوس” نامید، که در آن مهمترین و کارآمدترین اطلاعات در ابتدا مشخص می شود. نوعاً، جملات اولیه ارائه دهنده نگرش مناسبی از کل مقاله بوده و به احتمال زیاد به هنگام ترکیب با خلاصه نهایی انتخاب می شوند. با وجود آنکه فیلم های مستند دارای یک ساختار روایتی مشابه با فیلم ها هستند، آنها را می توان به صورت نزدیکتری با اخبار، در مقایسه با فیلم، در نظر گرفت، مخصوصاً با توجه به ساختار اطلاع دهنده ذاتی آنها. علیرغم طبیعت متفاوت آنها، خلاصه های ایجادی به وسیله انسان ها مشخص کننده نمرات مشابهی برای کلیه موارد می باشند. این رفتار را می توان در شکل ۳ مشاهده نمود. توجه شود که مستندات دارای بالاترین نمره در مقایسه با فیلم یا اخبار می باشند، آن هم به هنگام کاربرد مستندات زیرنویس اصلی در مقابل خلاصه های دستی متناظر.
۶- نتیجه گیری و تحقیقات آتی
در این مقاله ما نسبت به تحلیل تأثیر شش الگوریتم خلاصه سازی بر روی سه مجموعه اطلاعاتی اقدام نمودیم. مجموعه اطلاعاتی مقالاتی روزنامه ای به عنوان مرجع مورد استفاده قرار گرفت. دو مجموعه دیگر متشکل از فیلم و مستند با توجه به خلاصه های مشخص شده در ارتباط با فیلم ها و مستندات و چکیده های مرتبط برای فیلم ها مورد بررسی قرار گرفتند. علیرغم طبیعت متفاوت این حوزه ها، خلاصه های حاصله به وسیله انسان که جهت ارزیابی مورد استفاده قرار گرفته است دارای نمرات مشابهی در چنین رویه ای می باشد.
بهترین الگوریتم های کاربردی شامل LSA برای اخبار و مستند و LexRank برای فیلم هستند. با این وجود، ما نسبت به انجام آزمایشات ترکیبی اسکریپت ها و زیرنویس ها برای فیلم ها به منظور ارزیابی عملکرد الگوریتم های ژنریک از طریق درج محتوای تکراری اقدام نمودیم. نتایج ما مؤکد آن است که چنین ترکیبی نامطلوب می باشد. به علاوه، می توان مشاهده نمود که کلیه الگوریتم ها برای زیرنویس ها و اسکریپت ها دارای رفتار مشابهی هستند. همانگونه که قبلاً ذکر شد، میانگین این نمرات دارای ارتباط نزدیکی با مقادیر R-SU4 می باشد که خود مؤکد آن است که R-SU4 قابلیت حاصل آوردن مفاهیم به دست آمده از دو ویژگی تک گرم و دو گرم را خواهد داشت.
ما سعی در کاربرد زیرنویس ها به عنوان نقطه آغازین جهت انجام خلاصه های ویدیویی فیلم ها و مستندات نمودیم. برای فیلم، نتایج حاصله از آزمایشات با استفاده از خلاصه های مشخص شده معرف آن است که خلاصه سازی اسکریپت ها صرفاً به صورت حاشیه ای سبب ارتقای عملکرد می شود، موردی که در مقایسه با زیرنویس ها است. این مورد خود مؤکد آن است که زیرنویس ها به عنوان یک رویکرد مهم برای خلاصه سازی فیلم های مبتنی بر متن و مستند به شمار می آیند. این ویژگی مثبت بر مبنای دسترسی گسترده آنها، در تضاد با اسکریپت ها، مشخص گردیده است.

خلاصه سازی فیلم ها و مستندات با زیرنویس ها و اسکریپت ها

دیدگاهتان را بنویسید

نشانی ایمیل شما منتشر نخواهد شد. بخش‌های موردنیاز علامت‌گذاری شده‌اند *

لطفا به جای کپی مقالات با خرید آنها به قیمتی بسیار متناسب مشخص شده ما را در ارانه هر چه بیشتر مقالات و مضامین ترجمه شده علمی و بهبود محتویات سایت ایران ترجمه یاری دهید.
تماس با ما

اکنون آفلاین هستیم، اما امکان ارسال ایمیل وجود دارد.

به سیستم پشتیبانی سایت ایران ترجمه خوش آمدید.