شناسایی چندنمایی حرکت انسان با تحلیل فواصل فازی و تشخیص خطی
شناسایی چندنمایی حرکت انسان با تحلیل فواصل فازی و تشخیص خطی – ایران ترجمه – Irantarjomeh
مقالات ترجمه شده آماده گروه کامپیوتر
مقالات ترجمه شده آماده کل گروه های دانشگاهی
مقالات رایگان
قیمت
قیمت این مقاله: 38000 تومان (ایران ترجمه - irantarjomeh)
توضیح
بخش زیادی از این مقاله بصورت رایگان ذیلا قابل مطالعه می باشد.
شناسایی چندنمایی حرکت انسان با تحلیل فواصل فازی و تشخیص خطی
شماره |
172 |
کد مقاله |
COM172 |
مترجم |
گروه مترجمین ایران ترجمه – irantarjomeh |
نام فارسی |
شناسایی چند- نمایی حرکت انسان بر مبنای تحلیل فواصل فازی و تشخیص خطی |
نام انگلیسی |
Multi-view human movement recognition based on fuzzy distances and linear discriminant analysis |
تعداد صفحه به فارسی |
65 |
تعداد صفحه به انگلیسی |
14 |
کلمات کلیدی به فارسی |
شناسایی فعالیت, حرکت های ساده / داینیم های چند- نمایی, کمی کردن / کوانتش بردار فازی, تحلیل مشخص خطی |
کلمات کلیدی به انگلیسی |
Activity recognition, Multi-view dynemes, Fuzzy vector quantization, Linear discriminant analysis |
مرجع به فارسی |
انستیتو انفورماتیک و دورسنجی، مرکز تحقیقات و فناوری هلاس، یوناندپارتمان علوم انفورماتیک، دانشگاه ارسطو، یونان، الزویر |
مرجع به انگلیسی |
Computer Vision and Image Understanding; Informatics and Telematics Institute, Centre for Research and Technology Hellas, Greece; Elsevier |
سال |
2012 |
کشور |
یونان |
شناسایی چندنمایی حرکت انسان با تحلیل فواصل فازی و تشخیص خطی
شناسایی چندنمایی حرکت انسان بر مبنای تحلیل فواصل فازی و تشخیص خطی
چکیده
در این مقاله، یک روش شناسایی نوین حرکت اشخاص با قابلیت چند – نمایی / نمای دید متعدد ارائه می شود. بر این مبنا، در ابتدا یک شاخص جدید ویدیویی در خصوص حرکت چند نمایی افراد عرضه می گردد که با توجه به ویژگی های اولیه حرکت در قالب تصویربرداری از وجوه دید مختلف مد نظر بوده و تحت عنوان «داینیم ها یا حرکت های ساده چند نمایی» خوانده می شود. ویدیوی حرکتی در یک فضای ویژگی جدید (تحت عنوان فضای داینیم) با استفاده از حرکت های ساده یا دانیم های چند – نمایی ارائه می شود، که از این طریق قابلیت تولید شاخص حرکت چند نمایی زمان ثابت / نامتغیر به وجود می آید. فواصل فازی از دانیم های چند نمایی جهت مشخص سازی حالت قرارگیری یا وضعیت بدن انسان در فضای حرکت بکار گرفته شده اند. سه گونه تحلیل مشخص خطی (LDA) به منظور حاصل آوردن یک شاخص حرکت متمایز در یک فضای با بعدیت اندک مورد ارزیابی قرار می گیرد. مشکل شناسایی نما / دید را می توان با استفاده از یک راهکار شیفت بلوک مدور و در پی آن ارزیابی فاصله اقلیدوسی حداقلی با توجه به هر گونه حرکت ساده، یا از طریق بررسی ویژگی تغییر ناپذیر شیفت مدور / دایره ای تبدیل فوریه گسسته (DFT) حل نمود. شاخص حرکت تفکیکی در ترکیب با مشخص سازی موقعیت دید دوربین و نزدیک ترین مرحله رده بندی مرکز ثقل یا گرانیگاه منجر به حاصل آوردن نوعی دسته بندی دقیق در ارتباط با حرکت اشخاص / بازیگران شده است.
کلمات کلیدی: شناسایی فعالیت، حرکت های ساده / داینیم های چند- نمایی، کمی کردن / کوانتش بردار فازی، تحلیل مشخص خطی.
شناسایی چندنمایی حرکت انسان با تحلیل فواصل فازی و تشخیص خطی
1- مقدمه
شناسایی حرکت انسان و تحلیل آن به عنوان یک مؤلفه مهم برای سیستم های کاربردی مختلف به شمار می آید. چنین موردی را می توان به عنوان مرحله پیش پردازشی برای تحلیل رفتار انسانها در رشته های گسترده ای، نظیر کنترل و نظارت [1]، تعامل انسان با کامپیوتر و همچنین بازی [2]، متراکم سازی مدل مبنا [3]، واقعیت افزوده [4] و تفسیر معنایی ویدیو مد نظر قرار داد. عبارت «حرکت اشخاص» در معانی مختلفی در مباحث مرتبط بکار گرفته شده است. در برخی از موارد چنین موردی به عنوان یک مؤلفه قابل تبادل با عباراتی نظیر جنبش انسان، و عملکرد انسانی یا فعالیت انسان بکار گرفته شده است. در این مقاله، ما از اصطلاحات رده بندی علمی بکار گرفته در مرجع [5] استفاده می نماییم که در آن حرکت، فعالیت، و عملکرد به ترتیب مترادف با الگوهای حرکتی سطح پایین، سطح متوسط و سطح بالا می باشند. رویکردهای بسیاری به منظور توصیف رسمی الگوهای حرکتی انسان ارائه شده اند. دو رویکرد که در آنها اقدام به بررسی اطلاعات کلی بدن انسان به منظور توصیف ژست های یا وضعیت بدن انسان و شکل آن شده است در مراجع [6، 7] نشان داده شده اند. در مرجع [6]، تصویر انرژی جنبشی (MEI) و تصویر تاریخچه جنبشی (MHI) ارائه شده است. MEI یک تصویر باینری می باشد، که نشان دهنده نواحی جنبشی یا متحرک به رنگ سفید و نواحی ساکن به رنگ تیره است. MHI نیز یک تصویر مقیاس خاکستری می باشد که شدت آن به عنوان تابعی از تأخر جنبشی به شمار می آید. به طور جایگزین، حرکت ها را می توان بر مبنای یک توالی از قسمت های اصلی یا اولیه حرکت مد نظر قرار داد که اصطلاحاً تحت عنوان «حرکات ساده» یا داینیم ها خوانده می شوند [7]. این رویکرد از شناسایی گفتار الهام گرفته است، که در آن واج جهت مشخص سازی کوچکترین بخش کلام مورد استفاده قرار می گیرد [8].
غالب الگوریتم های شناسایی حرکت شامل یک فاز آموزشی هستند. چالش های اصلی که یک روش شناسایی حرکت می بایست با آن رو به رو شود و ما آنها را در این مقاله مخاطب قرار می دهیم به شرح ذیل هستند:
-
گوناگونی های بین کلاسی: چندین نوع حرکت کاملاً مشابه هستند، به طور مثال دویدن به صورت آهسته و همچنین دویدن.
-
گوناگونی های داخل کلاسی: گوناگونی ها در سرعت حرکت، سبک اجرایی، و همچنین نسبت های مرتبط با اندازه گیری بدن انسان که می توان بین هر یک از اشخاص مشاهده نمود.
-
شرایط تصویربرداری: ویژگی های مربوط به موضع یابی هر شخص ممکن است تحت محیط های دینامیکی یا آشفته متفاوت باشد. خود همپوشانی ها یا همپوشانی های بخش های بدن انسان از دیگر موضوعات که ممکن است منجر به حصول شاخص ضعیفی از بدن انسان شود.
-
جهت گیری بدن انسان: جهت یک شخص با توجه به دوربین ممکن است متفاوت از جهت گیری های حاصله از ویدیوهای آموزشی باشد (همانند نمای کناری در برابر نمای جلویی). به علاوه، در طی حرکت، ممکن است اقدام به تغییر جهت حرکت خود نماید. یک شاخص مناسب بدن انسان که در تعامل با این تغییرات می باشد را می بایست مدنظر قرار داده به گونه ای که دقت فرایند شناسایی حرکت تحت الشعاع قرار نگیرد.
-
فاصله بین دوربین یا دوربین ها و شخص: شخص ممکن است در یک فاصله فرضی از دوربین در حال حرکت باشد. چنین موردی بر روی اندازه تصویر بدن وی در سطح یا سطوح دوربین ها تأثیرگذار خواهد بود.
-
عملیات پیوسته: این روش اجازه شناسایی حرکت پیوسته در خلال زمان را می دهد.
-
استقرار دوربین: دوربین یا دوربین های بکار گرفته شده در فازهای آموزش و تست ممکن است از نظر رزولوشن و نرخ فریم با یکدیگر متفاوت باشند. در صورتی که چندین دوربین وجود دارد، خطاهای سنکرون سازی یا همزمان سازی بین فریم ها که خود از دوربین های مختلف حاصل می شوند ممکن است رخ دهد. به علاوه، استقرار دوربین های متعدد غالباً نیازمند انجام فرایند کالیبراسیون می باشد.
زیادی الگوریتم های شناسایی حرکت پیشنهادی سبب تقسیم آنها به سه رده بندی مشخص بر مبنای ویژگی های استقرار دوربین و قابلیت آنها جهت انجام فرایند شناسایی حرکت انسان به صورت مستقل از نما یا منظر یا دید نموده است: تک نمایی، تک نمایی / نمای ثابت و چندنمایی [9، 10].
تاکنون، اکثریت الگوریتم های شناسایی حرکت انسان پیشنهادی از دوربین ثابت (ویدیوی تک نما) در هر دوی فازهای آموزشی و شناسایی خود استفاده نموده اند. در [11]، یک کتاب مرجع و متشکل از قوانین مرتبط با تکانک ها (تقسیم حرکت به بخش های کوچک تر تحت عنوان تکانک خوانده می شود) برای هر بخش بدن ارائه شده است تا قابلیت ارائه تصاویر وضعیت و حالت اندام ها وجود داشته باشد. یک تکانک به عنوان مجموعه ای از تصاویر متصل به هم مدنظر است که مترادف با شکل، حرکت و همپوشانی بخش های اصلی مختلف بدن می باشد. مدل های پنهان مارکوف (HMMs) قابلیت ارزیابی غالب توالی های تکانک ها و حرکت مشخص شده در یک توالی خاص را خواهند داشت. در مرجع [12]، برجستگی های بدن بر مبنای یک بردار ویژگی ایجاد شده بر حسب یک توصیف گر شکل تشریح گردیده است. ویژگی های محتوای شکل در مجموعه های غالب در هر تصویر وضعیت اندامی خوشه بندی شده است. این دسته بندی با استفاده از الگوریتم نزدیکترین همسایه حاصل آمده است. در مرجع [7، 13]، دنبال نمودن اطلاعات به منظور شکل دادن بردارهای حرکتی در هر فریم ویدیویی حاصل می شود. متعاقباً HMMs نیز جهت شناسایی حرکت انسان بکار گرفته می شود. در مرجع [14]، طرح های حفظ موقعیت مکانی (LPP) نیز جهت مشخص سازی یک توالی از سیلوئت های متحرک مرتبط با یک ویدیوی متحرک در یک فضای کم بعدی بکار گرفته می شود. فاصله میانه هاسدورف یا همبستگی فضایی ـ زمانی به هنجار شده جهت دسته بندی یک حرکت ناشناخته در داخل چارچوب نزدیکترین ـ همسایه بکار گرفته شده است. در مرجع [15]، پرتوتایپ های حرکت به وسیله حرکت های ساده به وجود آمده به وسیله فرایند کوانتش یا کمی برداری بردار فازی (FVQ) ارائه شده است. تحلیل مشخص خطی (LDA) نیز جهت مشخص سازی فاصله های بردار فازی هر بردار وضعیت اندامی در داخل یک توالی حرکتی از حرکت های ساده به یک فضای کم بعدی اعمال شد. در این فضا، فاصله حداقلی ماهالانوبیس یا حداکثر شباهت کسینوسی از مراکز کلاس حرکتی برای رده بندی حرکت انسان بکار گرفته شده است. در مرجع [6] MEI و MHI ارائه دهنده این موضوع می باشند که یک حرکت به صورت الحاقی می باشد تا قابلیت ایجاد بردار محتوای شکل و اطلاعات زمانی وجود داشته باشد. رده بندی حرکت بر مبنای انجام پروسه نزدیکترین مجاور یا همسایه اعمال شده است. یک ارتقای مرتبط با این تحقیق آن است که چنین موردی نیازمند به رویه پیگیری ارائه شده در مرجع [13] ندارد. با وجود آنکه این الگوریتم ها نتایج شناسایی خوبی را حاصل می آورند، آنها نیازمند استفاده از یک زاویه مشخص دوربین در طی فازهای آموزشی و شناسایی می باشند. این زاویه می بایست به صورت ایده آل در حالتی قرار داشته باشد که قابلیت تصویربرداری اطلاعات حرکت تفکیک شده و مشخص را داشته باشد و غالباً چنین موردی مترادف با نمای از کنار است. این فرضیه منجر به ایجاد نوعی محدودیت در محیط شناسایی می شود، چرا که چنین الگوریتم هایی غالباً با شکست رو به رو خواهند شد آن هم در صورتی که خواسته باشیم شخص تحت بررسی را از زوایای نمایی مختلفی مورد تصویربرداری قرار دهیم و یا آنکه مسیر حرکت در خلال زمان تغییر یابد.
به منظور فایق آمدن بر این محدودیت، محققین نوعی نگرش خاص در ارتباط با شاخص حرکت تک نمایی ثابت همراه با رویکردهای شناسایی را ارائه نمودند. در مرجع [17]، یک شاخص محاسباتی حرکت انسان که قابلیت تصویربرداری از تغییرات سریع در سرعت های حرکتی بالا را دارد ارائه گردید و مشخصات جهتی آن نیز بر مبنای منحنی فضایی ـ زمانی مسیر سیر دو بعدی حاصل شد. در مرجع [18]، مشکل شناسایی حرکت ثابت که با بکارگیری تئوری ثابت هندسی مورد بررسی قرار گرفت بر مبنای نمایش های نور ـ نقطه می باشد. یک شاخص ثابت یا بدون تغییر دو بعدی متعارف بر مبنای ترکیب بخش های گوناگون یک صحنه سه بعدی حاصل آمد. در مرجع [19]، یک شاخص حرکت نوین با استفاده از آنچه تحت عنوان حجم های حرکت فضایی ـ زمانی (STV) خوانده می شود ارائه شد. با توجه به نماهای برجسته یا کانتورهای هر شیء در هر وهله زمانی، یک حجم حرکتی بر مبنای محاسبه نقطه مترادف بین کانتورهای پیاپی بر حسب تئوری گراف ایجاد شد. متعاقباً، یک شاخص حرکتی بر حسب علامت میانگین مشخص و انحناهای گاوسی بر مبنای تحلیل هندسه تفاضلی سطوح حجم محلی حاصل آمد. این توصیف گرهای حرکتی جهت تعریف یک بخش حرکتی مورد استفاده قرار گرفتند، که به صورت نامتغیر یا ثابت با زاویه دید دوربین تنظیم گردیدند. در مرجع [20]، یک رویکرد شناسایی حرکتی مثال مبنا ارائه شد که با استفاده از وابستگی های بین نمونه های حرکتی سه بعدی و تصاویر دو بعدی آنها بر روی سطح تصویر نشان داده شد. مثال های حرکتی سه بعدی نیز جهت ارائه اطلاعات تصویری دو بعدی در فاز آموزشی بکار گرفته شدند، در حالی که در فاز شناسایی، HMMها به منظور مشخص سازی توالی حرکتی که به بهترین وجهی توصیف کننده مشاهدات تصویری می باشند بکار گرفته شدند. یک گونه HMM، میدان های تصادفی شرطی (CRFs) در مرجع [21] برای شناسایی حرکت انسانی بکار گرفته شد. CRFها نیز قابلیت فایق آمدن بر فرض استقلال مشاهداتی در تحلیل حرکت انسانی را داشته اند. در مرجع [22]، حرکت های انسانی به عنوان شکل های سه بعدی ارائه شدند که بر مبنای سیلوئیت ها در یک حجم زمان ـ فضا ارائه گردیدند. راه حل معادله پوآسون نیز جهت استخراج سطوح زمان ـ فضا بکار گرفته شد، همانند برجستگی زمان ـ فضای محلی، دینامیک حرکت، ساختار شکل و جهت گیری. این ویژگی ها متعاقباً برای مشخص سازی شاخص ها و دسته بندی شکل بکار گرفته شدند. روش های توصیفی فوق به صورت ثابت در داخل یک محدوده زاویه دید قرار گرفته و بنابراین کاربرد آنها محدود به برخی از موارد خاص می باشد.
اخیراً، محققینی الگوریتم هایی را با استفاده از بکارگیری دوربین های متعدد ارائه داده اند. کاربرد دوربین های متعدد دارای مزیت های مختلفی می باشند. بدن انسان قابلیت تصویربرداری از چندین نما را دارد و بنابراین ویژگی شناسایی حرکت مستقل ـ از نمای کامل را می توان حاصل آورد. به علاوه، تصویر یک شخص قابلیت همپوشانی در یک یا چند دوربین را داشته و از این طریق ویژگی های ممتازی را می توان حاصل آورد و فرایند شناسایی حرکت از این طریق محتمل خواهد بود. در نهایت، از طریق بررسی چندنمایی اطلاعات بدن انسان دقت بهتری در ارتباط با شناسایی حاصل می شود. به علاوه، نیاز جهت پردازش جریان های ویدیویی متعدد منجر به هزینه محاسباتی بیشتری شده و به دوربین های بیشتری نیاز خواهد بود که فرایند استقرار آنها را پیچیده تر و پرهزینه تر خواهد کرد. در مرجع [23، 24]، اطلاعات چند نمایی جهت بررسی شناسایی حرکت ثابت ـ نما بکار گرفته شده است. یک روش بخش شدگی زمانی نیز جهت تفکیک یک توالی یا سکوانس حرکت پیوسته به عملکردهای اولیه بکار گرفته شد. بخش های بصری مورد محاسبه قرار گرفته و در خلال یک دوره زمانی جمع آوری گردیدند که تحت عنوان حجم های تاریخچه حرکتی (MHVs) خوانده می شوند که به عنوان گونه های تعمیم یافته MHIهای پیشنهادی در مرجع [6] تلقی می شوند. MHVها، با تغییر شکل به مختصات استوانه ای در امتداد محور عمودی، جهت ایجاد ویژگی های ثابت ـ دید در حوزه فوریه ارائه شدند. در مرجع [25]، جریان آبتیک کلی ـ محلی ترکیبی (CLG) جهت استخراج یک ویژگی جریان حرکتی بکار گرفته شد. گشتاورهای ثابت با انحراف های حرکت نیز جهت استخراج یک شکل کلی جریان از توالی های تصویر چند نمایی یا چند دیدی بکار گرفته شدند. HMMهای چند بعدی (MDHMMs) نیز جهت دسته بندی یک حرکت در حال تکمیل ناشناخته بکار گرفته شدند.
در این مقاله، یک روش ثابت ـ نمایی جدید که قابلیت بهره گیری از اطلاعات تصویربرداری شده به وسیله چندین دوربین را دارد ارائه می گردد. پوشش های بدن انسان به صورت باینری از یک فرایند کسری پس زمینه [26، 27] یا با استفاده از یک تکنیک اصلی رنگ بندی، یا هر گونه تکنیک جداسازی موضوع در حال حرکت حاصل می شوند. در غالب سیستم های کاربردی، نظیر سیستم های نظارتی ویدیویی، چنین موردی به عنوان یک راهکار مؤثر جهت حاصل آوردن سیلوئیت های موضوع در حال حرکت می باشد. در مواردی که چنین رویکردی را نتوان بکار گرفت، تکنیک های ارزیابی وضعیت بدن انسان [28، 29] را می توان برای فریم های ویدیویی چنین دوربینی جهت تولید پوشش ها یا ماسک های بدن انسان به صورت باینری بکار گرفت. در مورد پوشش های باینری نویزدار، تکنیک های پساپردازشی ساده، نظیر عملیات مورفولوژیکی یا تکنیک های فیلترینگ پیشرفته تر را می توان به منظور ارتقای کیفیت بکار گرفت. بدن انسان در فریم های ویدیویی تک نمایی پیاپی قرار می گیرد [30، 31] و پوشش ها یا ماسک های باینری متناظر با شخصی که در حال رد شدن از کلیه دوربین ها می باشد متعاقباً با یکدیگر ترکیب شده تا قابلیت ارائه الگوهای وضعیت چندنمایی به وجود آید. این الگوها خوشه بندی شده و متعاقباً تعداد ویژگی های اولیه وضعیت چند نمایی مشخص می گردند که تحت عنوان حرکت های ساده چند نمایی خوانده می شوند. فواصل فازی بین هر الگوی وضعیت چند نمایی و هر حرکت ساده چندنمایی نیز حاصل شده تا آنکه قابلیت ایجاد یک شاخص فضایی جدید برای وضعیت های چندنمایی بدن به وجود آید، که آن را تحت عنوان فضای حرکت ساده چندنمایی می خوانند. شاخص حرکتی جدید به عنوان سرعت حرکت و ویژگی ثابت مربوط به مدت خوانده می شود. به علاوه، چنین موردی به نظر قابلیت تعمیم کلیه گونه ها در داخل یک کلاس، همراه با تمایز بین عملکردهای کلاس های مختلف و تعامل با خطاهای سنکرون سازی یا همزمان سازی متعارف را خواهد داشت. تحلیل مشخص خطی (LDA) جهت کاهش بعدیت فضای حرکت ساده از طریق اکتشاف یک زیرفضای مشخص بهینه اعمال می شود. نگاشت یا نقشه برداری شاخص های حرکتی بر روی این زیر فضا سبب حصول آنچه تحت عنوان شاخص حرکت مشخص خوانده می شود می گردد، که جهت دسته بندی حرکت از طریق بکارگیری هر کدام از فواصل اقلیدوسی یا فواصل ماهالانوبیس از مراکز کلاس حرکت مشخص بکار گرفته می شوند.
روش پیشنهادی به عنوان یک روش غیرپارامتری به شمار آمده و در حقیقت به عنوان مؤلفه ای می باشد که قابلیت بررسی اطلاعات غنی تصویربرداری شده به وسیله دوربین های غیرکالیبره و سنکرون متعدد به منظور حاصل آوردن دقت دسته بندی حرکت انسانی در سطح بالا را خواهد داشت. چنین موردی این فرض را مطرح می نماید که هر شخص در یک فاصله کوتاه یا متوسط از دوربین ها قرار می گیرد. ماسک یا پوشش های باینری بدن انسان در فریم های وضعیت با رزولوشن پایین مجدداً مقیاس بندی می شوند. بنابراین، این روش می تواند در حالتی عمل نماید که در آن سیلوئت های بدن انسان در وضعیت رزولوشن پایین قرار داشته باشند، یعنی بلندی بدن بیشتر از 30 پیکسل باشد. در مواقعی که اندازه بدن کوتاهتر باشد، ماسک باینری بدن ممکن است تحت تأثیر وجود نویز قرار داشته باشد. چنین موردی بر دقت شناسایی تأثیرگذار خواهد بود. راه حل مشکل شناسایی نقطه دید دوربین، یعنی، شناسایی موقعیت دوربین با توجه به بدن انسان، قبل از حرکت به سمت شناسایی ویژگی های جنبشی در یک ویدیوی آزمایشی جدید منجر به تکنیک شناسایی حرکت مستقل ـ دید شده است. چنین موردی از طریق تعیین آرایش یافتگی مجدد دوربین محقق شده است که قابلیت فراهم آوردن زاویه یکسان دید همانند فاز آموزشی را خواهد داشت، یا از طریق بررسی مجدد شاخص های بدن انسان در حالت دید ـ پایدار بر مبنای ویژگی نامتغیر شیفت دایره ای یا مدور فرایند تبدیل فوریه گسسته نیز این امکان وجود خواهد داشت. کاربرد حرکت های کوچک یا داینیم های چند دیدی یا چندنمایی، در ترکیب با تصویر شاخص های حرکتی در یک فضای ویژگی مشخص کم بعدی منجر به شناسایی حرکت به صورت سریع و دقیق خواهد شد.
ویژگی های نوین اصلی این مقاله به شرح ذیل ارائه می شوند: (1) پیشنهاد یک شاخص حرکت نامتغیر ـ دید نوین (داینیم ها یا حرکت های ساده چندنمایی)، (2) راه حل مشکل شناسایی نمای دید دوربین با استفاده از راهکار شیفت دایره ای بر مبنای شاخص وضعیت چند نمایی، همراه با فاصله حداقلی اقلیدوسی از داینیم یا حرکت های ساده چند نمایی، یا از طریق بررسی ویژگی ثابت شیفت دایره ای مرتبط با DFT، (3) کاربرد گونه های LDA برای کاهش بعدیت در فضای داینیم چند نمایی.
ادامه این مقاله به شرح ذیل سازماندهی شده است. بخش 2 فراهم آورنده شمایی از چارچوب شناسایی بکار گرفته شده در رویکرد پیشنهادی و مبحث کوتاهی در ارتباط با وظیفه شناسایی حرکت می باشد. بخش 3 ارائه دهنده جزئیات فنی است که مشخص کننده مراحل پردازش انجام شده در روش پیشنهادی می باشد. بخش 4 ارائه دهنده آزمایشاتی می باشد که برای ارزیابی عملکرد روش پیشنهادی ارائه شده است. در نهایت نتیجه گیری در بخش 5 ارائه خواهد شد.
شناسایی چندنمایی حرکت انسان با تحلیل فواصل فازی و تشخیص خطی
2- بیان مشکل
یکی از ویژگی های چند دوربینی بکار گرفته شده مؤلفه همگرایی می باشد، که در آن کلیه N دوربین همزمان شده شامل نقطه ای در مرکز فضای مشاهده، همانند شکل 1 الف برای هشت دوربین (N = 8) می باشد. حجم تصویربرداری به عنوان فضایی مدنظر خواهد بود که از کلیه N دوربین قابل مشاهده می باشد. فاصله بین دوربین ها و شخص بر مبنای ویژگی های کاربردی تعیین می گردد. در مورد شناسایی حرکت در ارتباط با ویژگی های کوتاه مدت فیلمبرداری، نظیر شناسایی حرکت داخل ساختمان، این فاصله احتمالاً کوتاه می باشد، در حالی که در موارد دوردست تر یا خارج از ساختمان، همانند پارکینگ ها، چنین فاصله ای بیشتر خواهد بود. در مورد دومی، اندازه انسان در ویدیو کوچک بوده و چنین موردی بر روی دقت شناسایی تأثیرگذار خواهد بود. هر دوربین قابلیت تصویربرداری از یک فریم ویدیویی در یک وهله زمانی را خواهد داشت، که تحت عنوان فریم تک نمایی یا تک دیدی خوانده می شود. مجموعه ای از فریم ها از کلیه دوربین های حاصل آمده در یک وهله زمانی خاص تحت عنوان فریم N ـ نمایی خوانده می شود. مثال مرتبط با آن در شکل 1 ب نشان داده شده است.
3- روش پیشنهادی
3ـ1. پیش پردازش
همانگونه که قبلاً توصیف شد، یک حرکت انجام شده در داخل حجم تصویربرداری دوربین با استفاده از N دوربین در یک حرکت N ـ نمایی متشکل از Ntm فریم ویدیویی N ـ نمایی تصویربرداری می شود که در آن یک دوره یا برهه زمانی حرکت مشخص گردیده است. تعداد فریم های Ntm در فریم ویدیویی N ـ نمایی ممکن است متغیر باشد که بر مبنای کلاس حرکت m، 1 £ m £ M خواهد بود. در طی فاز آموزش، ویدیوی حرکت N ـ نمایی مشخص کننده تعداد برهه های متوالی است که به طور دستی در ویدیوهای N ـ نمایی اولیه مجزا گردیده اند و متعاقباً در فرایند آموزش بکار گرفته شده اند. در طی فاز تست، در مورد شناسایی حرکت متوالی، یک پنجره اسلاید دارای طول انتخابی مناسب با قابلیت حرکت در بخش ویدیوی N ـ نمایی بکار گرفته می شود و فرایند شناسایی برای هر موقعیت زمانی این پنجره اعمال می گردد.
3ـ2. محاسبه داینیم ها (حرکات ساده)
در فاز آموزشی، کلیه بردارهای وضعیت N ـ نمایی مشخص شدند. NT مرتبط با کلیه ویدیوهای حرکت اولیه N ـ نمایی آموزشی مختلف NT دارای Ntm، m = 1, …,M فریم می باشند که بر مبنای K خوشه بدون استفاده از برچسب های حرکت شناخت شده خوشه بندی گردیدند. این رویکرد به منظور ایجاد ویژگی های اولیه حرکتی چند ـ نمایی مستقل حرکتی دنبال می شود، که تحت عنوان داینیم ها یا حرکت های ساده N ـ نمایی خوانده می شوند. با وجود آنکه این راهکار را می توان بر مبنای بکارگیری تکنیک های خوشه بندی مختلف انجام داد، نظیر خوشه بندی طیفی [32، 33]، نقشه ها یا نگاشت های خود سازماندهی [34]، و الگوریتم C ـ میانگین [35]، این موضوع از طریق انجام آزمایشات مشخص شد که یک الگوریتم K ـ میانگین [36] قابلیت فراهم آوردن داینیم ها یا حرکت های ساده N ـ نمایی رضایت بخش را خواهد داشت. الگوریتم K ـ میانگین سعی در پارتیشن بندی بردارهای N ـ نمایی ویدیوهایی آموزشی در K خوشه با توجه به ارائه مراکز j = 1, …, K می نماید، بنابراین عبارت ذیل به حداقل خواهد رسید:
3ـ3. شاخص حرکت
همانگونه که قبلاً ذکر شد، هر ویدیوی حرکتی اولیه بر مبنای مجموعه ای از Ntm بردارهای وضعیت N ـ نمایی مشخص pi Î RNs، Ns = N ´ H ´ W، I = 1, …, Ntm توصیف می گردد که در آن Ntm بر مبنای انواع حرکت می تواند متغیر باشد. پس از محاسبه داینیم یا حرکت های ساده، فواصل فازی:
3ـ4. تصویر یا طرح LDA
به منظور مشخص سازی کلاس های حرکت، اطلاعات برچسب موجود در فاز آموزشی را می توان مورد بررسی قرار داد. بعدیت بردارهای حرکت آموزشی smj Î RK را می توان به D < K بعد با استفاده از روش زیر فضای مشخص کاهش داد.
3ـ4ـ1. LDA چند کلاسه
بردارهای حرکت آموزشی smj، m =1, … , M، j =1, … , Nm که معرف هر ویدیوی متحرک می باشند برچسب زده شدند. کاربرد LDA چند کلاسه منجر به ارائه هر بردار حرکتی smj Î RK در یک (M-1) ـ فضای مشخص ابعادی RM-1 شده است که خود سبب ایجاد بردارهای حرکت مشخص گردیده است. در این فضا، بردارهای حرکت مشخص ymj متعلق به کلاس های حرکت مختلف به خوبی مجزا گردیده اند. ماتریس بهینه Yopt به وسیله بردارهای خاص تعمیم یافته M-1 که مترادف با بزرگترین مقادیر خاص هستند شکل گرفته اند. در این مورد، دو ماتریس پراکنده ذکر شده فوق عبارتند از:
3ـ4ـ2. تحلیل مشخص خطی چند کلاسه تکه ای وزن دار (WPLDA)
در WPLDA بردارهای حرکتی آموزشی smj Î RK که از نقطه نظر بعدیت مساوی با تعداد داینیم های K می باشند به بردارهای ویژگی کم بعدیت smjn Î RKs تقسیم گردیده اند، به گونه ای که حاصل آمده است، که سبب ایجاد Ns زیرمجموعه بردارهای ویژگی شده است که هر کدام دارای بعدیت می باشند. Ns بدین روش برگزیده شده است، به گونه ای که تعداد بردارهای متحرک آموزشی در هر کلاس برای بکارگیری LDA کفایت خواهد داشت.
3ـ4ـ3. یک در برابر همگی به علاوه LDA های دو کلاسه
مشکل دسته بندی M ـ کلاس را می توان به یک M در برابر کلیه مسایل تقسیم کرد که بعد از آن مسایل رده بندی دو کلاسه نیز حاصل می شوند. برای کلیه این مشکلات، بعدیت بردارهای آموزشی به 1 تقلیل می یابد. به عبارت دیگر پس از مشخص سازی ویژگی ها، نمونه smj، m =1, … M، j =1, … , Nm به عنوان یک نمونه عددی حاصل می شود: ymj = Yoptsmj. برای هر مورد مشکلات یک در برابر کل، بردارهای متحرک متعلق به کلاس حرکت خاص به عنوان نمونه های مثبت بکار گرفته می شوند، در حالی که بردارهای حرکتی باقی مانده به عنوان نمونه های منفی مورد استفاده قرار می گیرند. ماتریس های پراکندگی در قالب ذیل تعریف می گردند:
3ـ5. مشکل شناسایی نقطه دید دوربین
همانگونه که قبلاً توصیف شد، چیدمان ویدیوهای متحرک متشکل از N نمای واحد در داخل یک ویدیوی متحرک آزمایشی N ـ نمایی می بایست سازگار با ویژگی های چیدمان نقطه دید دوربین بکار گرفته شده در طی فاز آموزشی جهت شکل دادن به بردارهای وضعیت N ـ نمایی باشند. این بدان معنا است که اولین ویدیو می بایست مترادف با دید از جلو باشد و کلیه موارد دیگر می بایست در یک حالت رو به عقربه های ساعت آرایش یابند (یعنی به صورت 45 درجه، نمای سمت راست، 135 درجه، غیره). به طور آشکار، این نوع از آرایش دوربین الزاماً برای ویدیوی متحرک چند نمایی جدیداً حاصل آمده ضروری نمی باشد. بنابراین، مشکل شناسایی نقطه دید دوربین را می بایست قبل از شناسایی، قبل از آنکه فرایند شناسایی (تست) آغاز شود، حل نمود.
3ـ5ـ1. چیدمان بردار وضعیت چند نمایی
همانگونه که قبلاً مشخص شد، در فاز آموزشی، کلیه نماهای موجود هر ویدیوی متحرک N ـ نمایی به صورت دستی آرایش می یابند. پس از این پروسه، کلیه بردارهای وضعیت N ـ نمایی آموزشی pi قابلیت نشان دادن حرکت در یک حالت سازگار را خواهند داشت، یعنی از طریق قرار دادن نمای جلویی در ابتدا و متعاقباً نماهای دیگر در جهت عقربه های ساعت. چنین موردی منجر به ایجاد داینیم های سازگار N ـ نمایی می گردد.
3ـ5ـ2. شاخص وضعیت نامتغیر ـ نمای فوریه
یک شاخص وضعیت نامتغیر ـ نمای جدید جهت حل مسئله شناسایی نقره ای دید دوربین بکار گرفته شده است. این شاخص قابلیت بررسی تغییر ناپذیری شیفت مدور بزرگی ضرایب DFT را خواهد داشت:
3ـ6. رده بندی حرکت (فاز تست)
جهت دسته بندی یک ویدیوی N ـ نمایی ناشناخته حاوی Ntm ماسک باینری یک فرد در حال حرکت از هر N نما، ROI هر وضعیت شخص در مرکز جرم آن متمرکز شده و ویدیوهای وضعیت تک نمایی باینری با اندازه فریم مشخص مساوی با ROI حداکثری که مشخص کننده بدن شخص می باشد نیز برای هر نما ایجاد می شوند. این موارد به اندازه پیکسل های H ´ W با استفاده از فاز آموزشی (64×64 در آزمایشات ارائه شده در این مقاله) مقیاس بندی شده و جهت تولید N بردار وضعیت تک ـ نمایی تحت فرایند فاکتورگیری قرار می گیرد. این بردارها به صورت الحاقی می باشند که برای پیوستن آنها بردار وضعیت مترادف با اولین دوربین در اولین موقعیت قرار گرفته و متعاقباً بردارهای وضعیت تک ـ نما حاصله از کلیه دیگر دوربین ها در یک حالت جهت عقربه های ساعت قرار می گیرند.
3ـ7. شناسایی حرکت متوالی
همانگونه که در بخش 2 ذکر شد، یک تکنیک شناسایی حرکت نباید محدود به شناسایی حرکت اولیه (یعنی در خلال یک دوره حرکتی) باشد بلکه می بایست قابلیت شناسایی حرکت به صورت پیوسته در خلال زمان را داشته باشد. به منظور حاصل آوردن عملیات پیوسته، یک پنجره اسلاید بکار گرفته می شود. بنابراین، برای شناسایی حرکت در برهه زمانی t با استفاده از پنجره اسلاید متشکل از فریم های NW فریم های ویدیویی fi، i = t، t – 1, …, t – NW + 1 بکار گرفته می شوند. از آنجایی که طول میانگین Ntm حرکت اولیه کلاس های مختلف با یکدیگر تفاوت دارند، پنجره اسلاید می بایست حاوی تعداد مکفی NW فریم های ویدیویی باشد تا قابلیت شناسایی درست کلاس های حرکتی که دوره های اولیه آنها شامل تعداد فریم ویدیویی متفاوتی است وجود داشته باشد. از طریق انجام فرایند شناسایی در هر موقعیت پنجره اسلاید، یک عملیات شناسایی متوالی در خلال زمان حاصل می شود. این پروسه تشریح شده فوق در شکل 8 نیز نشان داده شده است.
شناسایی چندنمایی حرکت انسان با تحلیل فواصل فازی و تشخیص خطی
4- نتایج تجربی
در این بخش، نتایج تجربی حاصل آمده بر روی مجموعه اطلاعاتی ویدیوی حرکتی چند نمایی i3DPost [43] ارائه می شود. به علاوه، قابلیت روش پیشنهادی جهت اعمال شناسایی حرکت متوالی و استواری آن در زمینه خطاهای همزمانی که ممکن است در یک مجموعه چند دوربینی رخ دهند نیز ارائه شده است. در نهایت، ما روش خود را با روش های نوینی که قابلیت شناسایی حرکت نمای ـ نامتغیر در بانک اطلاعات شناسایی حرکت چند نمایی INRIA IXMAS را دارند مورد مقایسه قرار دادیم [23].
4ـ1. بانک اطلاعات چند نمایی i3DPost
بانک اطلاعات ویدیوی حرکت چند نمایی i3DPost متشکل از 64 توالی تصویر با رزولوشن بالا و با پیکسل 1920´1080 متشکل از 8 نفر (6 مرد و 2 زن) می باشد که هر کدام هشت حرکت را انجام می دهند. هر حرکت با استفاده از هشت نما تصویربرداری شده است. تصویربرداری ویدیویی در یک استودیو در دانشگاه Surrey با پس زمینه آبی و ابعاد حجم تصویر 4´3´2 متر مکعب انجام شد. دوربین ها در اطراف ناحیه تصویربرداری و در بلندای 2 متری فراتر از کف استودیو نصب شده و دارای فواصل مساوی در یک حلقه ای به قطر 8 متر بوده اند. در این توالی های تصویر 64 تایی، اشخاص اقدام به انجام حرکت های مختلفی نمودند: “قدم زدن” (wk)، “دویدن” (rn)، “پرش در جا” (jp)، “پرش رو به جلو” (jf)، “خمش” (bd)، “افتادن” (fl)، “نشستن” (st) و “دست تکان دادن” (wo).
4ـ2. بانک اطلاعات چند نمایی IXMAS
INRIA (انستیتو ملی تحقیقات انفورماتیک و اتوماسیون) با استفاده از بانک اطلاعات توالی های اکتساب حرکتی IXMAS که متشکل از 330 توالی تصویر دارای رزولوشن پایین با پیکسل 291´390 از 10 نفر می باشند (5 مرد و 5 زن)، که هر کدام از آنها در بردارنده 11 حرکت هستند. هر حرکت سه بار برای هر شخص انجام شده و از پنج نما تصویربرداری شده است. اشخاص به طور آزادانه موقعیت و جهت خود را در طی حرکت و تصویربرداری تغییر می دهند. حرکات انجام شده عبارتند از: “کنترل ساعت” (cw)، “دست به سینه شدن” (ca)، “سرخاراندن” (sh)، “نشستن” (sd)، “بلند شدن ” (gu)، “دور گشتن” (tu)، “دورزدن یک دایره” (wk)، “تکان دادن دست” (wh)، “ضربه زدن” (ph)، “کوبیدن” (kk) و “بلند کردن” (pu) . ماسک ها یا پوشش های باینری بدن اشخاص به وسیله بانک اطلاعات جمع آوری و مهیا شده است.
4ـ3. اعتبارسنجی متقابل در بانک اطلاعات چند نمایی i3DPost
در یک پروسه پیش پردازشی آفلاین، ویدیوهای اولیه حاوی یک دوره حرکتی واحد، همانند یک دوره قدم زدن، به صورت دستی در طی هر دو فاز آموزش و تست ایجاد شدند. این ویدیوها متعاقباً مورد پیش پردازش قرار گرفت، همانگونه که در زیر بخش 3ـ1 تشریح شد، تا آنکه قابلیت تولید ماسک های وضعیت باینری تک نمایی به وجود آید. در این مرحله پیش پردازشی، ابعاد مورد نیاز جهت حاصل آوردن بدن انسان در کلیه فریم ها در هر ویدیو مشخص شده و جعبه های پیوندی مرتبط با این اندازه نیز استخراج شده که در مرکز جرم اشخاص قرار گرفته و فرایند مقیاس دهی مجدد با توجه به پیکسل های H ´ W = 64 ´ 64 برای هر فریم ویدیویی اعمال گردید.
4ـ4. شناسایی حرکت متوالی
این بخش نشان دهنده ظرفیت روش پیشنهادی جهت انجام شناسایی پیوسته یا متوالی می باشد. یک ویدیویی متحرک متعدد نشان دهنده شخصی می باشد که اقدام به انجام 10 عمل تکراری نموده که در این مطالعه بکار گرفته می شود. این ویدیو بر مبنای بخش های ادغام شده ویدیویی که نشان دهنده عملکرد حرکت های اولیه انسانی می باشد ایجاد شده است. الگوریتم شناسایی حرکت با استفاده از نمونه های آموزشی ویدیوهای باینری هفت فرد باقیمانده مورد آموزش قرار گرفت. شاخص بردار وضعیت DFT، 60 داینیم هشت نمایی، بردارهای حرکت تقسیم شده به 6 بردار 10 بعدی و فاصله اقلیدوسی از جمله موارد استفاده شده بوده اند. یک پنجره اسلاید نیز بکار گرفته شد و فرایند شناسایی در هر موقعیت پنجره اسلاید اعمال گردید. از آنجایی که طول Ntm دوره های حرکت اولیه کلاس های مختلف بر مبنای محدوده 90 الی 40 متغیر می باشند، تصمیم بر آن شد تا اقدام به استفاده از NW = 21 فریم ویدیویی در داخل پنجره اسلاید شود، به گونه ای که این پنجره حاوی یک تعداد مکفی از فریم ها به منظور انباشته سازی حرکات مشخص باشد. هر چه که طول پنجره NW استفاده شده بزرگتر باشد، دقت شناسایی حرکت نیز به هنگام حرکت شخص بیشتر خواهد بود.
4ـ5. استواری در برابر خطاهای همزمان سازی
این مورد مشخص شد که دوربین های بکار گرفته شده جهت تصویربرداری ویدیوهای حرکتی چند نمایی می بایست همزمان شوند. با این وجود، در مراحل چند دوربینی، خطاهای همزمان سازی به صورت غالب پیش می آیند که منجر به تأخیرهای زمانی فرضی بین فریم های دوربین های مختلف خواهند شد. این بخش نشان دهنده استواری روش پیشنهادی در برابر این خطاها می باشد.
4ـ6. مقایسه با روش های دیگر
به منظور مقایسه روش ما با دیگر روش های نوین که هدف آنها شناسایی حرکت مستقل ـ از نما می باشند، ما اقدام به انجام آزمایشی بر روی بانک اطلاعات شناسایی حرکت چند نمایی IXMAS با استفاده از ویژگی های آزمایشی یکسان نمودیم. بدین منظور راهکار جداسازی یک فرد از اعتبار سنجی متقابل انجام شد. در هر کدام از این رویه ها، ویدیوهای پیش پردازشی 9 نفر جهت آموزش و ویدیوهای 10 نفر جهت آزمایش بکار گرفته شد. این آزمایش شامل 10 مورد از راهکار اعتبارسنجی متقابل مدنظر بوده است. در فاز آزمایش، ویدیوهای تست در یک مرتبه تصادفی ارائه شدند که بر حسب موقعیت نسبی نماها با توجه به شخص می باشند. از آنجایی که ویژگی های استقرار دوربین بکار گرفته شده در بانک اطلاعات قابلیت فراهم آوردن یک پوشش 360 درجه برای صحنه را نداشته است، شاخص بردار وضعیت DFT قابل اعمال نخواهد بود. به منظور حاصل آوردن شاخص بردار وضعیت ثابت، راهکار آرایش یافتگی مجدد بردار وضعیت توصیف شده در بخش 3ـ5ـ1 اعمال شد، که بر مبنای آن کلیه چیدمان های مجدد بردار وضعیت تک نمایی مورد بررسی قرار گرفت.
شناسایی چندنمایی حرکت انسان با تحلیل فواصل فازی و تشخیص خطی
5- مباحث و نتیجه گیری
در این مقاله، یک شاخص حرکت انسانی با نمای نامتغیر یا ثابت و روش شناسایی با قابلیت استفاده از ویدیوی چند نمایی کالیبره نشده و سنکرون شده ارائه شده است. شاخص نامتغیر ـ نمایی به وسیله شیفت ها یا حرکت های دایره ای نماهای موجود، یا از طریق استفاده از ویژگی ثابت شیفت دایره ای DFT حاصل شد. سه گونه روش LDA با استفاده از شاخص های حرکتی مورد ارزیابی قرار گرفتند. این مورد از نقطه نظر تجربی مشخص شد که رویکرد رده بندی چند کلاسه دارای عملکرد بهتری در مقایسه با رویکردهای رده بندی یک ـ در برابر کل و رویکرد دو کلاسه می باشد. استفاده از یک شاخص ویژگی مشخص منجر به کلاس های حرکتی کاملاً تفکیک شده گردیده و بنابراین الگوریتم رده بندی با نزدیک ترین ویژگی به مرکز برای فراهم آوردن دسته بندی صحیح کفایت خواهد داشت. استفاده از شاخص وضعیت سه بعدی با شرایط محاسباتی اندک در ترکیب با شاخص حرکتی در یک فضای مشخص کم ابعادی منجر به ارائه روش شناسایی حرکتی سریعی شده است که حاصل آورنده نرخ های شناسایی بالایی می باشد و تحت تأثیر گوناگونی های سرعت حرکت افراد نیز نخواهد بود. رویکرد پیشنهادی را می توان به آسانی برای شناسایی حرکت پیوسته بکار گرفت و این روش قابلیت تحمل خطاهای همزمان سازی یا سنکرون سازی متوسط دوربین را خواهد داشت و از عملکرد بهتری در مقایسه با دیگر روش های نوین که در مؤلفه های ویدیویی چند نمایی عمل می نمایند برخوردار است.
شناسایی چندنمایی حرکت انسان با تحلیل فواصل فازی و تشخیص خطی