شناسایی چندنمایی حرکت انسان فواصل فازی

شناسایی چندنمایی حرکت انسان فواصل فازی – ایران ترجمه – Irantarjomeh

مقالات ترجمه شده آماده گروه کامپیوتر

مقالات ترجمه شده آماده کل گروه های دانشگاهی

مقالات
چگونگی سفارش مقاله
الف – پرداخت وجه بحساب وب سایت ایران ترجمه(شماره حساب)ب- اطلاع جزئیات به ایمیل irantarjomeh@gmail.comشامل: مبلغ پرداختی – شماره فیش / ارجاع و تاریخ پرداخت – مقاله مورد نظر --مقالات آماده سفارش داده شده پس از تایید به ایمیل شما ارسال خواهند شد.

قیمت

قیمت این مقاله: 68000 تومان (ایران ترجمه - Irantarjomeh)

توضیح

بخش زیادی از این مقاله بصورت رایگان ذیلا قابل مطالعه می باشد.

www.irantarjomeh.com

شماره	۱۷۲
کد مقاله	COM172
مترجم	گروه مترجمین ایران ترجمه – irantarjomeh
نام فارسی	شناسایی چند- نمایی حرکت انسان بر مبنای تحلیل فواصل فازی و تشخیص خطی
نام انگلیسی	Multi-view human movement recognition based on fuzzy distances and linear discriminant analysis
تعداد صفحه به فارسی	۶۵
تعداد صفحه به انگلیسی	۱۴
کلمات کلیدی به فارسی	شناسایی فعالیت, حرکت های ساده / داینیم های چند- نمایی, کمی کردن / کوانتش بردار فازی, تحلیل مشخص خطی
کلمات کلیدی به انگلیسی	Activity recognition, Multi-view dynemes, Fuzzy vector quantization, Linear discriminant analysis
مرجع به فارسی	انستیتو انفورماتیک و دورسنجی، مرکز تحقیقات و فناوری هلاس، یونان دپارتمان علوم انفورماتیک، دانشگاه ارسطو، یونان، الزویر
مرجع به انگلیسی	Computer Vision and Image Understanding; Informatics and Telematics Institute, Centre for Research and Technology Hellas, Greece; Elsevier
کشور	یونان

شناسایی چندنمایی حرکت انسان بر مبنای تحلیل فواصل فازی و تشخیص خطی

چکیده

در این مقاله، یک روش شناسایی نوین حرکت اشخاص با قابلیت چند – نمایی / نمای دید متعدد ارائه می شود. بر این مبنا، در ابتدا یک شاخص جدید ویدیویی در خصوص حرکت چند نمایی افراد عرضه می گردد که با توجه به ویژگی های اولیه حرکت در قالب تصویربرداری از وجوه دید مختلف مد نظر بوده و تحت عنوان «داینیم ها یا حرکت های ساده چند نمایی» خوانده می شود. ویدیوی حرکتی در یک فضای ویژگی جدید (تحت عنوان فضای داینیم) با استفاده از حرکت های ساده یا دانیم های چند – نمایی ارائه می شود، که از این طریق قابلیت تولید شاخص حرکت چند نمایی زمان ثابت / نامتغیر به وجود می آید. فواصل فازی از دانیم های چند نمایی جهت مشخص سازی حالت قرارگیری یا وضعیت بدن انسان در فضای حرکت بکار گرفته شده اند. سه گونه تحلیل مشخص خطی (LDA) به منظور حاصل آوردن یک شاخص حرکت متمایز در یک فضای با بعدیت اندک مورد ارزیابی قرار می گیرد. مشکل شناسایی نما / دید را می توان با استفاده از یک راهکار شیفت بلوک مدور و در پی آن ارزیابی فاصله اقلیدوسی حداقلی با توجه به هر گونه حرکت ساده، یا از طریق بررسی ویژگی تغییر ناپذیر شیفت مدور / دایره ای تبدیل فوریه گسسته (DFT) حل نمود. شاخص حرکت تفکیکی در ترکیب با مشخص سازی موقعیت دید دوربین و نزدیک ترین مرحله رده بندی مرکز ثقل یا گرانیگاه منجر به حاصل آوردن نوعی دسته بندی دقیق در ارتباط با حرکت اشخاص / بازیگران شده است.

کلمات کلیدی: شناسایی فعالیت، حرکت های ساده / داینیم های چند- نمایی، کمی کردن / کوانتش بردار فازی، تحلیل مشخص خطی.

شناسایی چندنمایی حرکت انسان فواصل فازی

۱- مقدمه

شناسایی حرکت انسان و تحلیل آن به عنوان یک مؤلفه مهم برای سیستم های کاربردی مختلف به شمار می آید. چنین موردی را می توان به عنوان مرحله پیش پردازشی برای تحلیل رفتار انسانها در رشته های گسترده ای، نظیر کنترل و نظارت [۱]، تعامل انسان با کامپیوتر و همچنین بازی [۲]، متراکم سازی مدل مبنا [۳]، واقعیت افزوده [۴] و تفسیر معنایی ویدیو مد نظر قرار داد. عبارت «حرکت اشخاص» در معانی مختلفی در مباحث مرتبط بکار گرفته شده است. در برخی از موارد چنین موردی به عنوان یک مؤلفه قابل تبادل با عباراتی نظیر جنبش انسان، و عملکرد انسانی یا فعالیت انسان بکار گرفته شده است. در این مقاله، ما از اصطلاحات رده بندی علمی بکار گرفته در مرجع [۵] استفاده می نماییم که در آن حرکت، فعالیت، و عملکرد به ترتیب مترادف با الگوهای حرکتی سطح پایین، سطح متوسط و سطح بالا می باشند. رویکردهای بسیاری به منظور توصیف رسمی الگوهای حرکتی انسان ارائه شده اند. دو رویکرد که در آنها اقدام به بررسی اطلاعات کلی بدن انسان به منظور توصیف ژست های یا وضعیت بدن انسان و شکل آن شده است در مراجع [۶، ۷] نشان داده شده اند. در مرجع [۶]، تصویر انرژی جنبشی (MEI) و تصویر تاریخچه جنبشی (MHI) ارائه شده است. MEI یک تصویر باینری می باشد، که نشان دهنده نواحی جنبشی یا متحرک به رنگ سفید و نواحی ساکن به رنگ تیره است. MHI نیز یک تصویر مقیاس خاکستری می باشد که شدت آن به عنوان تابعی از تأخر جنبشی به شمار می آید. به طور جایگزین، حرکت ها را می توان بر مبنای یک توالی از قسمت های اصلی یا اولیه حرکت مد نظر قرار داد که اصطلاحاً تحت عنوان «حرکات ساده» یا داینیم ها خوانده می شوند [۷]. این رویکرد از شناسایی گفتار الهام گرفته است، که در آن واج جهت مشخص سازی کوچکترین بخش کلام مورد استفاده قرار می گیرد [۸].

غالب الگوریتم های شناسایی حرکت شامل یک فاز آموزشی هستند. چالش های اصلی که یک روش شناسایی حرکت می بایست با آن رو به رو شود و ما آنها را در این مقاله مخاطب قرار می دهیم به شرح ذیل هستند:

گوناگونی های بین کلاسی: چندین نوع حرکت کاملاً مشابه هستند، به طور مثال دویدن به صورت آهسته و همچنین دویدن.
گوناگونی های داخل کلاسی: گوناگونی ها در سرعت حرکت، سبک اجرایی، و همچنین نسبت های مرتبط با اندازه گیری بدن انسان که می توان بین هر یک از اشخاص مشاهده نمود.
شرایط تصویربرداری: ویژگی های مربوط به موضع یابی هر شخص ممکن است تحت محیط های دینامیکی یا آشفته متفاوت باشد. خود همپوشانی ها یا همپوشانی های بخش های بدن انسان از دیگر موضوعات که ممکن است منجر به حصول شاخص ضعیفی از بدن انسان شود.
جهت گیری بدن انسان: جهت یک شخص با توجه به دوربین ممکن است متفاوت از جهت گیری های حاصله از ویدیوهای آموزشی باشد (همانند نمای کناری در برابر نمای جلویی). به علاوه، در طی حرکت، ممکن است اقدام به تغییر جهت حرکت خود نماید. یک شاخص مناسب بدن انسان که در تعامل با این تغییرات می باشد را می بایست مدنظر قرار داده به گونه ای که دقت فرایند شناسایی حرکت تحت الشعاع قرار نگیرد.
فاصله بین دوربین یا دوربین ها و شخص: شخص ممکن است در یک فاصله فرضی از دوربین در حال حرکت باشد. چنین موردی بر روی اندازه تصویر بدن وی در سطح یا سطوح دوربین ها تأثیرگذار خواهد بود.
عملیات پیوسته: این روش اجازه شناسایی حرکت پیوسته در خلال زمان را می دهد.
استقرار دوربین: دوربین یا دوربین های بکار گرفته شده در فازهای آموزش و تست ممکن است از نظر رزولوشن و نرخ فریم با یکدیگر متفاوت باشند. در صورتی که چندین دوربین وجود دارد، خطاهای سنکرون سازی یا همزمان سازی بین فریم ها که خود از دوربین های مختلف حاصل می شوند ممکن است رخ دهد. به علاوه، استقرار دوربین های متعدد غالباً نیازمند انجام فرایند کالیبراسیون می باشد.

زیادی الگوریتم های شناسایی حرکت پیشنهادی سبب تقسیم آنها به سه رده بندی مشخص بر مبنای ویژگی های استقرار دوربین و قابلیت آنها جهت انجام فرایند شناسایی حرکت انسان به صورت مستقل از نما یا منظر یا دید نموده است: تک نمایی، تک نمایی / نمای ثابت و چندنمایی [۹، ۱۰].

تاکنون، اکثریت الگوریتم های شناسایی حرکت انسان پیشنهادی از دوربین ثابت (ویدیوی تک نما) در هر دوی فازهای آموزشی و شناسایی خود استفاده نموده اند. در [۱۱]، یک کتاب مرجع و متشکل از قوانین مرتبط با تکانک ها (تقسیم حرکت به بخش های کوچک تر تحت عنوان تکانک خوانده می شود) برای هر بخش بدن ارائه شده است تا قابلیت ارائه تصاویر وضعیت و حالت اندام ها وجود داشته باشد. یک تکانک به عنوان مجموعه ای از تصاویر متصل به هم مدنظر است که مترادف با شکل، حرکت و همپوشانی بخش های اصلی مختلف بدن می باشد. مدل های پنهان مارکوف (HMMs) قابلیت ارزیابی غالب توالی های تکانک ها و حرکت مشخص شده در یک توالی خاص را خواهند داشت. در مرجع [۱۲]، برجستگی های بدن بر مبنای یک بردار ویژگی ایجاد شده بر حسب یک توصیف گر شکل تشریح گردیده است. ویژگی های محتوای شکل در مجموعه های غالب در هر تصویر وضعیت اندامی خوشه بندی شده است. این دسته بندی با استفاده از الگوریتم نزدیکترین همسایه حاصل آمده است. در مرجع [۷، ۱۳]، دنبال نمودن اطلاعات به منظور شکل دادن بردارهای حرکتی در هر فریم ویدیویی حاصل می شود. متعاقباً HMMs نیز جهت شناسایی حرکت انسان بکار گرفته می شود. در مرجع [۱۴]، طرح های حفظ موقعیت مکانی (LPP) نیز جهت مشخص سازی یک توالی از سیلوئت های متحرک مرتبط با یک ویدیوی متحرک در یک فضای کم بعدی بکار گرفته می شود. فاصله میانه هاسدورف یا همبستگی فضایی ـ زمانی به هنجار شده جهت دسته بندی یک حرکت ناشناخته در داخل چارچوب نزدیکترین ـ همسایه بکار گرفته شده است. در مرجع [۱۵]، پرتوتایپ های حرکت به وسیله حرکت های ساده به وجود آمده به وسیله فرایند کوانتش یا کمی برداری بردار فازی (FVQ) ارائه شده است. تحلیل مشخص خطی (LDA) نیز جهت مشخص سازی فاصله های بردار فازی هر بردار وضعیت اندامی در داخل یک توالی حرکتی از حرکت های ساده به یک فضای کم بعدی اعمال شد. در این فضا، فاصله حداقلی ماهالانوبیس یا حداکثر شباهت کسینوسی از مراکز کلاس حرکتی برای رده بندی حرکت انسان بکار گرفته شده است. در مرجع [۶] MEI و MHI ارائه دهنده این موضوع می باشند که یک حرکت به صورت الحاقی می باشد تا قابلیت ایجاد بردار محتوای شکل و اطلاعات زمانی وجود داشته باشد. رده بندی حرکت بر مبنای انجام پروسه نزدیکترین مجاور یا همسایه اعمال شده است. یک ارتقای مرتبط با این تحقیق آن است که چنین موردی نیازمند به رویه پیگیری ارائه شده در مرجع [۱۳] ندارد. با وجود آنکه این الگوریتم ها نتایج شناسایی خوبی را حاصل می آورند، آنها نیازمند استفاده از یک زاویه مشخص دوربین در طی فازهای آموزشی و شناسایی می باشند. این زاویه می بایست به صورت ایده آل در حالتی قرار داشته باشد که قابلیت تصویربرداری اطلاعات حرکت تفکیک شده و مشخص را داشته باشد و غالباً چنین موردی مترادف با نمای از کنار است. این فرضیه منجر به ایجاد نوعی محدودیت در محیط شناسایی می شود، چرا که چنین الگوریتم هایی غالباً با شکست رو به رو خواهند شد آن هم در صورتی که خواسته باشیم شخص تحت بررسی را از زوایای نمایی مختلفی مورد تصویربرداری قرار دهیم و یا آنکه مسیر حرکت در خلال زمان تغییر یابد.

…

ادامه این مقاله به شرح ذیل سازماندهی شده است. بخش ۲ فراهم آورنده شمایی از چارچوب شناسایی بکار گرفته شده در رویکرد پیشنهادی و مبحث کوتاهی در ارتباط با وظیفه شناسایی حرکت می باشد. بخش ۳ ارائه دهنده جزئیات فنی است که مشخص کننده مراحل پردازش انجام شده در روش پیشنهادی می باشد. بخش ۴ ارائه دهنده آزمایشاتی می باشد که برای ارزیابی عملکرد روش پیشنهادی ارائه شده است. در نهایت نتیجه گیری در بخش ۵ ارائه خواهد شد.

شناسایی چندنمایی حرکت انسان فواصل فازی

۲- بیان مشکل

یکی از ویژگی های چند دوربینی بکار گرفته شده مؤلفه همگرایی می باشد، که در آن کلیه N دوربین همزمان شده شامل نقطه ای در مرکز فضای مشاهده، همانند شکل ۱ الف برای هشت دوربین (N = 8) می باشد. حجم تصویربرداری به عنوان فضایی مدنظر خواهد بود که از کلیه N دوربین قابل مشاهده می باشد. فاصله بین دوربین ها و شخص بر مبنای ویژگی های کاربردی تعیین می گردد. در مورد شناسایی حرکت در ارتباط با ویژگی های کوتاه مدت فیلمبرداری، نظیر شناسایی حرکت داخل ساختمان، این فاصله احتمالاً کوتاه می باشد، در حالی که در موارد دوردست تر یا خارج از ساختمان، همانند پارکینگ ها، چنین فاصله ای بیشتر خواهد بود. در مورد دومی، اندازه انسان در ویدیو کوچک بوده و چنین موردی بر روی دقت شناسایی تأثیرگذار خواهد بود. هر دوربین قابلیت تصویربرداری از یک فریم ویدیویی در یک وهله زمانی را خواهد داشت، که تحت عنوان فریم تک نمایی یا تک دیدی خوانده می شود. مجموعه ای از فریم ها از کلیه دوربین های حاصل آمده در یک وهله زمانی خاص تحت عنوان فریم N ـ نمایی خوانده می شود. مثال مرتبط با آن در شکل ۱ ب نشان داده شده است.

شناسایی چندنمایی حرکت انسان فواصل فازی

۳- روش پیشنهادی

۳ـ۱٫ پیش پردازش

همانگونه که قبلاً توصیف شد، یک حرکت انجام شده در داخل حجم تصویربرداری دوربین با استفاده از N دوربین در یک حرکت N ـ نمایی متشکل از N_tm فریم ویدیویی N ـ نمایی تصویربرداری می شود که در آن یک دوره یا برهه زمانی حرکت مشخص گردیده است. تعداد فریم های N_tm در فریم ویدیویی N ـ نمایی ممکن است متغیر باشد که بر مبنای کلاس حرکت m، ۱ £ m £ M خواهد بود. در طی فاز آموزش، ویدیوی حرکت N ـ نمایی مشخص کننده تعداد برهه های متوالی است که به طور دستی در ویدیوهای N ـ نمایی اولیه مجزا گردیده اند و متعاقباً در فرایند آموزش بکار گرفته شده اند. در طی فاز تست، در مورد شناسایی حرکت متوالی، یک پنجره اسلاید دارای طول انتخابی مناسب با قابلیت حرکت در بخش ویدیوی N ـ نمایی بکار گرفته می شود و فرایند شناسایی برای هر موقعیت زمانی این پنجره اعمال می گردد.

۳ـ۲٫ محاسبه داینیم ها (حرکات ساده)

در فاز آموزشی، کلیه بردارهای وضعیت N ـ نمایی مشخص شدند. NT مرتبط با کلیه ویدیوهای حرکت اولیه N ـ نمایی آموزشی مختلف NT دارای N_tm، m = 1, …,M فریم می باشند که بر مبنای K خوشه بدون استفاده از برچسب های حرکت شناخت شده خوشه بندی گردیدند. این رویکرد به منظور ایجاد ویژگی های اولیه حرکتی چند ـ نمایی مستقل حرکتی دنبال می شود، که تحت عنوان داینیم ها یا حرکت های ساده N ـ نمایی خوانده می شوند. با وجود آنکه این راهکار را می توان بر مبنای بکارگیری تکنیک های خوشه بندی مختلف انجام داد، نظیر خوشه بندی طیفی [۳۲، ۳۳]، نقشه ها یا نگاشت های خود سازماندهی [۳۴]، و الگوریتم C ـ میانگین [۳۵]، این موضوع از طریق انجام آزمایشات مشخص شد که یک الگوریتم K ـ میانگین [۳۶] قابلیت فراهم آوردن داینیم ها یا حرکت های ساده N ـ نمایی رضایت بخش را خواهد داشت. الگوریتم K ـ میانگین سعی در پارتیشن بندی بردارهای N ـ نمایی ویدیوهایی آموزشی در K خوشه با توجه به ارائه مراکز j = 1, …, K می نماید، بنابراین عبارت ذیل به حداقل خواهد رسید:

۳ـ۳٫ شاخص حرکت

همانگونه که قبلاً ذکر شد، هر ویدیوی حرکتی اولیه بر مبنای مجموعه ای از N_tm بردارهای وضعیت N ـ نمایی مشخص p_i Î R^Ns، N_s = N ´ H ´ W، I = 1, …, N_tm توصیف می گردد که در آن N_tm بر مبنای انواع حرکت می تواند متغیر باشد. پس از محاسبه داینیم یا حرکت های ساده، فواصل فازی:

۳ـ۴٫ تصویر یا طرح LDA

به منظور مشخص سازی کلاس های حرکت، اطلاعات برچسب موجود در فاز آموزشی را می توان مورد بررسی قرار داد. بعدیت بردارهای حرکت آموزشی s_mj Î R^K را می توان به D < K بعد با استفاده از روش زیر فضای مشخص کاهش داد.

۳ـ۴ـ۱٫ LDA چند کلاسه

بردارهای حرکت آموزشی s_mj، m =1, … , M، j =1, … , N_m که معرف هر ویدیوی متحرک می باشند برچسب زده شدند. کاربرد LDA چند کلاسه منجر به ارائه هر بردار حرکتی s_mj Î R^K در یک (M-1) ـ فضای مشخص ابعادی R^M-1 شده است که خود سبب ایجاد بردارهای حرکت مشخص گردیده است. در این فضا، بردارهای حرکت مشخص y_mj متعلق به کلاس های حرکت مختلف به خوبی مجزا گردیده اند. ماتریس بهینه Y_opt به وسیله بردارهای خاص تعمیم یافته M-1 که مترادف با بزرگترین مقادیر خاص هستند شکل گرفته اند. در این مورد، دو ماتریس پراکنده ذکر شده فوق عبارتند از:

۳ـ۴ـ۲٫ تحلیل مشخص خطی چند کلاسه تکه ای وزن دار (WPLDA)

در WPLDA بردارهای حرکتی آموزشی s_mj Î R^K که از نقطه نظر بعدیت مساوی با تعداد داینیم های K می باشند به بردارهای ویژگی کم بعدیت s_mjn Î R^Ks تقسیم گردیده اند، به گونه ای که حاصل آمده است، که سبب ایجاد N_s زیرمجموعه بردارهای ویژگی شده است که هر کدام دارای بعدیت می باشند. N_s بدین روش برگزیده شده است، به گونه ای که تعداد بردارهای متحرک آموزشی در هر کلاس برای بکارگیری LDA کفایت خواهد داشت.

۳ـ۴ـ۳٫ یک در برابر همگی به علاوه LDA های دو کلاسه

مشکل دسته بندی M ـ کلاس را می توان به یک M در برابر کلیه مسایل تقسیم کرد که بعد از آن مسایل رده بندی دو کلاسه نیز حاصل می شوند. برای کلیه این مشکلات، بعدیت بردارهای آموزشی به ۱ تقلیل می یابد. به عبارت دیگر پس از مشخص سازی ویژگی ها، نمونه s_mj، m =1, … M، j =1, … , N_m به عنوان یک نمونه عددی حاصل می شود: y_mj = Y_opts_mj. برای هر مورد مشکلات یک در برابر کل، بردارهای متحرک متعلق به کلاس حرکت خاص به عنوان نمونه های مثبت بکار گرفته می شوند، در حالی که بردارهای حرکتی باقی مانده به عنوان نمونه های منفی مورد استفاده قرار می گیرند. ماتریس های پراکندگی در قالب ذیل تعریف می گردند:

۳ـ۵٫ مشکل شناسایی نقطه دید دوربین

همانگونه که قبلاً توصیف شد، چیدمان ویدیوهای متحرک متشکل از N نمای واحد در داخل یک ویدیوی متحرک آزمایشی N ـ نمایی می بایست سازگار با ویژگی های چیدمان نقطه دید دوربین بکار گرفته شده در طی فاز آموزشی جهت شکل دادن به بردارهای وضعیت N ـ نمایی باشند. این بدان معنا است که اولین ویدیو می بایست مترادف با دید از جلو باشد و کلیه موارد دیگر می بایست در یک حالت رو به عقربه های ساعت آرایش یابند (یعنی به صورت ۴۵ درجه، نمای سمت راست، ۱۳۵ درجه، غیره). به طور آشکار، این نوع از آرایش دوربین الزاماً برای ویدیوی متحرک چند نمایی جدیداً حاصل آمده ضروری نمی باشد. بنابراین، مشکل شناسایی نقطه دید دوربین را می بایست قبل از شناسایی، قبل از آنکه فرایند شناسایی (تست) آغاز شود، حل نمود.

۳ـ۵ـ۱٫ چیدمان بردار وضعیت چند نمایی

همانگونه که قبلاً مشخص شد، در فاز آموزشی، کلیه نماهای موجود هر ویدیوی متحرک N ـ نمایی به صورت دستی آرایش می یابند. پس از این پروسه، کلیه بردارهای وضعیت N ـ نمایی آموزشی p_i قابلیت نشان دادن حرکت در یک حالت سازگار را خواهند داشت، یعنی از طریق قرار دادن نمای جلویی در ابتدا و متعاقباً نماهای دیگر در جهت عقربه های ساعت. چنین موردی منجر به ایجاد داینیم های سازگار N ـ نمایی می گردد.

۳ـ۵ـ۲٫ شاخص وضعیت نامتغیر ـ نمای فوریه

یک شاخص وضعیت نامتغیر ـ نمای جدید جهت حل مسئله شناسایی نقره ای دید دوربین بکار گرفته شده است. این شاخص قابلیت بررسی تغییر ناپذیری شیفت مدور بزرگی ضرایب DFT را خواهد داشت:

۳ـ۶٫ رده بندی حرکت (فاز تست)

جهت دسته بندی یک ویدیوی N ـ نمایی ناشناخته حاوی N_tm ماسک باینری یک فرد در حال حرکت از هر N نما، ROI هر وضعیت شخص در مرکز جرم آن متمرکز شده و ویدیوهای وضعیت تک نمایی باینری با اندازه فریم مشخص مساوی با ROI حداکثری که مشخص کننده بدن شخص می باشد نیز برای هر نما ایجاد می شوند. این موارد به اندازه پیکسل های H ´ W با استفاده از فاز آموزشی (۶۴×۶۴ در آزمایشات ارائه شده در این مقاله) مقیاس بندی شده و جهت تولید N بردار وضعیت تک ـ نمایی تحت فرایند فاکتورگیری قرار می گیرد. این بردارها به صورت الحاقی می باشند که برای پیوستن آنها بردار وضعیت مترادف با اولین دوربین در اولین موقعیت قرار گرفته و متعاقباً بردارهای وضعیت تک ـ نما حاصله از کلیه دیگر دوربین ها در یک حالت جهت عقربه های ساعت قرار می گیرند.

۳ـ۷٫ شناسایی حرکت متوالی

همانگونه که در بخش ۲ ذکر شد، یک تکنیک شناسایی حرکت نباید محدود به شناسایی حرکت اولیه (یعنی در خلال یک دوره حرکتی) باشد بلکه می بایست قابلیت شناسایی حرکت به صورت پیوسته در خلال زمان را داشته باشد. به منظور حاصل آوردن عملیات پیوسته، یک پنجره اسلاید بکار گرفته می شود. بنابراین، برای شناسایی حرکت در برهه زمانی t با استفاده از پنجره اسلاید متشکل از فریم های N_W فریم های ویدیویی f_i، i = t، t – ۱, …, t – N_W + 1 بکار گرفته می شوند. از آنجایی که طول میانگین N_tm حرکت اولیه کلاس های مختلف با یکدیگر تفاوت دارند، پنجره اسلاید می بایست حاوی تعداد مکفی N_W فریم های ویدیویی باشد تا قابلیت شناسایی درست کلاس های حرکتی که دوره های اولیه آنها شامل تعداد فریم ویدیویی متفاوتی است وجود داشته باشد. از طریق انجام فرایند شناسایی در هر موقعیت پنجره اسلاید، یک عملیات شناسایی متوالی در خلال زمان حاصل می شود. این پروسه تشریح شده فوق در شکل ۸ نیز نشان داده شده است.

شناسایی چندنمایی حرکت انسان فواصل فازی

۴- نتایج تجربی

در این بخش، نتایج تجربی حاصل آمده بر روی مجموعه اطلاعاتی ویدیوی حرکتی چند نمایی i3DPost [43] ارائه می شود. به علاوه، قابلیت روش پیشنهادی جهت اعمال شناسایی حرکت متوالی و استواری آن در زمینه خطاهای همزمانی که ممکن است در یک مجموعه چند دوربینی رخ دهند نیز ارائه شده است. در نهایت، ما روش خود را با روش های نوینی که قابلیت شناسایی حرکت نمای ـ نامتغیر در بانک اطلاعات شناسایی حرکت چند نمایی INRIA IXMAS را دارند مورد مقایسه قرار دادیم [۲۳].

۴ـ۱٫ بانک اطلاعات چند نمایی i3DPost

بانک اطلاعات ویدیوی حرکت چند نمایی i3DPost متشکل از ۶۴ توالی تصویر با رزولوشن بالا و با پیکسل ۱۹۲۰´۱۰۸۰ متشکل از ۸ نفر (۶ مرد و ۲ زن) می باشد که هر کدام هشت حرکت را انجام می دهند. هر حرکت با استفاده از هشت نما تصویربرداری شده است. تصویربرداری ویدیویی در یک استودیو در دانشگاه Surrey با پس زمینه آبی و ابعاد حجم تصویر ۴´۳´۲ متر مکعب انجام شد. دوربین ها در اطراف ناحیه تصویربرداری و در بلندای ۲ متری فراتر از کف استودیو نصب شده و دارای فواصل مساوی در یک حلقه ای به قطر ۸ متر بوده اند. در این توالی های تصویر ۶۴ تایی، اشخاص اقدام به انجام حرکت های مختلفی نمودند: “قدم زدن” (wk)، “دویدن” (rn)، “پرش در جا” (jp)، “پرش رو به جلو” (jf)، “خمش” (bd)، “افتادن” (fl)، “نشستن” (st) و “دست تکان دادن” (wo).

۴ـ۲٫ بانک اطلاعات چند نمایی IXMAS

INRIA (انستیتو ملی تحقیقات انفورماتیک و اتوماسیون) با استفاده از بانک اطلاعات توالی های اکتساب حرکتی IXMAS که متشکل از ۳۳۰ توالی تصویر دارای رزولوشن پایین با پیکسل ۲۹۱´۳۹۰ از ۱۰ نفر می باشند (۵ مرد و ۵ زن)، که هر کدام از آنها در بردارنده ۱۱ حرکت هستند. هر حرکت سه بار برای هر شخص انجام شده و از پنج نما تصویربرداری شده است. اشخاص به طور آزادانه موقعیت و جهت خود را در طی حرکت و تصویربرداری تغییر می دهند. حرکات انجام شده عبارتند از: “کنترل ساعت” (cw)، “دست به سینه شدن” (ca)، “سرخاراندن” (sh)، “نشستن” (sd)، “بلند شدن ” (gu)، “دور گشتن” (tu)، “دورزدن یک دایره” (wk)، “تکان دادن دست” (wh)، “ضربه زدن” (ph)، “کوبیدن” (kk) و “بلند کردن” (pu) . ماسک ها یا پوشش های باینری بدن اشخاص به وسیله بانک اطلاعات جمع آوری و مهیا شده است.

۴ـ۳٫ اعتبارسنجی متقابل در بانک اطلاعات چند نمایی i3DPost

در یک پروسه پیش پردازشی آفلاین، ویدیوهای اولیه حاوی یک دوره حرکتی واحد، همانند یک دوره قدم زدن، به صورت دستی در طی هر دو فاز آموزش و تست ایجاد شدند. این ویدیوها متعاقباً مورد پیش پردازش قرار گرفت، همانگونه که در زیر بخش ۳ـ۱ تشریح شد، تا آنکه قابلیت تولید ماسک های وضعیت باینری تک نمایی به وجود آید. در این مرحله پیش پردازشی، ابعاد مورد نیاز جهت حاصل آوردن بدن انسان در کلیه فریم ها در هر ویدیو مشخص شده و جعبه های پیوندی مرتبط با این اندازه نیز استخراج شده که در مرکز جرم اشخاص قرار گرفته و فرایند مقیاس دهی مجدد با توجه به پیکسل های H ´ W = 64 ´ ۶۴ برای هر فریم ویدیویی اعمال گردید.

۴ـ۴٫ شناسایی حرکت متوالی

این بخش نشان دهنده ظرفیت روش پیشنهادی جهت انجام شناسایی پیوسته یا متوالی می باشد. یک ویدیویی متحرک متعدد نشان دهنده شخصی می باشد که اقدام به انجام ۱۰ عمل تکراری نموده که در این مطالعه بکار گرفته می شود. این ویدیو بر مبنای بخش های ادغام شده ویدیویی که نشان دهنده عملکرد حرکت های اولیه انسانی می باشد ایجاد شده است. الگوریتم شناسایی حرکت با استفاده از نمونه های آموزشی ویدیوهای باینری هفت فرد باقیمانده مورد آموزش قرار گرفت. شاخص بردار وضعیت DFT، ۶۰ داینیم هشت نمایی، بردارهای حرکت تقسیم شده به ۶ بردار ۱۰ بعدی و فاصله اقلیدوسی از جمله موارد استفاده شده بوده اند. یک پنجره اسلاید نیز بکار گرفته شد و فرایند شناسایی در هر موقعیت پنجره اسلاید اعمال گردید. از آنجایی که طول N_tm دوره های حرکت اولیه کلاس های مختلف بر مبنای محدوده ۹۰ الی ۴۰ متغیر می باشند، تصمیم بر آن شد تا اقدام به استفاده از N_W = 21 فریم ویدیویی در داخل پنجره اسلاید شود، به گونه ای که این پنجره حاوی یک تعداد مکفی از فریم ها به منظور انباشته سازی حرکات مشخص باشد. هر چه که طول پنجره N_W استفاده شده بزرگتر باشد، دقت شناسایی حرکت نیز به هنگام حرکت شخص بیشتر خواهد بود.

۴ـ۵٫ استواری در برابر خطاهای همزمان سازی

این مورد مشخص شد که دوربین های بکار گرفته شده جهت تصویربرداری ویدیوهای حرکتی چند نمایی می بایست همزمان شوند. با این وجود، در مراحل چند دوربینی، خطاهای همزمان سازی به صورت غالب پیش می آیند که منجر به تأخیرهای زمانی فرضی بین فریم های دوربین های مختلف خواهند شد. این بخش نشان دهنده استواری روش پیشنهادی در برابر این خطاها می باشد.

۴ـ۶٫ مقایسه با روش های دیگر

به منظور مقایسه روش ما با دیگر روش های نوین که هدف آنها شناسایی حرکت مستقل ـ از نما می باشند، ما اقدام به انجام آزمایشی بر روی بانک اطلاعات شناسایی حرکت چند نمایی IXMAS با استفاده از ویژگی های آزمایشی یکسان نمودیم. بدین منظور راهکار جداسازی یک فرد از اعتبار سنجی متقابل انجام شد. در هر کدام از این رویه ها، ویدیوهای پیش پردازشی ۹ نفر جهت آموزش و ویدیوهای ۱۰ نفر جهت آزمایش بکار گرفته شد. این آزمایش شامل ۱۰ مورد از راهکار اعتبارسنجی متقابل مدنظر بوده است. در فاز آزمایش، ویدیوهای تست در یک مرتبه تصادفی ارائه شدند که بر حسب موقعیت نسبی نماها با توجه به شخص می باشند. از آنجایی که ویژگی های استقرار دوربین بکار گرفته شده در بانک اطلاعات قابلیت فراهم آوردن یک پوشش ۳۶۰ درجه برای صحنه را نداشته است، شاخص بردار وضعیت DFT قابل اعمال نخواهد بود. به منظور حاصل آوردن شاخص بردار وضعیت ثابت، راهکار آرایش یافتگی مجدد بردار وضعیت توصیف شده در بخش ۳ـ۵ـ۱ اعمال شد، که بر مبنای آن کلیه چیدمان های مجدد بردار وضعیت تک نمایی مورد بررسی قرار گرفت.

شناسایی چندنمایی حرکت انسان فواصل فازی

۵- مباحث و نتیجه گیری

در این مقاله، یک شاخص حرکت انسانی با نمای نامتغیر یا ثابت و روش شناسایی با قابلیت استفاده از ویدیوی چند نمایی کالیبره نشده و سنکرون شده ارائه شده است. شاخص نامتغیر ـ نمایی به وسیله شیفت ها یا حرکت های دایره ای نماهای موجود، یا از طریق استفاده از ویژگی ثابت شیفت دایره ای DFT حاصل شد. سه گونه روش LDA با استفاده از شاخص های حرکتی مورد ارزیابی قرار گرفتند. این مورد از نقطه نظر تجربی مشخص شد که رویکرد رده بندی چند کلاسه دارای عملکرد بهتری در مقایسه با رویکردهای رده بندی یک ـ در برابر کل و رویکرد دو کلاسه می باشد. استفاده از یک شاخص ویژگی مشخص منجر به کلاس های حرکتی کاملاً تفکیک شده گردیده و بنابراین الگوریتم رده بندی با نزدیک ترین ویژگی به مرکز برای فراهم آوردن دسته بندی صحیح کفایت خواهد داشت. استفاده از شاخص وضعیت سه بعدی با شرایط محاسباتی اندک در ترکیب با شاخص حرکتی در یک فضای مشخص کم ابعادی منجر به ارائه روش شناسایی حرکتی سریعی شده است که حاصل آورنده نرخ های شناسایی بالایی می باشد و تحت تأثیر گوناگونی های سرعت حرکت افراد نیز نخواهد بود. رویکرد پیشنهادی را می توان به آسانی برای شناسایی حرکت پیوسته بکار گرفت و این روش قابلیت تحمل خطاهای همزمان سازی یا سنکرون سازی متوسط دوربین را خواهد داشت و از عملکرد بهتری در مقایسه با دیگر روش های نوین که در مؤلفه های ویدیویی چند نمایی عمل می نمایند برخوردار است.

نوشته های مرتبط:

ایران ترجمه

مقالات ترجمه شده دانشگاهی ایران

شناسایی چندنمایی حرکت انسان فواصل فازی

مقالات ترجمه شده آماده گروه کامپیوتر

مقالات ترجمه شده آماده کل گروه های دانشگاهی

مقالات

چگونگی سفارش مقاله

قیمت

توضیح

شماره

۱۷۲

کد مقاله

COM172

مترجم

گروه مترجمین ایران ترجمه – irantarjomeh

نام فارسی

شناسایی چند- نمایی حرکت انسان بر مبنای تحلیل فواصل فازی و تشخیص خطی

نام انگلیسی

Multi-view human movement recognition based on fuzzy distances and linear discriminant analysis

تعداد صفحه به فارسی

۶۵

تعداد صفحه به انگلیسی

۱۴

کلمات کلیدی به فارسی

شناسایی فعالیت, حرکت های ساده / داینیم های چند- نمایی, کمی کردن / کوانتش بردار فازی, تحلیل مشخص خطی

کلمات کلیدی به انگلیسی

Activity recognition, Multi-view dynemes, Fuzzy vector quantization, Linear discriminant analysis

مرجع به فارسی

انستیتو انفورماتیک و دورسنجی، مرکز تحقیقات و فناوری هلاس، یونان

دپارتمان علوم انفورماتیک، دانشگاه ارسطو، یونان، الزویر

مرجع به انگلیسی

Computer Vision and Image Understanding; Informatics and Telematics Institute, Centre for Research and Technology Hellas, Greece; Elsevier

کشور

یونان

شناسایی چندنمایی حرکت انسان بر مبنای تحلیل فواصل فازی و تشخیص خطی

چکیده

کلمات کلیدی: شناسایی فعالیت، حرکت های ساده / داینیم های چند- نمایی، کمی کردن / کوانتش بردار فازی، تحلیل مشخص خطی.

شناسایی چندنمایی حرکت انسان فواصل فازی

۱- مقدمه

گوناگونی های بین کلاسی: چندین نوع حرکت کاملاً مشابه هستند، به طور مثال دویدن به صورت آهسته و همچنین دویدن.

گوناگونی های داخل کلاسی: گوناگونی ها در سرعت حرکت، سبک اجرایی، و همچنین نسبت های مرتبط با اندازه گیری بدن انسان که می توان بین هر یک از اشخاص مشاهده نمود.

عملیات پیوسته: این روش اجازه شناسایی حرکت پیوسته در خلال زمان را می دهد.

…

شناسایی چندنمایی حرکت انسان فواصل فازی

۲- بیان مشکل

شناسایی چندنمایی حرکت انسان فواصل فازی

۳- روش پیشنهادی

۳ـ۱٫ پیش پردازش

۳ـ۲٫ محاسبه داینیم ها (حرکات ساده)

۳ـ۳٫ شاخص حرکت

۳ـ۴٫ تصویر یا طرح LDA

۳ـ۴ـ۱٫ LDA چند کلاسه

۳ـ۴ـ۲٫ تحلیل مشخص خطی چند کلاسه تکه ای وزن دار (WPLDA)

۳ـ۴ـ۳٫ یک در برابر همگی به علاوه LDA های دو کلاسه

۳ـ۵٫ مشکل شناسایی نقطه دید دوربین

۳ـ۵ـ۱٫ چیدمان بردار وضعیت چند نمایی

۳ـ۵ـ۲٫ شاخص وضعیت نامتغیر ـ نمای فوریه

۳ـ۶٫ رده بندی حرکت (فاز تست)

۳ـ۷٫ شناسایی حرکت متوالی

شناسایی چندنمایی حرکت انسان فواصل فازی

۴- نتایج تجربی

۴ـ۱٫ بانک اطلاعات چند نمایی i3DPost

۴ـ۲٫ بانک اطلاعات چند نمایی IXMAS

۴ـ۳٫ اعتبارسنجی متقابل در بانک اطلاعات چند نمایی i3DPost

۴ـ۴٫ شناسایی حرکت متوالی

۴ـ۵٫ استواری در برابر خطاهای همزمان سازی

۴ـ۶٫ مقایسه با روش های دیگر

شناسایی چندنمایی حرکت انسان فواصل فازی

۵- مباحث و نتیجه گیری

نوشته های مرتبط:

دیدگاهتان را بنویسید لغو پاسخ