سفارش ترجمه تخصصی مدیریت و حسابداری

سفارش ترجمه تخصصی مدیریت و حسابداری؛ دریافت مقاله آماده ترجمه شده؛ مقالات انگلیسی ISI معتبر و جدید

سفارش ترجمه تخصصی مدیریت و حسابداری

سفارش ترجمه تخصصی مدیریت و حسابداری؛ دریافت مقاله آماده ترجمه شده؛ مقالات انگلیسی ISI معتبر و جدید

در این وبلاگ، جدیدترین مطالب و مقالات مربوط به رشته مدیریت و حسابداری قرار داده خواهد شد

مقاله انگلیسی جدید با موضوع ورشکستگی

پنجشنبه, ۹ آذر ۱۴۰۲، ۰۸:۲۹ ب.ظ

ما بینش اولیه ای در مورد داده ها با استفاده از رویکرد جاگذاری مجاور تصادفی توزیع شده t (tSNE) (ماتن و هینتون، 2008) برای کاهش بعدیت و تجسم داده ها به دست آوردیم. این امر اجازه می دهد که داده ها در قالب یک نقشه دوبعدی، تجسم شوند. در این باره، مشخص شد که tSNE بهبود تجسم ها را نسبت به سایر روش ها در مورد نقشه های دوبعدی فراهم می کند (ماتن و هینتون، 2008) و به طور موفقیت آمیزی در قلمروهای مختلف مورد استفاده قرار گرفت (آکسای و همکاران، 2018؛ کیم و چو، 2018). tSNE، یک بسط جاگذاری مجاور تصادفی است (هینتون و رووایس، 2002) که اساساً مسافت های با بعد بالا را بین نقاط داده ها در فضای اقلیدسی برای احتمالات شرطی که نشان دهنده تشابهات هستند، تبدیل می کند. هدف tSNE، یافتن یک نمایندگی داده با بعد پایین است که عدم تطابق را بین احتمالات شرطی نقاط داده ها در فضای با بعد بالا و فضای داده با بعد پایین را به حداقل برساند. tSNE، این را از طریق کمینه کردن یک واگرایی کولبک-لایبلر مجزا بین توزیع احتمال پیوسته در فضای با بعد بالا و فضای با بعد پایین به دست می آورد. تابع هزینه tSNE با استفاده از بهبود فرآیند نزولی گرادیان، بهینه سازی می کند که در آن، پیشرفت در افزودن 12 جریمه اضافی و اصطلاحاً اغراق اولیه تداوم می یابد.

 

 

ثبت سفارش ترجمه تخصصی مقاله

 

4. تحلیل آماری اولیه

تجسم هر دو مجموعه داده که صنایع ساخت و تولید را حفظ می کنند، در شکل 2 آورده شده است. اشکال، نقشه tSNE داده ها را برای یک سال خاص R با توجه به متغیرهای مالی سه سال قبل از سال ارزیابی (R – 3 & R – 2 & R - 1) نمایش می دهند و شامل 60 متغیر می باشند. همه نقشه ها چند الگو را به اشتراک می گذارند. نخست، ممکن است نواحی فقط شامل شرکت های غیر ورشکسته را جدا کند. بنابراین، فرض می کنیم که قوانین خاص می توانند برای شناسایی برخی از شرکت های غیر ورشکسته حتی با وجود تغییرات الگوی نقشه کشی شده برای سال های ارزیابی مختلف ایجاد شوند، که بدین معناست که نسبت ها در سال های مختلف، متفاوت هستند. این، مورد انتظار است، زیرا برخی از متغیرها همچنین وابسته به موقعیتی خاص در بازار یا در حوزه تجاری هستند که سال به سال تغییر می کند. مشاهده دیگری این است که نقاط نشان دهنده شرکت های ورشکسته در توده های شرکت های غیر ورشکسته قرار می گیرند و دشوار است که یک شرکت ورشکسته را با استفاده از یک طبقه بند خطی ساده جداسازی کنیم. درنهایت، هرچند برخی از شرکت های ورشکسته تمایل به اشغال کردن یک جایگاه دور از مرکز دارند، ولی هیچ دور از مرکز معمولی، دیده نمی شود.

این حقیقت که شناسایی یک شرکت در حال ورشکستگی، یک فرایند پیشرونده نیست، توسط تعداد زیادی از مطالعات این حوزه تایید می شود. دلایل احتمالی برای اینکه چرا نشانه های ورشکستگی، قابل مشاهده نیستند، این هستند که یک شرکت ممکن است اساساً از حقایق در مورد رکود خود در گزارش های سالانه چشمپوشی کند یا فرایند زوال، ممکن است کوتاه تر از تعداد گزارشگری باشد.

 

5. تحلیل اهمیت ویژگی

بیست ویژگی می توانند از گزارش سالانه استخراج شوند. ما سه سال پیش از سال ارزیابی را در نظر گرفتیم که 60 نسبت مالی را با هم بررسی می کند. مشاهده و بررسی همه این 60 نسبت، یک تکلیف بدیهی برای انسان مشاهده گر است. به علاوه، مناسب است که گروه کوچک تری از ویژگی ها داشته باشیم که برای پیشبینی ورشکستگی، مناسب هستند. این ویژگی ها می توانند به عنوان معرف های اولیه ورشکستگی احتمالی مورد استفاده قرار گیرند.

اساساً دو رویکرد وجود دارد که فرمولاسیون یک گروه کوچک تر از ویژگی های مهم را ممکن می کنند: استخراج ویژگی، ویژگی های موجود را در فضای با بعد پایین جدید، تغییر شکل می دهد (گارکا و همکاران، 2016). استخراج ویژگی، ویژگی های موجود را در فضای ویژگی کم بعد جدید، تغییر شکل می دهد. مثال ها عبارتند از تجسم هایی که در بخش قبل ارائه شده اند. هرچند این امر برای اهداف تجسم، بسیار مفید است و مزیت های دیگری مانند پیشگیری از دوره بعدیت وجود دارند، چون رویکرد استخراج یک ویژگی، ویژگی های جدیدی ایجاد می کند. تجسم آشکار، به سختی، ویژگی های جدید را به ویژگی های اصلی متصل می کند و بنابراین، ویژگی های جدید، بیان مستقیم نگرش های مالی شناخته شده نیستند. رویکرد دیگر، انتخاب ویژگی است که روی شناسایی مرتبط ترین ویژگی ها برای پیشبینی متغیر هدف تمرکز می کند و ویژگی های نامرتبط را حذف می نماید. انتخاب ویژگی (FS)، یک ناحیه بسیار پویا از پژوهش هاست که در مجموعه گسترده ای از روش ها می تواند مورد استفاده قرار گیرد. درکل، روش های FS می توانند به تکنیک های فیلتر، پوشه و جاسازی شده تقسیم شوند (بولون-کاندو و همکاران، 2015). ما از FS برای شناسایی ویژگی های مرتبط تر استفاده می کنیم. علاوه بر این، هنگامی که بدانیم کدام ویژگی ها مهم ترین معرف های ورشکستگی هستند، می توانیم روی نگرش های مالی خاص تمرکز کنیم و دلیل احتمالی ورشکستگی را تعیین نماییم.

قضیه "ناهار مجانی نداریم"، نیز برای روش های انتخاب  ویژگی به کار می رود، مثلاً هیچ روش مجزایی وجود ندارد که با توجه به عملکرد نسبت بر بقیه تسلط یابد. برای ارائه انتخاب ویژگی دقیق، از چهار تکنیک FS فیلتر و یک تکنیک FS دیگر استفاده می کنیم. هر یک از این تکنیک ها بر اساس یک پیش زمینه نظری مختلف هستند بنابراین، ایده های متنوعی برای انتخاب مهم ترین ویژگی ها فراهم می کنند (آنگ و همکاران، 2016). به طور خاص، از سه تکنیک FS فیلتر نظارت شده (گئورتز و همکاران، 2006)، یعنی نمره فیشر FS، روش reliefF (روبنیک-شیکونیا و کونوننکو، 2003)، روش FS نمره بدون نظارت (هه و همکاران، 2005) و حذف ویزگی برگشتی (RFE) بر مبنای یک تخمین زننده SVM استفاده کردیم (گویون و همکاران، 2002).

ما از پنج روش FS برای داده ها در یک مبنای سالیانه استفاده کردیم، مثلاً FS برای داده های حاصل از سال R – 3 تا R – 1 پیش از سال ارزیابی R به کار برده شد. هر سال ارزیابی، به طور جداگانه بررسی شد. ویژگی های انتخاب شده برای صنعت ساختمان در جدول 3 و برای صنعت تولید در جدول 4 ارائه شده اند. این ویژگی ها به ترتیب اهمیت با یک استثنا برای RFE FS ترتیب بندی می شوند که نسبت به ارائه رده بندی ویژگی ها فقط گروهی از ویژگی های انختاب شده به دست آمده اند. ما علاوه بر پنج روش FS، همچنین ویژگی هایی را بر اساس رای همه روش های FS (مجموعه FE) در هر سال خاص انتخاب کردیم (ستون اخر در جداول 3 و 4). فرایند رای گیری، به صورت زیر است. هر ویژگی که بر اساس روش های FS مجزا انتخاب شده است، یک امتیاز کسب می کند. این نمرات حاصل از همه روش های FS، با هم جمع می شوند، و ویژگی های به دست آورنده بالاترین نمره، توسط مجموعه FS، انتخاب می شود، مثلاً این ویژگی ها، پرتکرارترین ویژگی های انتخابی هر سال هستند. در یک نمره برابر، برابری ها با تصمیم تصادفی، شکسته شده اند. هنگامی که مجموعه FS به ما اجازه می دهد که ایده روش های مختلف FS را یک بار تجزیه و تحلیل کنیم، واگرایی برای اینکه بتواند توسط FS جداگانه تجربه شود، قابل اتکاتر است. این مجموعه ویژگی های انتخاب شده توسط مجموعه FS، ما را قادر می سازد تا گروهی از ویژگی ها را شناسایی کنیم که حداقل در سه سال از چهار سال ارزیابی شده برای مجموعه داده های تولید و ساخت و ساز انتخاب شده اند. این ویژگی ها عبارتند از DIRR-1، BLR-1، BOSR-1 و BLR-3. این حقیقت که این ویژگی ها بارها مستقلاً برای هر دو صنعت، انتخاب شده اند که بدین معناست که این انتخاب، با درجه بالایی از اطمینان ایجاد شده است. ویژگی هایی که حداقل برای دو سال ارزیابی و هر دو صنعت در نظر گرفته شده توسط مجموعه FS عبارتند از ROAR-1، DAR-1 و ROIR-1. یک دلیل احتمالی برای اینکه چرا فهرست مهم ترین ویژگی ها با گذشت زمان تغییر می کنند، این است که سایر اطلاعات (مثلاً داده های غیر مالی یا اطلاعات مرتبط با آن اقتصاد به عنوان یک مجموعه) در نظر گرفته نشده اند. دلیل احتمالی دیگر، علت متفاوت ورشکستگی برای شرکت های تحلیل شده در یک سال خاص است. ردیف آخر از ستون آخر شامل ویژگی هایی است که برای کل مجموعه داده توسط همه روش ها در طول همه سال های ارزیابی شده، بیشترین تکرار را برای انتخاب شدن داشته اند. هفت ویژگی (DIRR-1، BLR-1، ROSR-1، BLR-3، ROAR-1، DAR-1، ROIR-1) برای صنایع ساخت و ساز و تولید، مشابه هستند. در پس ده ویژگی اول نشان داده شده در این جدول، ثابت می کند که WARR-1، نمره TATR-2 مشابهی دارند ولی از آنجا که این موارد، به طور تصادفی TATR-2 را تفکیک می کنند، بر اساس شانس انتخاب شده اند. به طور مشابه، BLR-2 و TATR-2، هر دو برای مجموعه داده های تولید و نه برای مجموعه داده های ساخت و ساز انتخاب شده اند و جایگاه بعدی را پس از این ده ویژگی اشغال می کنند. بر این اساس، می توانیم نتیجه گیری کنیم که نگرش هایی که به عنوان معنادار انتخاب شده اند، برای هر دو مجموعه داده، شدیداً مشابه هستند به طوری که نتایج به دست آمده را اعتباردهی می کنند.

با توجه به تفاوت های موجود در ویژگی های انتخاب شده، باید موضوع (نا)پایداری انتخاب ویژگی را در نظر بگیریم (کالوسیس و همکاران، 2007). چند بار ثابت شده است که استفاده از روش های FS برای داده های تغییریافته منجر به نتایج متفاوتی می شود (فخرایی و همکاران، 2014؛ دروتار و همکاران، 2015). بنابراین، به منظور دستیابی دقیق به انتخابی مشابه برای داده های مختلف، پایداری روش FS، 100% خواهد شد (و داده ها دقیقاً همان الگو را نشان خواهند داد).

اکثریت مهم ترین ویژگی ها متعلق به دسته های سودآوری و قدرت پرداخت هستند و هر یک از صنایع تحلیلی، یک ویژگی در دسته فعالیت دارد. از سوی دیگر، نسبت های مالی دسته نقدینگی، از دیدگاه کلی، مهم در نظر گرفته نمی شوند. نسبت های مالی از دسته قدرت پرداخت، بر منابع سرمایه خارجی به طور مثال، دلالت می کنند، بدهی و نسبت های مالی، از دسته سودآوری، بر یک بازگشت کلی پایین تر دلالت می کنند که احتمالاً برای پوشش بدهی ها کافی نیست. نمایش دسته های مختلف بین مرتبط ترین ویژگی ها، در شکل 1 تجسم شده است.

 

 

شکل 1. مهم ترین گروه های نسبت های مالی بر اساس روش ووت. نتیجه روش ووت (تحلیل FS): 10 نسبت مالی مهم تر در چهار دسته تفکیک شده اند. درصد، نشان دهنده تعداد نسبت های مالی در یک دسته مشخص است که متعلق به TTop 10، مثلاً اهمیت یک دسته خاص است. اهمیت یک نسبت مالی خاص، برای یک تا سه سال پیش از ورشکستگی ارزیابی می شود، بنابراین، ممکن است بیش از یک بار رخ دهد.

 

مشاهده دیگر این است که فراوان ترین ویژگی های انتخاب شده از داده ها یک سال پیش از سال ارزیابی استخراج شده اند. درحقیقت، تقریباً نیمی (51% برای صنعت ساختمان؛ 46% برای صنعت تولید) از ویژگی های انتخاب شده از سال R – 1 هستند. این امر، فرضیه ما را تایید می کند که نشانه های ورشکستگی احتمالی، بارزترین نشانه ها در سال قبل از رویارویی واقعی شرکت با ورشکستگی هستند. در بخش بعد در مورد دقت پیشبینی، ما این تجزیه و تحلیل را بسط می دهیم و ارزیابی می کنیم که تا چه اندازه داده های حاصل از سال های مختلف قبل از سال ارزیابی بر عملکرد پیشبینی اثر می گذارند.

 

6. پیشبینی ورشکستگی

هدف اصلی ما، ارائه یک مدل پیشبینی با ظرفیت پیشبینی ورشکستگی مالی یک شرکت تا حد امکان، دقیق و تا حد امکان، موثر است و می خواهیم در نظر بگیریم که مهم است که از نکات مثبت کاذب پرتعداد مثلاً شناسایی شرکت های سالم از نظر مالی به عنوان شرکت های غیر ورشکسته، پرهیز کنیم. به دلیل ماهیت شدیداً نامتعادل مجموعه داده های ما، گزینه روش شناسی انتخاب شده، منعکس کننده ماهیت این داده هاست. تعیین شرکت ورشکسته، هنگام همپوشانی با خوشه نقاط داده های شرکت های غیر ورشکسته، دشوار است. روش های یادگیری ماشینی متداول می توانند به سادگی در این سناریو شکست بخورند، از آنجا که تمایل به دسته بندی همه نمونه ها در قالب یک کلاس اکثریت دارند. این امر، به طور آشکار، در مطالعه کنونی در مورد پیشبینی ورشکستگی با داده های نامتعادل، قابل مشاهده است (وگانزونز و سورین، 2018). هنگامی که عدم تعادل، افزایش می یابد، عملکرد پیشبینی به سرعت کاهش می یابد. بنابراین، از روش های دسته بندی تک کلاسه استفاده می کنیم که برای اجرای موفقیت آمیز در سناریوهای شدیداً نامتعادل (دومینگز و همکاران، 2018)، شناخته شده هستند و چند پژوهشگر، استفاده از آنها در صورتی که داده ها شدیداً نامتعادل باشند، پیشنهاد کرده اند (هایبو هه و گارسیا، 2009). روش های دسته بندی یک کلاسی، فقط از نمونه های حاصل از کلاس اکثریت برای تمرین این مدل استفاده می کنند. روش های غیر عادی در مجموعه داده آزمون، به عنوان ورشکسته برچسب گذاری می شوند.

 

6.1. روش های پیشبینی

ما سه دسته بندی کننده یک کلاسه را با هم مقایسه می کنیم: SVM یک کلاسه (OCSVM) (شولکوپف و همکاران، 2001)، فورست ایزولیشن (IF) (لیو و همکاران، 2012) و تعیین غیر عادی کم ترین مجذور (LSAD) (کوئین و سوگیاما، 2014). به علاوه، همچنین ماشین های بردار پشتیبانی (SVMها) را برای مقایسه اتخاذ می کنیم. ما SVM را انتخاب می کنیم زیرا به عنوان یکی از دقیق ترین پیشبین ها برای پیشبینی ورشکستگی پیشنهاد شده است (آلاکا و همکاران، 2018). به علاوه، SVM، وزن گیری نمونه را میسر می کند تا بتواند با داده های نامتعادل، بهتر تطبیق یابد و جایگزین رقابتی برای سایر روش های بررسی شده فراهم آورد.

 

6.1.1. SVM و OCSVM

OCSVM، برای ایده معروف واپنیک در مورد ماشین های بردار پشتیبانی، ساخته شده است (واپنیک، 1995). فرضیه شروع، این است که دور از مرکزها، ناحیه کم چگال فضای داده ها را اشغال می کنند و مدل هسته ای می تواند برای شناسایی نواحی چگال مورد استفاده قرار گیرد. هدف، پیدا کردن تابع f است که می تواند نقاط توسعه یافته به بیرون از ناحیه حاوی نقاط حاصل از کلاس اکثریت را شناسایی نماید. راهبرد پیشنهادشده در کار شولکوپف و همکارانش (2001)، نقشه یابی داده ها در فضای ویژگی مرتبط با هسته و جداسازی آنها از منشا با بیشینه حاشیه است. این امر می تواند با حل تکلیف برنامه ریزی درجه دوم به دست آید.

اجازه دهید ابتدا داده های تمرینی را به صورت x1, x2, …, xl ε X تعریف کنیم که در آن، l ε N، تعداد مشاهدات است. به علاوه، فرض کنید Φ، نقشه ای باشد که X در فضای محصول داخلی F می کشد، بنابراین، تصویر Φ، توسط ارزیابی هسته k(x, y) = (Φ(x).Φ(y)) تعیین می شود. برای جداسازی داده ها از منشا از طریق زیرصفحه، برنامه مرتبه دوم که باید حل شود عبارت است از:

(1)

minwεF,ζεR,ρεR1/2||w||2 + 1/vliζi- ρ

(2)

s.t.(w.Φ(xi)) ρζi, ζi 0

که در آن، v ε (0, 1]، نشانگر کسر بردارهای پشتیبانی و دور از مرکزهاست. W و ρ، عبارتند از یک بردار وزن و یک مجموعه پارامترساز در فضای ویژگی مرتبط با هسته. می توان در کار شولکوپف و همکارانش (2001) نشان داد که نتایج برای دسته بندی دوگانه از طریق SVM در کار شولکوپف و همکاران (2000) نیز برای رده بند یک کلاسی، معتبر هستند. سپس، با فرض ρ 0 ، برای معادلات (1) و (2)، v، نشان دهنده پیوند بالاتر برای کسر دور از مرکزها و پیوند پایین تر برای کسر SVM است. به علاوه، اگر داده ها تفکیک پذیر باشند و به طور مستقل از توزیع P تولید شوند و هسته، تحلیلی و غیر ثابت باشد، v، برابر با کسر دور از مرکزهای SV ها است.

برای w و ρ که مسئله برنامه ریزی مرتبه دوم را در 1، حل می کنند، تابع تصمیم عبارت است از

(3)

f(x) = sgn((w.Φ(x)) – ρ)

که برای بیشتر مسال های xi، مثبت است در حالی که عبارت تنظیم ||w|| همچنان کوچک است. تهاتر، توسط متغیر v کنترل می شود. تا زمانی که Φ، آشکار است، مسئله بهینه سازی بالا می تواند توسط شکل دوگانه خود حل شود که عبارت است از

(4)

Mina1/2ijaiajk(xi,xj)

(5)

s.t. 0 ai 1/vliai  = 1

سپس ρ می تواند بدین صورت تعیین شود

(6)

ρ = (w.Φ(xi)) = jajk(xi,xj)

ما رده بند OF عملکرد را با انجام یک پژوهش شبکه ای در شبکه (degree، γ، μ) که توسط محصول مجموعه های degree = [1, 2, 3]، γ = [0.01, 0.1, 1.5]، μ = [0.1, 0.15, 0.2, 0.25, 0.3, 0.35, 0.4, 0.45, 0.5, 0.55, 0.6, 0.65, 0.7, 0.75, 0.8, 0.85, 0.9] که در آن، degree، درجه هسته چندعددی SVM، μ، پیوند بالای برای کسر خطاهای تمرینی و یک پیوند پایین تر از کسر بردارهای پشتیبانی و γ، ضریب هسته ای است.

 

6.1.2. LSAD

ایده LSAD بر مبنای فرضیه ای مشابه با OCSVM است ولی از تابع افت مختلفی استفاده می کند که LSAD را سریع تر و تمرین را در عملکرد پیشبینی، بدون هزینه، آسان تر می نماید. LSAD، کاربرد دسته بندی احتمالی کم ترین مجذور کارهای کوئین و سوگیاما (2014) و سوگیاما (2010) را گسترش می دهد. فرض کنید برچسب های کلاس yi ε Y مربوط به مشاهدات X است و yi ε {1, …, c} مجموعه کلاس های احتمالی است. هدف ما تخمین احتمالات شرطی کلاسی p(y | x) است. برای تخمین p(y = i | x) برای هر i ε Y، می توانیم q(y = i | x, θTiψ(X)) را بسازیم که در آن، θi = (θi,1, …, θi,B)T ε R برای پارامترهای B هستند. با در نظر گرفتن این مورد هنگامی که کلاس های {c + 1, c + 2, …} فقط در داده های آزمون و نه در داده های تمرینی وارد شده اند، باید مقدار تخمین p = (y = * x) برای برخی از داده های آزمون x را تعیین کنیم. y = *، * ε Y، کلاس غیر عمدی را به خود اختصاص می دهند. در این مورد، احتمال شرطی یک دور از مرکز می تواند بدین صورت تخمین زده شود

(7)

q(y = * | x, θ*) = 1 - θT*ψ(X)

این، برابر با جستجوی θ* است که در آن، 7 به صفر نزدیک می شود هنگامی که x به درون ناحیه حاوی نقاطی از کلاس اکثریت وارد می شود و در غیر این صورت، صفر است. برای دستیابی به آن، باید تابع افت را به حداقل برسانیم

(8)

l*(θ*) = 1/2(1 – θT*ψ(x))2p(x)dx + α/2||θ*||2

توسط منبع 13 می توان نشان داد که 8، به حداقل می رسد.

(9)

θ* = (ψTψ + αIB)-1jεYψTmj = jεYθj

و بنابراین

(10)

q(y = *| x, θ1, …, θs) = 1 - jεYqy= *x, θj)

پارامتر α برای تنظیم و افزایش حساسیت به دور از مرکزها مورد استفاده قرار می گیرد.

در مورد LSAD، پارامترهای α = [0.01, 0.1, 1, 2, 3, 5, 10] و σ = [0.1, 0.15, 0.2, 0.25, 0.3, 0.35, 0.4, 0.45, 0.5, 0.55, 0.6, 0.65, 0.7, 0.75, 0.8, 0.85, 0.9, 1, 2, 5, 10] را جستجو می کنیم. در اینجا α، حساسیت به دور از مرکزها را کنترل می کند و σ، نرمی مرز را تعیین می نماید.

 

6.1.3. فورست ایزولیشن

فورست ایزولیشن، رویکرد ناپارامتری بدون نظارت نسبت هب تعیین غیر عمدی است (لیو و همکاران، 2012). در تضاد با دو روش قبلی، IF، با توجه به رویکردی که برای جداسازی داده ها مورد استفاده قرار می گیرد، متفاوت است. IF، از هیچ اختلال یا مقدار چگالی استفاده نمی کند بلکه تلاش می نماید تا موارد غیر عادی را در داده ها جداسازی نماید. IF، مجموع درخت های دوگانه کامل که درخت های جداسازی نامیده می شوند، شکل می دهد. نمونه های داده با میانگین طول کوتاه در درخت جداسازی، غیر عادی هستند. تعیین حالت غیر عادی، فرآیندی دومرحله ای است. نخست، درخت های جداسازی، از X با جزءبندی برگشتی، ساخته می شوند. X، با نمونه گیری جزئی داده های ورودی X با انتخاب بدون جایگزینی به دست می آید. در مرحله دوم، یعنی مرحله ارزیابی، نمره حالت غیر عادی، از میانگین طول مسیر h(x) تخمین زده می شود (لیو و همکاران، 2012). طول مسیر منفرد h(x) با شمارش تعداد لبه ها از گره ریشه تا یک گره انتهایی به دست می آید به طوری که نمونه x یک درخت جداسازی را طی می کند. بنابراین، نمره حالت غیر عادی a برای تک نمونه x، بدین صورت تعریف می شود

(11)

a(x, τ) = 2-E(hx)/c(τ)

که در آن، E(h(x))، مقدار میانگین محاسبه شده از همه درخت ها در مجموعه و c(τ)، میانگین طول مسیر جستجوهای ناموفق برای مجموعه لحظات τ  است (لیو و همکاران، 2012). این، معادل با جستجوی ناموفق در درخت جستجوی دوگانه است، بنابراین،

(12)

c(τ) = 2Hτ-1-2τ-1n for τ 21 for τ=20 othervise

برای رده بند IF، پارامترهای Nestimators = [100, 200, 300, 400, 500]، contamination = [0.02, 0.05, 0.1, 0.2, 0.3, 0.4] و MaxSamples = [256. 512, 1024, 2048] آزمایش کردیم.

 

6.2. نتایج تجربی

در مورد رده بندهای یک کلاسه، نتایج را با تقسیم کلاس اکثریت در داده های تمرینی (80%) و داده های آزمون (20%) اعتبارسنجی می کنیم و آزمایش 1000 تکراری را با یک جداسازی تصادفی برای هر حلقه تکرار می نماییم. نتیجه نهایی، میانگین همه 1000 حلقه است. برای یک رده بند یک کلاسه، همه داده های اقلیت، دوام دارند و فقط برای فاز آزمون گیری مورد استفاده قرار می گیرند. در مورد SVM دوکلاسه، همه داده ها مثلاً شامل کلاس اقلیت، در 80% نمونه های تمرینی و 20% نمونه های آزمون گیری تقسیم می شوند که پس از آن، این فرآیند برای رده بندهای یک کلاسه نیز مشابه است.

در مورد داده های معدوم، این داده ها بر اساس یک ویژگی برای جاگذاری مقدار معدوم با مقدار میانگین یک ویژگی خاص، جاگذاری می شوند. پس از آن، این گونه مقیاس گذاری می شود که این داده ها، میانگین صفر و واریانس واحد دارند.

هنگامی که این، یک مجموعه داده شدیداً نامتعادل باشد، مقادیر دقت معمول، نمی توانند مورد استفاده قرار گیرند. بنابراین، تصمیم گرفتیم که از نمره میانگین هندسی (GM) و ناحیه زیر منحنی ویژگی عملکردی دریافت کننده (ROC AUC) استفاده کنیم. هر دو مقدار، دقت پیشبینی برای هر دو کلاس را در نظر می گیرند که در اینجا از نتایج حاصل از تساط توسط دقت یک کلاس، جلوگیری می شود. GM، مجذور ریشه محصول حساسیت و اختصاصیت است و بدین صورت تعریف می شود

(13)

GM = TPTP+FN  ×TNTN+FP

در اینجا، TP و TN، به ترتیب، نشان دهنده تعداد مثبت های واقعی و منفی های واقعی هستند. به طور مشابه، FP، تعداد مثبت های کاذب و FN، منفی های کاذب را نشان می دهد. توجه داشته باشید که بر عکس نمره دقت، مقدار GM، تا صفر کاهش خواهد یافت اگر نمره حساسیت یکی از کلاس ها برابر با صفر بوده باشد.

منحنی ROC با ترسیم نرخ TP در برابر نرخ FP در سطوح آستانه ای مختلف تعیین می شود. نمره ROC AUC، بنابراین، به صورت ناحیه زیر ROC محاسبه می شود.

یکی از اهداف ما شناسایی مهم ترین قالب زمانی برای پیشبینی ورشکستگی است. بنابراین، نمره GM را به طور جداگانه بر مبنای داده های حاصل از یک تا سه سال پیش از ورشکستگی (R – 1، R – 2، R - 3) و سپس، برای ترکیب داده های حاصل از سال های متعدد مثلاً R – 1 & R – 2، R – 2 & R – 3 و R – 1 & R – 2 & R – 3 ارزیابی می کنیم.

نمرات GM برای هر چهار روش دسته بندی برای هر دو صنعت و مجموعه داده های ساختمانی در شکل های 3 و 4 به ترتیب ارائه شده اند. مشابهاً نمرات ROC AUC در شکل های 5 و 6 ارائه شده اند.

 

 

 

 

شکل 3. نمره GM روش های IF، LSAD، OCSVM، SVM برای ارزیابی سال های 2016-2013. داده ها از یک (R-1) تا سه (R-3) سال پیش از ورشکستگی و ترکیب آنها به ترتیب گرفته شده اند. مجموعه داده صنعت.

 

 

شکل 4. نمره GM روش های IF، LSAD، OCSVM، SVM برای ارزیابی سال های 2016-2013. داده ها از یک (R-1) تا سه (R-3) سال پیش از ورشکستگی و ترکیب آنها به ترتیب گرفته شده اند. مجموعه داده ساختارها.

 

 

 

شکل 5. نمره ROC AUC روش های IF، LSAD، OCSVM، SVM برای ارزیابی سال های 2016-2013. داده ها از یک (R-1) تا سه (R-3) سال پیش از ورشکستگی و ترکیب آنها به ترتیب گرفته شده اند. مجموعه داده مربوط به صنعت.

 

شکل 6. نمره ROC AUC روش های IF، LSAD، OCSVM، SVM برای ارزیابی سال های 2016-2013. داده ها از یک (R-1) تا سه (R-3) سال پیش از ورشکستگی و ترکیب آنها به ترتیب گرفته شده اند. مجموعه داده های مربوط به ساختان.

 

بالاترین عملکرد پیشبینی هنگامی به دست می آید که فقط داده ها از سال R – 1 برای پیشبینی مورد استفاده قرار گیرند. نمره GM و AUC ROC برای سال های R – 2 و R – 3، به طور قابل فهمی، کاهش می یابد که در آن، نمرات GM یا ROC AUC برای R – 3 پایین تر از 50% تا 60% می باشند. این امر، مطابق با نتایج ارائه شده در بخش قبل است، جایی که ویژگی های حاصل از سال R – 1 بیشترین معناداری را دارند. می توانیم فرضیه اولیه خود مبنی بر اینکه داده های حاصل از یک سال پیش از ورشکستگی، تعیین کننده ترین داده ها برای مسائل مالی پیش رو هستند، تایید کنیم. این مشاهده، برای داده های مربوط به تولید و ساخت و ساز، معتبر هستند. جالب است بدانید ترکیب سال های مختلف، نمره دسته بندی را بهبود نمی بخشد. این حقیقت، می تواند با این دلیل توضیح داده شود که یا اینکه رده بندها نتوانسته اند مزیت تنوع داده ها را از سال های مختلف استخراج کنند یا اینکه به احتمال بیشتر، اطلعات غالب در مورد ورشکستگی، در داده های حاصل از سال R – 1 مشمول شده اند و داده های حاصل از سال های پیش، هیچ اطلاعات جدیدی برای پیشبین به اشتراک نمی گذارند.

ثابت شده است که دسته بندی یک کلاسی، رویکرد موثری برای پیشبینی ورشکستگی برای داده های نامتعادل است. از سه روش یک کلاسی مورد استفاده در اسن مقاله، LSAD، بالاترین نمرات پیشبینی را برای اجرای سایر پیشبین ها در اکثریت آزمایش ها به دست می دهد. بالاترین نمرات پیشبینی همچنین با LSAD: GM = 91.54% (ROCAUC = 91.83%) برای داده های مربوط به ساختمان و LSAD: GM = 87.76% (ROCAUC = 87.92%) برای داده های مربوط به تولید به دست آمدند. SVM که به عنوان یک روش حالت هنر اصلی، نتایج رقابتی کامل را با توجه به میانگین عملکرد نشان می داد؛ با این حال، هنگامی که انحراف استاندارد نتایج، شدیداً بالا باشد (بیش از 10% در برخی آزمایش ها)، نمی تواند به عنوان یک رویکرد قابل اتکا بر اساس این ارزیابی، پیشنهاد گردد.

 

7. نتیجه گیری ها

ما از یک مجموعه داده جدید استفاده کردیم که منعکس کننده توزیع نامتعادل معتبر برای شرکت های ورشکسته و غیر ورشکسته در دو حوزه مختلف صنعت است: ساخت و ساز و تولید. مدل پیشنهادی مبتنی بر LSAD یک کلاسی، یک نمره پیشبینی از 76% تا 91% بسته به سال ارزیابی به دست می دهد. علاوه بر این مدل دسته بندی، ما همچنین یک تجزیه و تحلیل جزئی در مورد پارامترهای مورد استفاده برای پیشبینی، انجام دادیم. دانستن مشخص ترین پارامترها یک سطح اضافی از اطلاعات را فراهم می اورد که از فرایند تصمیم گیری حمایت می نماید تا جایی که مسئولین بتوانند فقط روی پارامترهای مرتبط، تمرکز کنند.

نتایج برای هر دو حوزه صنعتی، بسیار مشابه بود بنابراین، ارائه برخی نتایج که بر اساس آنها این مدل، برای سایر حوزه ها مانند ماشین سازی و مخابرات، کاربردی هستند، میسر شده است. با این حال، اعتبارسنجی این مدل برای حوزه های دیگر، موضوعی برای پزوهش های بیشتر است.

چندین مسیر پژوهشی برای کار آینده وجود دارد. ما همچنان باید رویکردهای دیگری راب رای پیشبینی در مورد دادهه ای نامتعادل مانند یادگیری حساس به هزینه و راهبردهای نمونه گیری بررسی نماییم. ما قصد داریم همچنین از این رویکردها استفاده کنیم و سپس دانش به دست آمده را برای توسعه روش های جدید برای دسته بندی در مجموعه داده های شدیداً نامتعادل، به کار گیریم. موضوع یادگیری نامتعادل، مدت هاست که احاطه شده است، به طوری که احتمالاً چندین روش متداول وجود دارد. با این وجود، فقدان روش های انتخاب ویژگی برای داده های نامتعادل وجود دارد، بنابراین، بر این باوریم که همچنین این، موضوعی است که توجه بیشتری می طلبد. به علاوه، به طور مشابه با بسیاری از مقالات دیگر، روی نگرش های مالی استاندارد، تمرکز می کنیم و از این نگرش ها برای ایجاد مدل های دسته بندی استفاده می نماییم. مقدمه ویژگی های جدید می تواند عملکرد طبقه بندی را بهبود بخشد.

 

بهترین سایت ترجمه

نظرات (۰)

هیچ نظری هنوز ثبت نشده است
ارسال نظر آزاد است، اما اگر قبلا در بیان ثبت نام کرده اید می توانید ابتدا وارد شوید.
شما میتوانید از این تگهای html استفاده کنید:
<b> یا <strong>، <em> یا <i>، <u>، <strike> یا <s>، <sup>، <sub>، <blockquote>، <code>، <pre>، <hr>، <br>، <p>، <a href="" title="">، <span style="">، <div align="">
تجدید کد امنیتی