پیشبینی رویگردانی مشتریان در مدیریت ارتباط با مشتری با استفاده از تکنیکهای دادهکاوی؛ مورد مطالعه …

دادههای اپراتور تالیا
این مجموعه داده شامل اطلاعات مربوط به ۳۱۵۰ مشتری است که در یک دوره زمانی ۱۲ ماهه از آغاز شهریور ۱۳۸۶ تا پایان مرداد ۱۳۸۷ به تفکیک ماه جمعآوری شده است. این مشتریان از میان گروهی انتخاب شدهاند که حداقل در ۲ ماه اول دوره مورد بررسی اقدام به رویگردانی نکرده باشند؛ بدین ترتیب این مجموعه داده فاقد مقادیر گمشده خواهد بود. پایگاه داده بدست آمده دارای ۱۱ ویژگی با شرح زیر است:
- Call Failure: تعداد تماسهای بینتیجه.
- Complains: شکایات داشتن مشترک از اپراتور.
- Subscription Length: طول دوره ارتباط با اپراتور.
- Charge Amount: میزان اعتبار شارژ شده توسط مشترک.
- Seconds of Use: طول زمان مکالمات انجام شده.
- Frequency of Use: تعداد تماسهای گرفته شده توسط مشترک.
- Frequency of SMS: تعداد پیامکهای ارسالی.
- Distinct Called Numbers: تعداد شمارههای متفاوتی که مشترک با آنها تماس گرفته است.
- Age Group: گروه سنی (۱= کمتر از ۱۵ سال، ۲= بین ۱۵ و ۳۰ سال، ۳= بین ۳۰ و ۴۵ سال، ۴= بین ۴۵ و ۶۰ سال، ۵= بالاتر از ۶۰ سال).
- Tariff Plan: نوع طرح خدماتی مورد استفاده (۱= دارای اینترنت، ۰= فاقد اینترنت)
- Status: وضعیت مشترک (۱= فعال، ۲= غیر فعال).
این مجموعه داده همچنین دارای برچسب رویگردانی برای تمامی متشریان مورد بررسی است. منظور از مشتری رویگردان کسی است که در طول دوره مورد بررسی به فروش و واگذاری سیمکارت خود به شخص دیگر مبادرت ورزیده است.
دادههای مسابقات مدلسازی رویگردانی دانشگاه دوک
دانشگاه دوک در سال ۲۰۰۳ مسابقهای را در بخش CRM خود تحت عنوان مسابقات مدلسازی رویگردانی[۱۷۹] تدارک میبیند. دادههای این مسابقه به صنعت بیسیم شرکت مخابرات مربوط میشود و شامل حجم بالایی از اطلاعات جامعی در مورد تعداد زیادی از مشتریان است. این اطلاعات جامع شامل ۱۷۱ ویژگی برای هر مشترک است. در این مجموعه داده نیز مشتریان از میان کسانی انتخاب شدهاند که حداقل ۶ ماه در شرکت بودهاند. مشتریان در طول ماههای جولای، سپتامبر و نوامبر سال ۲۰۰۱ و ژانویه سال ۲۰۰۲ نمونهبرداری شدهاند. برای هر مشتری، ویژگیها و یا به عبارت دیگر متغیرهای پیشگو بر مبنای ۴ ماه گذشته محاسبه شدهاند. در این مجموعه داده، مشتری رویگردان به کسی گفته میشود که در دوره ۳۱ تا ۶۰ روز پس از انتخاب شرکت را ترک کرده باشد.
به دلیل تعداد بسیار زیاد ویژگیها و نمونهها و همچنین وجود مقادیر گم شده در میان دادهها لازم است قبل از استفاده از دادهها، اقدامات پیشپردازش بر روی دادهها انجام شود.
پیشپردازش
اقداماتی که در مرحله پیشپردازش برای آمادهسازی دادهها لازم است انجام شود به قرار زیر است:
دانلود کامل پایان نامه در سایت pifo.ir موجود است. |
- انتخاب نمونه[۱۸۰]: به دلیل تعداد بیش از اندازه نمونهها در این پایگاه داده و برای جلوگیری از بیشبرازش[۱۸۱]، عمل انتخاب نمونه را به گونهای انجام میدهیم که تقریبا توزیع یکسانی از نمونههای هر دو کلاس در نمونه انتخاب شده وجود داشته باشد. بنابراین، از میان دادههای اصلی با در نظر گرفتن معیار ذکر شده تعداد ۱۵۰۰ نمونه به تصادف انتخاب کردیم.
- انتخاب ویژگی[۱۸۲]: اگرچه فرایند انتخاب ویژگی در ساختار مدل پیشنهادی این تحقیق قرار دارد ولی از آن جایی که از میان ۱۷۱ ویژگی موجود در این پایگاه داده تعدادی از آنها بالای ۷۰% دارای مقادیر گم شدهاند و همچنین تعدادی نیز دارای مقادیری یکنواخت و یا با پراکندگی بسیار بالا هستند، لازم است با انتخاب ویژگی اولیه در مرحله پیشپردازش این ویژگیها شناسایی و حذف شوند. برای انجام این کار از نرمافزار دادهکاوی SPSS Clementine استفاده کردیم؛ نحوه پیادهسازی پیشپردازش در این نرمافزار و نتیجه بدست آمده در شکل ۳-۵ قابل مشاهده است. چنانچه در شکل نیز مشخص است، خروجی فرآیند انتخاب ویژگی لیست مرتب شدهای از ویژگیهاست که به ترتیب اهمیت قرار گرفتهاند. همچنین ویژگیهای دارای مقادیر گمشده زیاد به همراه آن ویژگیهای دستهای که تقریبا در یک دسته توزیع شدهاند و یا دارای پراکندگی بالایی هستند در بخش مجزایی نشان داده شدهاند.
شکل ۳‑۵: فرآیند انتخاب ویژگی در Clementine
- برخورد با دادههای گم شده[۱۸۳]: پس از حذف ویژگیهایی که مقادیر بسیار زیادی داده گم شده دارند، هنوز مجموعه داده شامل دادههای گم شده است. برای برخورد با این دادههای گم شده با استفاده از نرمافزار MATLAB سه رویکرد زیر مورد استفاده قرار گرفته است:
حذف نمونه: پس از بررسی دادهها، ۳ نمونه شناسایی شد که در بسیاری از ویژگیهای خود دارای مقدار گم شده بودند. این نمونهها پس از شناسایی از مجموعه داده حذف شدند.
جایگذاری با مقدار مد: ویژگی hnd_price در ۱۶ نمونه دارای مقدار گم شده است که در تمامی آنها مقدار مد این ویژگی یعنی ۲۹٫۹۹۰۰ جایگزین شده است.
جایگذاری با مقدار نمونه مشابه: ویژگی change_mou نیز در ۸ نمونه دارای مقدار گم شده است. برای جایگذاری این مقادیر برای هر نمونه، ابتدا مشابهترین نمونه با آن را شناسایی کردیم سپس مقدار ویژگی change_mou نمونه شناسایی شده را جایگزین مقدار گم شده کردیم.
فاز دوم مدل: شناسایی مشتریان با ارزش
پس از پیشبینی و شناسایی مشتریانی که در خطر رویگردانی قرار دارند، شرکت باید تمرکز خود را بر مشتریانی قرار دهد که دارای ارزش بیشتری هستند؛ تا بدین طریق منابع سازمان را به صورت بهینه برای جلوگیری از رویگردانی مشتریان با ارزش اختصاص دهد. در این تحقیق ما برای شناسایی مشتریان با ارزش از میان مشتریان مستعد رویگردانی، به خوشهبندی مشتریان شناسایی شده در فاز اول پرداختیم. برای خوشهبندی از تکنیک شبکه عصبی SOM استفاده کردهایم. همچنین برای تعیین متغیرها برای خوشهبندی، هم از متغیرهای سنتی CRM استفاده کردیم و هم از متغیر استخراج شده از شبکه اجتماعی مشتری؛ تمامی متغیرهای استخراج شده به نوعی متاثر بر ارزش مشتری هستند.
متغیرهای سنتی CRM
ارزش عمر مشتری[۱۸۴] به عنوان معیاری برای تعیین مشتریان باارزش است. مدلهای مختلفی برای محاسبه ارزش عمر مشتری ارائه شده است. در این تحقیق برای استخراج متغیرهای سنتی CRM برای خوشهبندی، از مدل LRFM که توسط چنگ و تیسای ارائه شد (Chang and Tsay 2004)، استفاده میکنیم.
مدل RFM یک مدل رفتار محور برای تحلیل رفتار یک مشتری و سپس پیشبینی کردن بر اساس رفتار مشتریان پایگاه داده است. در این مدل سه مشخصه تاخیر[۱۸۵]، فراوانی[۱۸۶] و مقدار پولی[۱۸۷] به عنوان مبنای ارزشگذاری مشتریان در نظر گرفته میشوند. تاخیر، طول مدت زمان از آخرین خرید را نشان میدهد؛ فراوانی، تعداد خریدها را در یک دوره زمانی مشخص بیان میکند و مقدار پولی، یعنی میزان پول مصرف شده در این دوره زمانی مشخص (Lin, Wei et al. 2011).
چنگ و تیسای مدت[۱۸۸] را به مدل RFM اضافه کردند و آن را به مدل LRFM تبدیل کردند. مدت، دوره زمانی بین اولین بازدید و آخرین بازدید یک مشتری خاص را اندازه میگیرد. مدت به این دلیل به مدل اضافه شد که مدل RFM نمیتواند مشتریانی که ارتباط کوتاه مدت و یا بلد مدت با شرکت داشتهاند را بخشبندی کند. با معرفی مدت به مدل، ارتباط بین مشتریان و شرکت از نقطه نظر عددی مشخص میشود.
در میان دو پایگاه داده مورد استفاده در این تحقیق، دادههای اپراتور تالیا فاقد اطلاعات مربوط به خصیصههای LRFM است. در دادههای مسابقات مدلسازی رویگردانی دانشگاه دوک متغیرهای زیر به عنوان متغیرهای سنتی CRM استخراج شدهاند: