3-2 راهکار پیشنهادی53
3-2-1 آماده سازی و پیش پردازش داده54
3-2-1-1 جمع آوری و بارگذاری داده‌های استخراج شده54
3-2-1-2 پاک سازی داده54
3-2-1-3 انتخاب زیر مجموعه‌ای از ویژگی‌ها55
3-2-1-4 فیلترینگ نمونه‌ها55
3-2-1-5 تبدیل داده55
3-2-1-6 خلق ویژگی55
3-2-1-7 نمونه برداری56
3-2-2 یادگیری مدل56
3-2-2-1 خوشه بندی56
3-2-2-2 خوشه بندی K-Means56
3-2-2-3 خوشه بندی با استفاده از الگوریتم K-Means با توجه به فرکانس تکرار و درجه اهمیت درخواست‌ها و نیازمندی‌ها57
3-2-3 ارزیابی و تفسیر مدل58
3-2-4 دسته بندی جدید و اولویت بندی نیازمندی‌های استخراج شده با استفاده از تکنیک رتبه بندی58
3-2-4-1 روش رتبه بندی60
3-2-4-2 شاخص‌های رتبه بندی60

در این سایت فقط تکه هایی از این مطلب(به صورت کاملا تصادفی و به صورت نمونه) با شماره بندی انتهای صفحه درج می شود که ممکن است هنگام انتقال از فایل ورد به داخل سایت کلمات به هم بریزد یا شکل ها درج نشود-این مطالب صرفا برای دمو می باشد

ولی برای دانلود فایل اصلی با فرمت ورد حاوی تمامی قسمت ها با منابع کامل

اینجا کلیک کنید

3-2-4-3 ضرایب یا وزن شاخص‌ها61
فصل چهارم (محاسبات و یافته‌های تحقیق)65
4-1 مطالعه موردی: سامانه مدیریت شهری 137 شهرداری تهران65
4-2 معرفی ابزار برتر داده کاوی RapidMiner66
4-3 پیاده سازی روش پیشنهادی68
4-4 ارزیابی و تفسیر خوشه‌ها69
فصل پنجم (نتیجه گیری و پیشنهادات)72
5-1 نتیجه گیری72
5-2 مشکلات و نقاط ضعف کارهای مرتبط72
5-3 مزایا و ویژگی‌های روش پیشنهادی73
5-4 کارهای آینده74
پیوست – منابع و مآخذ75
Abstract76
فهرست جداول
جدول2-1: مقایسه روش‌های سنتی استخراج نیازمندی‌ها36
جدول2-2: مسائلی در ارتباط با نیازمندی‌های تطبیق شده47
جدول3-1: معیارهای SSE و ASC57
جدول3-2: بررسی برخی روش‌های اولویت بندی59
جدول3-3: تعیین ضریب شاخص (درجه اهمیت)62
جدول3-4: تعیین درجه اهمیت نیازمندی62
جدول3-5: تعیین ضریب شاخص63
جدول4-1: جدول پیام65
جدول4-2: نتیجه خوشه بندی و اولویت بندی نیازمندی‌ها69
فهرست شکل‌ها
شکل2-1: فرایند داده کاوی و کشف دانش20
شکل2-2: استفاده از داده کاوی در استخراج نیازمندی‌ها40
شکل2-3: شبکه اجتماعی43
شکل2-4: روش مبتنی بر سناریو44
شکل2-5: مدل تکرار پذیر استخراج نیازمندی‌های جامع46
شکل3-1: مراحل اصلی راهکار پیشنهادی53
شکل3-2: گام‌های مرحله آماده سازی و پیش پردازش داده54
شکل3-3: تعیین اولویت61
شکل3-4: ترتیب اولویت62
شکل4-1: نمایی از یک پردازش در نرم‌افزار RapidMiner67
شکل4-2: نمایی از مصور سازی داده‌ها در نرم‌افزار RapidMiner67
شکل4-3: استفاده از عملگرها در مراحل پیاده سازی68
فصل اول
مقدمه و کلیات تحقیق
1-1 مقدمه

شما می توانید تکه های دیگری از این مطلب را با جستجو در همین سایت بخوانید

مهندسی سیستم سعی می‌کند تا نیازمندی‌های سیستم را تشخیص دهد که این عمل با همکاری مشتریان، کاربران و تمامی ذینفعان انجام می‌شود [1]. مدیریت ارتباط با شهروند یکی از مباحث اصلی در مدیریت دولتی نوین محسوب شده و از اهمیت بسیاری برخوردار است. در مدیریت ارتباط با شهروند تمرکز اصلی بر شهروند محوری است و بهبود خدمت رسانی و پاسخ گویی به شهروندان بر اساس نیازهای ایشان، هدف اصلی محسوب می‌شود. در واقع درک درست از نیازها و خواسته‌های گروه‌های مختلف شهروندان و ارائه خدمات مناسب با این نیازها، موضوعی است که باید در مدیریت ارتباط با شهروند مورد توجه قرار گیرد [2].
1-2 مهندسی نیازمندی‌ها
خروجی فرایند مهندسی سیستم تعریفی از یک سیستم کامپیوتری یا محصول است. در این مرحله نیز این مشکل وجود دارد که چگونه مطمئن شویم که تعریف ارائه شده از سیستم نیازهای مشتری را برطرف می‌کند و انتظارات او را رفع می‌سازد. برای این منظور نیازمند به طی فرایند مهندسی نیازمندی‌ها هستیم. این فرایند مکانیزم‌های مناسب را فراهم می‌آورد تا تشخیص دهیم مشتری چه می‌خواهد، نیازهای تحلیل چیست، یک راه معقول کدام است و ابهامات نیازمندی در کجا هستند.
مهندسی نیازمندی‌ها دارای پنج فاز مهم زیر می‌باشد [1]:
استخراج1 نیازمندی‌ها: در این فاز اهداف سیستم و یا محصول مشخص می‌گردد و نیز اینکه چه چیزی انجام می‌گیرد، سیستم و یا محصول چگونه نیازهای تجاری را رفع می‌کنند.
تحلیل2 نیازمندی‌ها: هنگامیکه نیازها جمع آوری شدند عمل تحلیل روی آنها انجام می‌گیرد. تحلیل، نیازمندی‌ها را در زیر دسته‌هایی خاص دسته بندی می‌کند، ارتباط هر کدام را با دیگری بررسی نموده، جامعیت و ابهامات آنها را تست و نیازمندی‌ها را بر اساس نیاز مشتری اولویت بندی می‌کند.
تعریف مشخصات3 نیازمندی‌ها: در این فاز بر اساس تعریف ایجاد شده از سیستم، یک مدل از آن ساخته می‌شود.
اعتبار سنجی4 نیازمندی‌ها: در این فاز نیازمندی‌ها برای وجود ابهامات مورد آزمایش و بررسی دقیق قرار می‌گیرند.
مدیریت5 نیازمندی‌ها: این فاز مجموعه‌ای از فعالیت‌ها را تعریف می‌کند که باعث می‌شوند تیم پروژه بتواند تعیین، کنترل و ردگیری نیازمندی‌ها و تغییرات آنها را در هر زمان مدیریت کند.
این پنج فاز مکانیزم مناسبی جهت درک خواسته‌های ذینفعان، تحلیل نیازها، تعیین امکان پذیر بودن پروژه، مذاکره در مورد راه حل قابل قبول، تعیین راه حل به صورت شفاف، اعتبار سنجی خصوصیات و مدیریت نیازمندی‌ها در زمان اعمال آنها به سیستم عملیاتی می‌باشد.
هدف از فاز اول تعیین این موضوع است که چه مسائلی نیاز به حل شدن دارند. در فاز دوم درک ارتباط بین نیازمندی‌های گوناگون مشتری و شکل دادن به ارتباطات برای دستیابی به نتیجه موفق انجام می‌شود. در فاز سوم از روش‌هایی چون ایجاد یک مدل ملموس از سیستم می‌تواند به تعیین نیازمندی‌ها کمک کند. در فاز چهارم توسط بازبینی مدل به اعتبار و صحت سنجی نیازهای ثبت شده پرداخته و در فاز آخر به مدیریت این فرایند که شامل تعیین، کنترل و پیگیری نیازها و تغییرات آنها می‌باشند، می‌پردازیم.
1-3 استخراج نیازمندی‌ها
استخراج نیازمندی‌ها به عنوان اولین و مهم‌ترین فاز از پنج فاز مهندسی نیازمندی‌ها می‌باشد. هدف استخراج نیازمندی‌ها تعیین این مطلب است که چه مسائلی نیازمند حل شدن هستند. بیشتر سیستم‌هایی که در صنعت نرم افزار ساخته می‌شوند نمی‌توانند نیازهای کاربران را برآورده کنند. کیفیت نیازمندی‌ها برای موفقیت یک پروژه حیاتی است. استخراج نیازمندی‌ها فاز اول مهندسی نیازمندی‌ها است و نقش مهمی در طول چرخه‌ی عمر توسعه‌ی نرم افزار دارد. این فاز شامل مسائل اجتماعی، ارتباطی و تکنیکی و درگیر بیرون کشیدن نیازمندی‌های مشتری است و یکی از فعالیت‌های کلیدی و پیچیده محسوب می‌شود، زیرا در اکثر موارد کاربران از نیازهای خود آگاه نیستند و اختلاف در نقاط دید طرز تفکر و انتظارات بین کاربران و تحلیلگران این کار را مشکل و چالش برانگیز ساخته است. برای پشتیبانی و بهبود فرایند استخراج تکنیک‌های زیادی با نقاط ضعف و قدرت متفاوت وجود دارند اما مهندسان نیازمندی همواره برای انتخاب تکنیک مناسب از بین این تکنیک‌ها مشکلاتی دارند. مهم‌ترین دلیل آن این است که یک تکنیک برای همه‌ی موقعیت‌ها مناسب نیست و موقعیت در طول فرایند استخراج تغییر می‌کند. نقل قولی از فردریک بروکس جواب این سؤال را که “چرا نیازمندی‌ها اینقدر اهمیت دارند” می‌گوید: سخت‌ترین بخش ساخت یک سیستم نرم‌افزاری تصمیم گیری دقیق در مورد این است که چه چیزی باید ساخته شود. بخش‌های دیگر عمل درک نیازمندی‌ها به سختی وضع کردن نیازمندی‌های فنی مجزا نیست که شامل همه رابطه‌های افراد، ماشین‌ها ، و سیستم‌های نرم افزاری دیگر است. بخش‌های دیگر سیستم حاصل را اینقدر عاجز نمی‌کنند اگر اشتباه انجام شود. هیچ بخش دیگری سخت‌تر از این نیست که بعداً تصحیح شود. استنباط ، تحلیل ، و خوب نوشتن نیازمندی‌ها سخت‌ترین بخش‌های مهندسی نرم افزار هستند. به هر حال به نقل قول از کارل ویگرس “اگر شما نیازمندی‌ها را درست نگیرید هیچ اهمیتی نخواهد داشت که شما چیزهای دیگر را چقدر خوب انجام داده باشید”.
1-4 سازمان‌های بزرگ مقیاس
همان طور که از نام سازمان‌های بزرگ مقیاس برمی‌آید، این نوع از سازمان‌ها، سازمان‌هایی هستند که از نظر مقیاس و اندازه فراتر از سازمان‌های امروزی هستند. این «بزرگ مقیاس» بودن از هر نظر قابل بررسی است: از نظر افراد درگیر در سازمان، داده‌های ذخیره شده، بازیابی شده، دستکاری شده و پالایش شده، میزان اتصالات و وابستگی بین واحدی مؤلفه‌های نرم‌افزاری، عناصر سخت‌افزاری و … .
«مقیاس» در سازمان‌های بزرگ مقیاس باعث تغییر همه چیز می‌شود. این سازمان‌ها، لزوماً به شکل نامتمرکز هستند؛ توسط تعداد زیادی از ذینفعان با نیازهای متضاد، توسعه و به کار گرفته می‌شوند؛ به طور مستمر تکامل پیدا می‌کنند؛ از قطعات ناهمگن تشکیل می‌شوند؛ افراد تنها کاربران سامانه نیستند، بلکه بخشی از سامانه محسوب می‌شوند؛ خرابی‌های نرم‌افزاری و سخت‌افزاری یک امر کاملاً عادی محسوب می‌شوند و نمی‌توان آن‌ها را یک استثناء در نظر گرفت. همچنین، سامانه‌های بزرگ مقیاس همزمان مورد استفاده قرار می‌گیرند و نیاز به روش‌های نوین برای کنترل دارند. این ویژگی‌ها، لزوم بکارگیری روش‌هایی را برای استفاده، تولید، استقرار، مدیریت، مستندسازی و تکامل سازمان‌های بزرگ مقیاس اجتناب‌ناپذیر می‌سازد [3].
از نمونه این سازمان‌ها می‌توان به شهرداری تهران اشاره نمود که دارای مجموعه وسیعی از نیروی انسانی در واحدهای مختلف بوده که هدف آنها جلب رضایت هرچه بیشتر شهروندان می‌باشد. ارضای نیازمندی‌های شهروندان در اولویت وظایف این سازمان قرار داشته و با بوجود آوردن زیرمجموعه‌هایی همچون سامانه مدیریت شهری 137، سامانه نظارت همگانی 1888 و … با دخیل کردن شهروندان در ثبت نظرات، پیشنهادات، خواسته‌ها و نیازهایشان سعی به انجام بهتر این وظیفه بزرگ دارد.
1-5 ویژگی‌های سازمان‌ها و سامانه‌های بزرگ مقیاس
سازمان‌های بزرگ مقیاس ویژگی‌هایی دارند که باعث می‌شوند رویکردهای فعلی و مورد استفاده روش‌های مهندسی نرم‌افزار نتوانند پاسخگوی توسعه آن‌ها باشند. این ویژگی‌ها عمدتاً ناشی از «مقیاس» این گونه از سازمان‌ها است. ویژگی اصلی سازمان‌های بزرگ مقیاس، اندازه بسیار بزرگ آن‌ها در ابعاد مختلف است. البته ماهیت سامانه‌های بزرگ مقیاس به مواردی فراتر از «اندازه» آن‌ها برمی‌گردد. در واقع، اندازه باعث می‌شود بسیاری از مواردی که در سازمان‌های معمولی غیر مهم یا کم اهمیت بودند، تبدیل به موارد بااهمیت شوند. مشکلات ناشی از مقیاس، نیازمند روش‌های جدید حل و تعریف مفاهیم نو برای طراحی، توسعه، کارکرد و تکامل سازمان‌ها است. می‌توان هفت ویژگی را برای سازمان‌ها و یا سامانه‌های بزرگ مقیاس در نظر گرفت. در ادامه، ضمن بیان این ویژگی‌ها، مشخص می‌کنیم چرا هر یک از آن‌ها باعث می‌شود که رویکردهای فعلی مهندسی نرم‌افزار در مقابله با آن‌ها ناتوان باشد [3].
کنترل نامتمرکز
مقیاس سامانه‌های بزرگ مقیاس تنها به شکل بسیار محدودی اجازه کنترل مرکزی و سلسله مراتبی داده، توسعه، تکامل، و کارکرد را می‌دهد. حتی مقدار محدود کنترل سلسله مراتبی که امروزه در سامانه‌های بسیار بزرگ امکان‌پذیر است، در سامانه‌های بزرگ مقیاس مورد تردید است، و در نتیجه مدل‌های متفاوتی را برای کنترل طلب می‌کند.
نیازمندی‌های ذاتاً متضاد و ناشناخته
مقیاس و پیچیدگی مسائلی که سازمان‌های بزرگ مقیاس باید حل کنند، اغلب ما را به سمت وضعیتی سوق می‌دهد که در آن نیازمندی‌های یک سامانه تا زمان استفاده از آن سامانه ناشناخته‌اند. حتی، گاهی پس از آن که سامانه مورد نظر عملیاتی شد، درک ما از مسئله دچار تغییر می‌شود. در واقع، هر تلاش برای حل مسئله، فهم ما را از آن مسئله بیشتر می‌کند و باعث می‌شود مسئله جدیدی مطرح شده و به تلاشی دیگر برای حل آن نیاز باشد. به این شکل، بسیاری از مسائلی که سامانه‌های بزرگ مقیاس باید حل کنند، پایان‌پذیر نیستند. از طرف دیگر، سامانه‌های بزرگ مقیاس به دلیل اندازه و ماهیتشان باید طیف وسیعی از نیازمندی‌ها را ارضا کنند. هر چقدر دامنه این نیازمندی‌ها وسیع‌تر باشد، تنوع و تضاد در بین آن‌ها افزایش می‌یابد. همچنین، یکپارچگی راه‌حل‌ها نیاز به دانش در حوزه‌های مختلف و بین دامنه‌ای دارد، که به دست آوردن آن چندان ساده نیست.
تکامل و استقرار مداوم
یکی دیگر از پیامدهای «اندازه» این است که سازمان‌های بزرگ مقیاس برای مدت طولانی باید به ارایه خدمات بپردازند. در واقع، اندازه این نوع از سازمان‌ها جایگزینی یا از رده خارج شدن آن‌ها را غیرممکن می‌سازد. سازمان‌های بزرگ مقیاس نیز همانند سامانه‌های بسیار بزرگ امروزی به طور مداوم تکامل پیدا می‌کنند تا نیازمندی‌های جدید و تغییریافته را برآورده کنند. با این حال، ما به تکاملی متفاوت از تکامل در سازمان‌های بسیار بزرگ امروزی نیاز داریم. هنگامی که از تکامل یک سامانه صحبت می‌کنیم، منظورمان تغییرات هدایت‌شده‌ای است که بر اساس قواعد و سیاست‌ها، به شکل محلی انجام می‌شود بدون آن که یکپارچگی آن سامانه را از بین ببرد. اما، یکپارچگی در سامانه‌های بزرگ مقیاس توسط گروه‌های مختلفی از ذینفعان انجام می‌شود. هیچ تضمینی وجود ندارد که این تغییرات کاملاً قاعده‌مند بوده و بر اساس قواعد از پیش تعریف شده انجام پذیرد.
عناصر ناهمگن، ناسازگار و در حال تغییر
اندازه سامانه‌های بزرگ مقیاس به این معنی است که عناصر آن (همچون سخت‌افزار، نرم‌افزار، روال‌ها، قواعد، افراد و …) ناهمگن، ناسازگار و در حال تغییر هستند. عناصر نرم‌افزاری به دلیل گوناگون بودن منابع آن‌ها ناهمگن هستند (زبان‌های برنامه‌سازی متفاوت، سکوهای مختلف، متدلوژی‌های متفاوت و …). از آن جا که ایجاد نرم‌افزارها نیز در شرایط متفاوتی (از منظر مکان‌ها، زمان‌بندی‌ها، فرآیندها، اهداف، ذینفعان و …) انجام شده است، احتمالاً در طراحی، ساخت و بهره‌برداری با یکدیگر ناسازگارند. بخش‌های مختلف یک سامانه همواره در حال تغییر هستند. محیط عملیاتی تغییر می‌کند؛ بخش‌های خراب سخت‌افزار باید جایگزین شوند؛ نرم‌افزارها و سخت‌افزارها به روز می‌شوند؛ و پیکربندی مؤلفه‌ها اصلاح می‌شوند.
از بین رفتن تدریجی مرز بین افراد و سامانه
افراد نه تنها کاربران یک سامانه بزرگ مقیاس هستند، بلکه بخشی از رفتار کلی آن نیز محسوب می‌شوند. در واقع، مرز بین سامانه و نقش‌های کاربر/ توسعه‌دهنده به روشنی مشخص نیست. یک شهر را در نظر بگیرید. افرادی که در این شهر ساکن هستند، ممکن است تغییر و نگهداری آن را نیز به عهده داشته باشند. در واقع یک شخص، نقش‌های متفاوتی دارد. در یک سامانه بزرگ مقیاس نیز چنین وضعیتی رخ می‌دهد. یک شخص در یک زمان ممکن است کاربر سامانه باشد؛ در وقتی دیگر ممکن است یک نقش نگهداشت را بر عهده گیرد؛ در زمانی دیگر می‌تواند عملکردهای سامانه را اضافه و کم یا تصحیح کند. در نظر گرفتن افراد به عنوان بخشی از سامانه‌های بزرگ مقیاس به این معنی است که با تغییر توانایی‌های محاسباتی و پیکربندی سازمان‌ها باید فرآیندها و روال‌های مربوطه جهت کمک به درک افراد در راستای اهداف و مأموریت‌های آن‌ها اصلاح شود، زیرا افراد بخشی از خود سامانه بزرگ مقیاس هستند.
خرابی‌های طبیعی
از آن جا که زیربنای فیزیکی یک سامانه بزرگ مقیاس بسیار گسترده است، خرابی سخت‌افزار دیگر یک امر غیرعادی نیست؛ بلکه به طور طبیعی اتفاق می‌افتد. همچنین، از آنجا که مؤلفه‌های نرم‌افزاری فراتر از ظرفیتی که طراحی شده‌اند، تحت فشار قرار می‌گیرند، رفتار آن‌ها نیز ممکن است نامطلوب باشد؛ که این مسئله نیز کاملاً عادی است. فرض کنید یک پروتکل ارتباطی در هر یک میلیون انتقال فایل یک بار با شکست روبه‌رو می‌شود. اگر انتقال فایل یک میلیون بار در روز اتفاق افتد، به طور متوسط یک شکست در روز خواهیم داشت. در سامانه‌های بزرگ مقیاس معمولاً بروز خرابی آن قدر متداول است که در واقع می‌توان گفت خطا «همیشه» رخ می‌دهد. با توجه به مقیاس چنین سامانه‌هایی، مسئله خرابی باید به شکل یک مشکل پیوسته در طراحی و ساخت لحاظ شود. 
پارادایم‌های جدید برای استفاده و سیاست‌گذاری
به دلیل اندازه سامانه‌های بزرگ مقیاس، افرادی که مسئول ساخت آن‌ها هستند (احتمالاً مدیران، توسعه‌دهندگان، فروشندگان، و …) نمی‌توانند به طور قطعی تعریف شوند. نمی‌توان نیازمندی‌های متغیر و غیرقطعی ذینفعان را کنترل کرد. نمی‌توان نیازمندی‌ها را به شکل متمرکز و سراسری نظارت کرد. در حقیقت اندازه سامانه‌های بزرگ مقیاس باعث بروز یک چالش اساسی برای مدیران می‌شود. اگر نتوان نیازمندی‌های واقعی ذینفعان را به طور کامل مشخص کرد، چگونه می‌توان فرآیند بستن قرارداد، طراحی و ساخت را کنترل کرد.
1-6 چالش‌های سازمان‌های بزرگ مقیاس
سازمان‌های بزرگ مقیاس دارای ویژگی‌هایی هستند که باعث می‌شوند رویکردهای (فعلی و مورد استفاده) روش‌های مهندسی نرم‌افزار نتوانند پاسخگوی نیازهای آن‌ها باشند. این ویژگی‌ها عمدتاً ناشی از «مقیاس» این گونه از سازمان‌ها است. روش‌های امروزی برای استخراج صحیح نیازمندی‌ها در این سازمان‌ها کافی نیستند. موفقیت سازمان‌های بزرگ مقیاس و دست‌یابی به اهداف و مقاصد این نوع از سازمان‌ها بستگی به توسعه توانمندی‌های جدید دارد [3]. از نمونه این چالش‌ها می‌توان به بحث استخراج و اولویت بندی نیازمندی‌ها در سامانه مدیریت شهری 137 شهرداری تهران اشاره نمود که شامل میلیون‌ها رکورد ثبت شده از خواسته‌ها و نیازهای شهروندان می‌باشد که استفاده از این حجم عظیم اطلاعات، این سامانه را گاهاً دچار مشکل می‌کند.
1-7 انگیزه
امروزه اهمیت اولین فاز از فازهای مهندسی نیازمندی‌ها بر همگان مشخص گردیده و بارها مشاهده کردیم که نادیده گرفتن یک ذینفع منجر به صدمات جبران ناپذیر و یا حداقل منجر به نادیده شدن گروهی از ذینفعان دیگر گردیده است. در استخراج نیازها، افراد دیدگاه‌ها و نظرات متفاوتی در نیازها و اولویت اجرای آنها دارند و با رشد روز افزون بازار فناوری اطلاعات و بزرگ شدن پروژه‌ها اهمیت و پیچیدگی این موضوع بیشتر می‌گردد.
انگیزه از جایی شروع می‌شود که تا ندانیم چه مسائلی نیاز به حل شدن دارند نمی‌توانیم به دنبال ارائه راه حل‌های آنها باشیم. بنابراین شناسایی و اولویت بندی نیازها موضوعی است که باید در ابتدا مورد توجه قرار گیرد. با توجه به اهمیت استخراج نیازمندی‌ها و مدیریت ارتباط با شهروند، پژوهش قابل توجهی در این زمینه انجام نشده است. اکثر مقالات منتشر شده در این زمینه نیز جنبه نظری و تئوری داشته و تعداد کمی از آنها به صورت کاربردی مفهوم مدیریت ارتباط با شهروند را مورد بررسی قرار داده‌اند [2].
1-8 تعریف مسئله
با رشد و توسعه‌ی بازار فناوری اطلاعات این موضوع به وضوح مشخص است که مشتریان و توسعه دهندگان از نظر جغرافیایی در سراسر کشور و جهان پراکنده می‌باشند و در نتیجه روش‌های چون ملاقات‌های شخصی در بحث استخراج نیازمندی‌ها تقریباً غیر ممکن است. علاوه بر این، رشد اندازه و پیچیدگی سیستم‌های نرم‌افزاری و همچنین رشد رو به افزایش تعداد ذینفعان، مسئله‌ی مدیریت و هماهنگی استخراج نیازها را در سازمان‌ها و سامانه‌های بزرگ مقیاس روشن می‌سازد [4-6]. در این میان تکنیک‌های سنتی مهندسی نیازمندی‌ها روش‌هایی اقتباس گردیده از مدل‌های متمرکزی هستند که استفاده از این تکنیک‌ها در سامانه‌های بزرگ مقیاس چالش برانگیز و زمانبر و گاهی ناممکن است.
در نتیجه لازم است تکنیک‌ها و یا ابزارهای جدیدی در راستای پشتیبانی از سازمان‌ها و یا سامانه‌های بزرگ مقیاس در استخراج نیازمندی‌ها توسعه داده شوند که در این خصوص رهیافت‌های جدید باید دارای قابلیت مقیاس پذیری بالایی باشند. در این راستا قصد داریم روش‌های پرکاربرد موجود در استخراج نیازمندی‌ها را اعم از روش‌های سنتی، استفاده از ابزارها و روش‌های نوین مورد بررسی و تجزیه و تحلیل قرار داده و مزایا و معایب هر روش را تشریح کنیم. سپس به تکنیک‌های مورد استفاده در افزایش سطح رضایتمندی ذینفعان پرداخته تا بتوانیم در راستای اهداف تحقیق از آنها بهره‌مند گردیم. در آخر با استفاده از تدبیری به ارائه چارچوبی جهت استخراج و اولویت بندی صحیح نیازمندی‌ها در سازمان‌های بزرگ مقیاس بپردازیم.
1-9 فرضیه
نکته قابل توجه در بحث تعیین اندازه سازمان یا سامانه این است که معیارهای متفاوت و استانداردی در این مورد ذکر گردیده است. از جمله‌ی این معیارها می‌توان به تعداد خطوط برنامه، زمان، هزینه و غیره اشاره نمود. اما قابل ذکر است در این تحقیق منظور ما از سازمان‌ها و یا سامانه‌های بزرگ مقیاس، آنهایی هستند که تعداد زیادی از ذینفعان را در بر می‌گیرند. ذینفعان افرادی هستند که به هر نحو سطوحی از تأثیرات روی نیازمندی‌های آن سازمان و یا سامانه دارند. از نمونه‌ی این سازمان‌ها می‌توان به مرکز مدیریت شهری 137 شهرداری تهران اشاره نمود که دارای پایگاه داده‌ای شامل میلیون‌ها رکورد از نیازهای ثبت شده مردمی می‌باشد.
1-10 اهداف تحقیق
اصلی‌ترین اهدافی که این تحقیق پوشش می‌دهد، عبارتند از:
بررسی مراحل لازم در استخراج نیازمندی‌ها
درک چگونگی برنامه ریزی و تعیین استراتژی استخراج نیازمندی‌ها

بررسی تکنیک‌های مطرح در استخراج نیازمندی‌ها به همراه نقاط ضعف و قوت آنها
ارائه چارچوبی در استخراج و اولویت بندی نیازمندی‌ها در سازمان‌ها و یا سامانه‌های بزرگ مقیاس
ارزیابی چارچوب ارائه شده و بحث و نتیجه گیری
به طور کلی این پایان نامه از پنج فصل تشکیل شده است. در فصل اول مقدمه‌ای بر مهندسی نیازمندی‌ها و اولین و مهم‌ترین فاز آن یعنی استخراج نیازمندی‌ها ارائه خواهد شد. در فصل دوم به ادبیات موضوع و پیشینه تحقیق پرداخته خواهد شد. این تحقیقات شامل پر کاربردترین و رایج‌ترین روش‌های استخراج نیازمندی‌ها در سه گروه 1. روش‌های سنتی، 2. استفاده از ابزارها و 3. روش‌های نوین استخراج نیازمندی‌ها می‌باشد. در این فصل نیز تلاش‌هایی که در جهت افزایش سطح رضایتمندی ذینفعان صورت گرفته مطرح و همچنین در ارتباط با نقاط ضعف و قوت تمامی این روش‌ها بحث خواهد گردید. در فصل سوم به ارائه چارچوب پیشنهادی در ارتباط با استخراج و اولویت بندی نیازمندی‌ها در سازمان‌های بزرگ مقیاس به زبان فارسی مبتنی بر نیازمندی‌های عملیاتی و غیر عملیاتی پرداخته و در فصل چهارم در ارتباط با محاسبات و یافته‌های تحقیق به روش مطالعه میدانی و کتابخانه‌ای بحث خواهد گردید. در فصل آخر یعنی فصل پنجم به نتیجه گیری و پیشنهادات آتی پرداخته خواهد شد. پس از آن در پیوست، منابع و مآخذ و ضمایم همچنین چکیده انگلیسی قابل دسترس است.
فصل دوم
ادبیات و پیشینه تحقیق
2-1 مقدمه
امروزه میزان داده‌های در دسترس هر پنج سال دو برابر می‌شود و سازمانی تواناست که قادر باشد کمتر از 7% از اطلاعاتش را مدیریت نماید. بر اساس تحقیقات شرکت IBM سازمان‌ها کمتر از 1% از داده‌هایشان را برای تحلیل استفاده می‌نمایند. سازمان‌ها داده‌های تجاری زیادی را در تصرف خود دارند، در حالی که هنوز با فقدان دانش تجاری مواجه هستند. تقسیم بندی مشتریان، افزایش رضایت آنها و یا حتی بدست آوردن سهم بیشتری از بازار نسبت به رقبا با استفاده از ابزارهای داده کاوی از کاربردهای آن می‌باشد [7]. با استفاده از داده کاوی می‌توان به دانشی دست یافت که خود انسان قرن‌ها بعد این دانش را کسب خواهد کرد. در حقیقت داده کاوی در زمینه‌های متعددی از قبیل پزشکی، بورس اوراق بهادار، هواشناسی، بازاریابی، تشخیص کلاه‌برداری‌های بانکی و بیمه‌ای، تجارت الکترونیک و … وجود دارد. خروجی همه‌ی این زمینه‌ها بر این اصل صحه می‌گذارد که انسان به دلایل مختلف اعم از سرعت پردازشی، جهل داده‌ای، چگونگی پردازش و … نمی‌تواند نظم‌های پیچیده موجود در نهان داده‌های حجیم را شناسایی نماید [8]. در محیط امروزی، سازمان‌های بسیاری در تلاش هستند که فلج اطلاعات را شکست بدهند. در این راستا داده کاوی سازمانی6 به عنوان یک ابزاری می‌باشد که مدیران را قادر می‌سازد تا سریع‌تر نسبت به آینده عمل نمایند، فعال باشند نسبت به اینکه واکنش پذیر باشند، بدانند تا اینکه حدس بزنند. پر واضح است که با داشتن این قابلیت، سازمان‌ها قادرند دانش ارزشمندی را از داده‌هایشان بدست آورند [9]. در واقع علم داده کاوی انسان را قادر می‌سازد که حجم عظیمی از داده‌ها را مورد پردازش عمیق قرار دهد و کلیه نظم‌هایی را که در عمق داده وجود دارند، همچون طلا در یک معدن طلا، به صورت دانشی با ارزش کشف کرده و جهت استفاده عرضه نماید [8]. در این فصل با مقدمات علم داده کاوی آشنا خواهیم شد و پس از آن به بررسی روش‌ها و تکنیک‌های استخراج نیازمندی‌ها پرداخته و در آخر سعی داریم پس از بررسی نقاط قوت و ضعف این روش‌ها بخصوص در زبان فارسی به تبیین راهکار پیشنهادی خود بپردازیم.
2-2 انگیزه‌های کاوش داده
با توجه به مطالب مطرح شده، شاید بتوان اولین انگیزه کاوش داده را رشد روز افزون آن دانست. در واقع رشد داده به حدی است که تنها در صورت وجود ابزار مکانیزه برای بررسی آن می‌توان امیدوار به استفاده از آن بود. زیرا در غیر اینصورت همزمان با تحلیل حجم کوچکی داده، حجم بسیار زیادی از همان داده در حال تولید شدن است که هرگز فرصتی برای کاوش آن وجود نخواهد داشت. به علاوه مشکلاتی دیگر که در ادامه اشاره شده‌اند وجود خواهند داشت:
معمولاً دانشی که در داده‌ها وجود دارد خیلی بدیهی، روشن و واضح نیست.
تحلیل‌گران انسانی ممکن است هفته‌ها برای کشف اطلاعات با ارزش از داده وقت صرف کنند و گاهی اوقات ممکن است با صرف زمان زیادی لزوماً موفق هم نشوند.
گاهی اوقات با وجود امکان جمع آوری داده، این کار انجام نمی‌شود. دلیل عدم جمع آوری داده معمولاً عدم وجود دانش برای جمع آوری آن است. اینکه داده سرمایه یک سازمان است خود دانشی مهم و با ارزش است که همیشه وجود ندارد [8]!
2-2-1 انگیزه‌های تجاری
هنگامیکه می‌خواهیم داده‌ها را از بعد تجاری مورد پردازش قرار دهیم نیاز به داده‌هایی داریم که ماهیت تجاری داشته باشند. به طور کلی سه منبع برای جمع آوری داده‌های تجاری وجود دارند که عبارتند از: داده‌های وب و داده‌های تجارت الکترونیک، خرید و فروش‌های موجود در فروشگاه‌های خواربار فروشی/سوپر مارکت‌های زنجیره‌ای و تراکنش‌های بانکی/تراکنش‌های کارت‌های اعتباری.
به طور کلی منظور از داده‌های وب یا تجارت الکترونیک، داده‌های معمولی مثلاً داده‌های حاصل از جستجوهای معمولی نیست بلکه منظور از این داده‌ها تراکنش‌هایی است که همه روزه در اینترنت انجام شده و ثبت می‌شوند و از آنجایی که این داده‌ها زیاد هستند ثبت آنها وقت زیادی می‌گیرد. تعدادی از این داده‌ها عبارتند از: خرید و فروش بلیط‌های هواپیما، قطار، پرداخت قبوض و …
خرید و فروش‌های موجود در فروشگاه‌های خواربار فروشی/سوپر مارکت‌های زنجیره‌ای نوع مهم دیگری از داده‌های تجاری هستند. منظور از این داده‌ها خرید و فروش‌هایی هستند که همه روزه در فروشگاه‌ها انجام می‌شود و شامل کالاهایی است که در سبد خرید مشتری‌های مختلف صورت می‌گیرد.
تراکنش‌های بانکی/تراکنش‌های کارت‌های اعتباری از دیگر داده‌های تجاری می‌باشند که حجم عظیمی از داده‌ها را به صورت روزانه شامل می‌شوند. منظور از این داده‌ها، داده‌های مربوط به عملیات بانکی است که همه روزه توسط مشتریان مختلفی که به یک بانک مراجعه می‌کنند، انجام شده و ثبت می‌شوند. به عنوان مثال اطلاعات مربوط به اینکه یک مشتری پول به حساب خود واریز کرده، پول از حساب خود برداشت کرده و … در سیستم ثبت می‌شود و از آنها به عنوان داده‌های مربوط به تراکنش‌های بانکی یاد می‌شود. همچنین تراکنش‌های مربوط به کارت‌های اعتباری در این مجموعه داده قرار می‌گیرند، به عنوان مثال هر فردی که کارت‌های خود را وارد سیستم نموده و قصد انجام عملیاتی را دارد اطلاعات مربوط به آن مشتری، کالا(هایی) را که قصد خرید آن(ها) را دارد، زمانی که در حال خرید است، در سیستم ثبت می‌شود و از آنها به عنوان داده‌های مربوط به تراکنش‌های کارت‌های اعتباری استفاده می‌شود.
در واقع هدف اصلی از پردازش داده‌های تجاری دستیابی به سود بیشتر است. به عنوان مثال اگر داده‌هایمان از نوع داده‌های وب یا داده‌های تجارت الکترونیک باشند، می‌توان از نتایج پردازش این داده‌ها در طراحی ساختار صفحات وب و ایجاد تکنولوژی‌هایی که سود آوری بیشتری دارند استفاده کرد. اگر داده‌های مربوط به سبد خرید مشتریان را مورد پردازش قرار دهیم می‌توانیم کالاهایی را که فروششان بیشتر است را شناسایی کنیم و آن کالاها را به میزان بیشتری برای سوپر مارکت تهیه نماییم و یا اینکه می‌توانیم بفهمیم کدام کالاها معمولاً به همراه یکدیگر خریداری می‌شوند و در نتیجه آن کالاها را در چیدمان فروشگاه در کنار هم قرار دهیم تا خرید آنها برای مشتری راحت‌تر شده و مشتری برای خرید اجناس خود کمتر در فروشگاه حرکت کند و به این ترتیب رضایت مشتری بیشتر جلب شود. اگر تراکنش‌های بانکی را پردازش می‌توانیم اعتبار مشتری‌های مختلف را بسنجیم و روی مشتریانی که ارزش سرمایه گذاری دارند سرمایه گذاری کنیم. به عنوان مثال به مشتریانی که اعتبار بالاتری دارند وام بدهیم و به این مشتریان برای سرمایه گذاری اعتماد کنیم.
در حوزه داده کاوی، شاخه علمی که بر روی بهبود سرویس دهی به مشتری تمرکز می‌کند با نام مدیریت ارتباط با مشتری7 شناخته می‌شود. هدف اصلی در این علم آن است که بتوانیم مشتری‌ها را اعتبار سنجی کنیم و بر اساس آن یک فرایندی را ایجاد کنیم که در این فرایند به آن دسته از مشتریان که اعتبار بیشتری دارند، سرویس‌های بیشتر و به مشتریانی که اعتبار کمتری دارند سرویس کمتری را ارائه بدهیم. هدف در داده کاوی این است که این فرایند اعتبار سنجی به صورت مکانیزه و هوشمند انجام شود [8].
2-2-2 انگیزه‌های علمی
هنگامیکه می‌خواهیم داده‌ها را از بعد علمی مورد پردازش قرار دهیم نیاز به داده‌هایی داریم که ماهیت علمی داشته باشند. به طور کلی چهار منبع عمده برای جمع آوری داده‌های علمی در حجم‌های بالا وجود دارند که عبارتند از: تصاویر ارسالی از طریق ماهواره‌ها، تصاویر ارسالی از تلسکوپ‌ها، داده‌های دنباله ژنی و داده‌های حاصل از شبیه سازی علمی.
داده‌ها و تصاویر ارسالی از ماهواره‌ها شامل تصاویری می‌باشند که از طریق حسگرهای نصب شده بر روی ماهواره‌ها، همه روزه در حجم بسیار بالا به زمین مخابره می‌شوند. این داده‌ها و تصاویر از طریق سیگنال‌های ماهواره‌ای که در مکانی در مدار زمین قرار دارد، منتقل می‌شوند.
تلسکوپ‌ها نیز همه روزه تصاویری را از زمین می‌گیرند. این تصاویر به صورت روزانه از طریق تلسکوپ‌ها ارسال می‌شوند و شامل اطلاعات بسیار زیادی هستند.
داده‌های دنباله ژنی، حاصل توصیف دنباله ژنی افراد مختلف می‌باشند و یکی از منابع داده‌ای بسیار مشهور با ماهیت علمی هستند. تکنیک‌های میکرو آرایه، داده‌های دنباله ژنی مربوط به یک بافت خاص را استخراج می‌کنند. این تکنیک‌ها با پردازش نوآورانه‌ای که روی بافت خاص از یک شخص (مثلاً کبد، معده، خون و …) انجام می‌دهند می‌توانند یک دنباله ژنی منحصر به آن بافت را پیدا کنند که آن دنباله ژنی حاوی اطلاعات بسیاری است و تعداد زیادی ویژگی ایجاد می‌کند. عموماً این اعداد و ویژگی‌ها در تشخیص بیماری افراد، کمک قابل ملاحظه‌ای می‌کنند.
داده‌های حاصل از شبیه سازی علمی منبع مهم دیگری از داده‌های علمی هستند. منظور از شبیه سازی علمی مدل سازی یک سیستم در ابعاد کوچکتر است. شبیه سازی وقتی مورد استفاده قرار می‌گیرد که ما بتوانیم مکانیزم حاکم بر آن سیستم و محیط را به صورت یک مجموعه از قوانین بدانیم. ما می‌توانیم سیستم‌ها و محیط‌های زیادی را شبیه سازی کنیم و اگر یک محیط شبیه سازی شده داشته باشیم، می‌توانیم آزمایش‌های مختلفی را بر روی آن انجام دهیم و داده‌های زیادی را تولید کنیم که این داده‌ها می‌توانند اطلاعات زیادی را به ما منتقل دهند. به عنوان مثال می‌توانیم بدن یک انسان را شبیه سازی نموده و داروهای مختلف را روی آن امتحان کنیم و نتایج حاصل از آزمایشات را بدست آوریم. بخصوص اگر این آزمایشات هزینه‌های سنگینی داشته باشند، شبیه سازی و نتایج حاصل از آن بسیار با ارزش خواهند بود. شبیه سازی در محیط‌های مختلف متفاوت است. چند نمونه از شبیه سازی عبارتند از: شبیه سازی یک آزمایش هسته‌ای، شبیه سازی زلزله و … به طور کلی این شبیه سازی‌های علمی داده‌های بسیار حجیمی را فراهم می‌کنند.
وقتی داده‌ها از نوع علمی باشند، معمولاً نتیجه مستقیم کاوش داده‌های علمی لزوماً به سود بیشتر منجر نمی‌شود، اما بیشتر اوقات منجر به ایجاد دانش جدید، دستاوردهای جدید و نیز باعث خدمت رسانی بیشتر به افراد و یا کشف حقایق خواهد شد. بنابراین می‌توان نتیجه گرفت که انگیزه اصلی در پردازش داده‌های علمی کمک به بسط و گسترش مرزهای دانش بشری در یک حوزه خاص می‌باشد[8].
2-3 چالش‌های داده کاوی
شاید بتوان مهم‌ترین نقاط ضعف روش‌های داده کاوی را در سه مورد خلاصه نمود: وجود داده، صحت داده و کافی بودن ویژگی‌ها. منظور از وجود داده این است که اصولاً داده‌ای برای کاوش وجود داشته باشد و اینگونه نباشد که داده در محیط مورد کاوش استخراج و یا ثبت نشده باشد. متأسفانه این مشکل در بسیاری از محیط‌های واقعی وجود دارد. صحت داده مبین آن است که داده جمع آوری شده صحیح بوده و نادرستی در آن وجود نداشته باشد. به عنوان مثال نباید جنسیت شخصی با نام “محسن” زن وارد شده باشد و یا اشتباهات دیگری که دلیل وجودی آنها خطا در ورود داده است، رخ دهد. کافی بودن ویژگی‌ها بدین معناست که ویژگی‌های اخذ شده برای هر رکورد یا شئ برای یادگیری مدل و یا کشف نظم حاکم بر داده موثر، مناسب و کافی باشند. به عنوان مثال اگر هدف ما یادگیری یک مدل دسته بندی کننده برای تشخیص بیماری دیابت است، ثبت ویژگی قند خون بسیار مهم است در حالی که ثبت ویژگی میزان تحصیلات اهمیتی ندارد. توجه داشته باشید اگر هر کدام از مشکلات سه‌گانه فوق در داده وجود داشته باشد، هیچ یک از الگوریتم‌های داده کاوی، هر قدر هم که توانا باشند، نخواهند توانست نظم حاکم بر داده را تحت هیچ شرایطی بیابند.
در داده کاوی می‌توان چالش‌ها را به دو گروه اولیه و ثانویه تقسیم نمود. در ادامه به بررسی هر کدام از این دو گروه می‌پردازیم.
2-3-1 چالش‌های اولیه
چالش‌های اولیه که انگیزه مهم بکار گیری فرایند داده کاوی به جای روش‌های سنتی تحلیل داده‌ها هستند عبارتند از: حجیم بودن داده‌ها، ابعاد بالای داده‌ها، طبیعت توزیع شده و ناهمگن داده‌ها. در ادامه به بررسی هرکدام از این چالش‌ها می‌پردازیم [8].
حجم بالای داده‌ها: الگوریتم‌های داده کاوی با تعداد زیادی رکورد کار می‌کنند و حجم زیادی از داده‌ها را پردازش می‌کنند. به طور کلی هرچه تعداد رکوردهای موجود بیشتر باشد باعث می‌شود روش‌های سنتی نتوانند این رکوردها را پردازش نمایند. اگر تعداد رکوردها کم باشد فرایند تحلیل آنها بسیار ساده است و معمولاً احتیاج به روش‌های داده کاوی نیست. هرچه تعداد رکوردها بیشتر باشد باعث می‌شود علم داده کاوی بتواند کارکرد درخشان‌تری داشته باشد.
ابعاد بالای داده‌ها: منظور از بعد همان فیلد یا ویژگی (خصیصه) می‌باشد. به طور کلی هرچه تعداد ویژگی‌ها بیشتر باشد، باعث خواهد شد که تحلیل داده‌ها مشکل‌تر شود. هرچه تعداد ویژگی‌های موجود در داده‌ها بیشتر باشد، نمی‌توان با استفاده از روش‌های سنتی بین آنها نظمی پیدا کرد. این در حالی است که در اینگونه مواقع الگوریتم‌های داده کاوی می‌توانند اثر بخشی و توان بالقوه‌ای که دارا هستند را نشان بدهند.
طبیعت توزیع شده داده‌ها: به طور کلی طبیعت توزیع شده داده‌ها و وجود داده‌ها در منابع پراکنده باعث می‌شود نتوانیم از روش‌های سنتی برای پردازش داده‌ها استفاده کنیم. در این مواقع به روش‌های داده کاوی نیاز داریم. این روش‌ها باید قادر باشند داده‌هایی را که در مکان‌های مختلف ذخیره شده‌اند، به گونه‌ای مدیریت کنند که دانش نهفته را از نهان این داده‌های پراکنده و توزیع شده استخراج کنند.
طبیعت ناهمگن داده‌ها: در انباره داده‌ای که به عنوان مخزن فرایند داده کاوی عمل می‌کند، انواع مختلفی از ویژگی‌ها وجود دارد. هر ویژگی محدوده مقادیر مشخص و ویژه‌ای اختیار می‌کند. کمینه و بیشینه مقادیر مربوط به بعضی ویژگی‌ها با هم فرق دارند. بعضی ویژگی‌ها حوزه مقداری بسیار وسیع و بعضی دیگر حوزه محدودی دارند. در این مواقع می‌توان از مباحث نرمال سازی برای بخورد با این مشکل استفاده کرد. اما مسائل دیگری در ارتباط با ویژگی‌ها نیز وجود دارد. به عنوان مثال بعضی ویژگی‌ها عددی (صحیح یا حقیقی) هستند، بعضی دودویی، بعضی دیگر اسمی (مانند رنگ چشم) هستند. بعضی از ویژگی‌ها نیز به گونه‌ای هستند که در مورد آنها تنها می‌توان گفت آیا با هم مساوی هستند یا خیر(مانند رنگ چشم)، گونه‌ای دیگر از ویژگی‌ها به این شکل‌اند که در مورد آنها علاوه بر مساوی و نامساوی بودن می‌توان کوچکتر یا بزرگتر بودن آنها را نیز تعیین کرد (مانند سطح تحصیلات)، در مورد برخی دیگر از ویژگی‌ها علاوه بر مساوی و نامساوی بودن، کوچکتری و بزرگتری، می‌توان از عملگرهای جمع و تفریق نیز استفاده نمود ( مانند تاریخ‌های تقویم) و در نهایت در مورد گروهی دیگر از ویژگی‌ها علاوه بر مساوی و نامساوی، کوچکتری و بزرگتری، جمع و تفریق می‌توان عملگرهای ضرب و تقسیم را نیز بکار برد (مانند قد و وزن). در نتیجه به دلیل تنوع بالای ماهیت ویژگی‌ها نمی‌توان از روش‌های سنتی برای پردازش داده‌ها استفاده نمود.
2-3-2 چالش‌های ثانویه
چالش‌های ثانویه به آن دسته از چالش‌هایی گفته می‌شود که در قیاس با چالش‌ها اولیه از اهمیت کمتری برخوردارند. البته می‌بایست توجه نمود، این امر بدان معنا نخواهد بود که اهمیت این چالش‌ها پایین است و یا حل مشکلات مربوط به آنها کار ساده و کم تأثیری است. در ادامه به بررسی این چالش‌ها می‌پردازیم [8].
کیفیت داده8: مربوط به زمانی است که کیفیت داده‌ها پایین است. به عنوان نمونه هنگامی که داده‌های ما شامل نویز9، داده پرت10، داده گمشده11 و داده تکرار شده12 باشد، شاهد پایین آمدن کیفیت داده‌ها خواهیم بود.
عدم مالکیت داده: به دلایل گوناگون مانند توزیع‌شدگی ممکن است نتوانیم کل داده‌ها را یکجا در مالکیت داشته باشیم و فرایند کاوش را روی آنها انجام دهیم.


پاسخ دهید