Data mining
التنقيب في البيانات

المقدمة:

مع التطور الهائل والانفجار المعلوماتي أصبح هناك كم كبير من المعلومات المتوفرة والمحدثة بشكل مستمر، ونظراً لأهمية تلك المعلومات في حال التوصل اليها وتحليلها قد ظهرت الحاجة الى تقنية جديدة تساهم في الوصول الى اكوام المعلومات المختزنة في قواعد المعلومات، وظهرت تقنيات التنقيب في البيانات من أجل هذا الغرض وتوفير الوصول الجيد للمعلومات في أسرع وقت وبأقل مجهود.

ويمكن تعريف التنقيب في البيانات بأنه أسلوب متقدم لتحليل البيانات، يجد العلاقات والانماط المخفية التي قد تفقدها أنواع التحليل الأخرى، حيث انه يشتمل على الذكاء الاصطناعي (AI) والتعلم الآلي لتحديد احتياجات العملاء، وإيجاد طرق لزيادة الإيرادات والربحية، والمشاركة بشكل أكثر فعالية مع الجماهير، وفي هذه الأيام أصبح التنقيب في البيانات أقوى من أي وقت مضى، حيث يمكنه بالتأكيد إجراء التنقيب في النص، لكنه قادر على تقنيات اكتشاف المعرفة الأكثر تعقيداً (Robb D,2022).

الا ان التنقيب في البيانات يحتاج الى أدوات مساعدة تساهم في الوصول الى تلك المعلومات بشكل سريع ويسهل من عملية الاستفادة من تلك المعلومات وتحليلها وفهمها، ومن هنا بدأت تظهر أدوات التنقيب في البيانات لتحقيق هذا الغرض.

تتعدد تلك الأدوات وتتعدد مميزاتها وسلبياتها واستخداماتها حسب نوع البيانات او المعلومات المراد استخراجها، وفي هذه الورقة سنستعرض ماهية تقنية التنقيب في البيانات وأهم تلك الأدوات المستخدمة فيها ونعطي نبذة عنها ونقارن بين أبرز المميزات والسلبيات التي توفرها تلك الأدوات.

أدوات التنقيب في البيانات:

يذكر (Judith,2021) بأن أدوات التنقيب في البيانات عبارة عن حزم برمجية لديها القدرة على تحليل كميات كبيرة من البيانات لاكتشاف أنماط ذات مغزى والتنبؤ بالنتائج، حيث تحتوي بعض أدوات استخراج البيانات على ميزات تنظيف البيانات التي تعمل على أتمتة عملية تنظيف البيانات، بالإضافة الى القدرة على استخراج معلومات قيمة من أنواع بيانات مختلفة مثل الأرقام والنص والمستندات والصورة والرسم البياني والكلام والصوت والفيديو، يسمح هذا النوع من الأدوات باستخراج المعلومات القيمة من البيانات والمعروفة ايضاَ باسم اكتشاف المعرفة في قواعد البيانات (KDD).

خصائص أدوات التنقيب في البيانات (DM):

يشير (Simmi,2011) في دراسة (عثمان،2018) الى بعض الخصائص الرئيسية لأدوات التنقيب في البيانات ومنها:

  • القدرة على التعامل مع مشكلة معقدة: إن الهدف من برمجيات التنقيب في البيانات هو الكشف آلياً عن معلومات مفيدة من مجموعة البيانات المعقدة، تسمح خوارزميات التنقيب في البيانات باكتشاف المعرفة واستخدامها في التنبؤ والبحث عن أنماط البيانات المعقدة بسهولة.
  • اكتشاف تلقائي لأنماط مجهولة: يعمل التنقيب في البيانات على عملية إيجاد التنبؤ من قواعد البيانات الكبيرة، يساعد اكتشاف النمط في العثور على اكتشاف الغش والأخطاء في الصفقة، وهي المهمة الرئيسية لتدقيق الحسابات.
  • التدرج: يمكن لأدوات التنقيب في البيانات معالجة كمية من البيانات التي تجعل من التدرج أحد ميزاتها الهامة وتعمل هذه الميزة بالنسبة لعملية التدقيق بمثابة النقطة الرئيسية.
  • التكلفة العالية نسبياً: تعتبر برمجيات التنقيب في البيانات رخيصة ولكنها تبقى أغلى من غيرها من البرمجيات الأخرى، ونظراً لأن مستخدمي التنقيب في البيانات يتحملون مصاريف عامة مثل إعداد البيانات وتحليلها وتكاليف التدريب وهي نسبة مرتفعة نسبياً.
  • المهارة الفنية المطلوبة: تعتبر المهارة الفنية مطلوبة لمستخدمي برمجيات تنقيب البيانات، لذا يجب أن يكون لدى المستخدم المعرفة في مختلف الخوارزميات الخاصة بالتنقيب في البيانات لاختيار الخوارزمية المناسبة وفقاً لمتطلبات المهمة، وكذلك تتطلب أيضاَ المهارات لإيجاد أنماط الاهتمام وتقييم النتائج.

أنواع أدوات التنقيب في البيانات:

هناك العديد من الأدوات التي تساهم في عملية التنقيب في البيانات، وتستخدم حسب احتياجها وفي هذه الورقة سنستعرض أبرز الأدوات في التنقيب في البيانات المستخدمة في هذه العملية مثل (KNIME, R, RapidMiner, Orange) كما يلي:

  • أداة (KNIME):

يعد Konstanz Information Miner أو KNIME عبارة عن منصة مفتوحة المصدر لتحليل البيانات وإعداد التقارير والتكامل. (Al-Khoder A, 2015).

مميزات الأداة العامة:

  • مفتوح المصدر
  • التطوير المستمر.
  • جعل فهم البيانات وتصميم مهام سير عمل علوم البيانات والمكونات القابلة لإعادة الاستخدام في متناول الجميع.
  • مخصص للتعاون القائم على الفريق، والاتمتة والإدارة ونشر مهام سير عمل علوم البيانات كتطبيقات وخدمات تحليلية.

ويمكن تحديد أبرز الإيجابيات والسلبيات فيه كالتالي:

ايجابياتسلبيات
تمنح الأداة غير الخبراء إمكانية الوصول الى علم البيانات عبر بوابة KNIME Web Portal أو يمكنهم استخدام واجهات برمجة تطبيقات REST.الواجهة صغيرة بعض الشيء
سحب واسقاط واجهة النمط دون الحاجة الى الترميز.يمكن ان تستنزف موارد الذاكرة.
نماذج كل خطوة من خطوات تحليل البيانات والتحكم في تدفق البيانات. –
مزج الأدوات من مجالات مختلفة مع KNIME بما في ذلك البرمجة النصية في R وPython وML وSPARK. –
جدول 1 – من اعداد الباحث استناداً الى (Robb D,2022).

  • أداة (RapidMiner):

RapidMiner عبارة عن طاولة عمل لتحليلات الأعمال مع التركيز على التنقيب في البيانات واستخراج النصوص والتحليلات التنبؤية. يستخدم مجموعة متنوعة من الأساليب الوصفية والتنبؤية لإعطاء البصيرة لاتخاذ قرارات مربحة. يوفر RapidMiner، جنبًا إلى جنب مع خادمه التحليلي Rapid Analytics، إمكانات كاملة لإعداد التقارير ولوحة المعلومات. (Robb,2022).

مميزات الأداة العامة:

  • بدلاً من الاحتفاظ بمجموعات بيانات كاملة في الذاكرة، يتم أخذ أجزاء فقط من البيانات من خلال عملية التحليل ويتم تجميع النتائج في مكان مناسب لاحقًا.
  • أداء سريع لأنه يأخذ الخوارزميات إلى البيانات بدلاً من العكس. اتصال رسومي لـ Hadoop للتعامل مع تحليلات البيانات الضخمة.
  • نشر البيانات الوصفية لإزالة التجربة والخطأ.
  • يمكن لبرنامج RapidMiner أن يراقب باستمرار سلوك التخزين ووقت التشغيل لعمليات التحليل في الخلفية وتحديد الاختناقات المحتملة.
ايجابياتسلبيات
لا توجد رسوم ترخيص برمجيات.يمكن أن يكون منحنى تعلم شديد الانحدار
خيارات دعم مرنة / ميسورة التكلفة.الانتقال من ملكية مفتوحة المصدر الى ملكية مرخصة (Jović et al., 2014)
التطوير السريع لعمليات التنقيب في البيانات المعقدة. –
يستغرق التثبيت اقل من خمس دقائق 
جدول 2 – من اعداد الباحث استناداً الى (Robb D,2022).

  • أداة (R):

R هي لغة برمجة مفتوحة المصدر وبيئة للحوسبة والرسومات الإحصائية. حيث توفر لغة برمجة R مجموعة متنوعة من الرسومات والتقنيات الإحصائية مثل النمذجة الخطية وغير الخطية والاختبارات الإحصائية الكلاسيكية وتحليل السلاسل الزمنية وتجميع التصنيف وهو قابل للتوسعة بدرجة كبيرة. هذه الأداة مفيدة للغاية لتصور البيانات والبيانات الجيدة القابلة للتوسيع. (Patel,2015).

  • أداة (Orange):

Orange هي أداة استخراج بيانات مفتوحة المصدر وبرامج تصور مع مجتمع نشط وتساعد المبتدئين والخبراء في تحليلهم. هذه الأداة متوافقة مع أنظمة التشغيل windows وMac OS c وGNU / Linux. إنها أيضًا مفيدة جدًا للعملية التحليلية التي تحتوي على برمجة مرئية سهلة الاستخدام أو برمجة نصية بلغة Python. تحتوي هذه الأداة على جميع خوارزميات التنقيب في البيانات الرئيسية. على وجه الخصوص، تحتوي هذه الأدوات على أدوات مساعدة للوظيفة الإضافية للمعلوماتية الحيوية والوظيفة الإضافية لتعدين النص. (Patel,2015).

مميزات الأداة العامة:

  • إجراء تحليل بسيط للبيانات مع تصور البيانات.
  • استكشاف التوزيعات الإحصائية ومخططات المربعات والمخططات المبعثرة أو التعمق أكثر باستخدام أشجار القرار والتجميع الهرمي والخرائط الحرارية والإسقاطات الخطية.
  • الاستكشاف التفاعلي للبيانات للتحليل النوعي السريع.
ايجابياتسلبيات
التركيز على تحليل البيانات الاستكشافية بدلاً من الترميز.قد يكون التحليل المتقدم صعبًا لبعض المستخدمين.
تجعل الإعدادات الافتراضية النماذج الأولية السريعة لسير عمل تحليل البيانات أمرًا سهلاً.يمكن تحسين الرسومات.
سهلة التعلم لذلك تستخدم في المدارس والجامعات وفي الدورات التدريبية المهنية. –
جدول 3 – من اعداد الباحث استناداً الى (Robb D,2022).

معايير أدوات التنقيب في البيانات:

تعد معايير أدوات التنقيب في البيانات أحد أهم الأمور التي يمكن من خلالها الحكم على نوع الأداة المناسب للاستخدام للتنقيب في البيانات حيث انها تظهر مدى قوة كل أداة في نوع البيانات المراد التنقيب فيه ومن تلك المعايير ما يلي:

يحدد (سيد،2016) مجموعة من معايير لأدوات التنقيب في البيانات ومنها المعايير التي تخص الأداء، الوظيفة، الدعم والاستخدام ويمكن وصفها كما هو موضح بالجدول التالي:

معايير الاداء
المعيارالوصف
نظام التشغيلهل البرنامج يعمل على نظم تشغيل متنوعة؟ وهل يعمل على نظم تشغيل المستفيدين التجارية النموذجية.
تركيب البرنامجهل يستخدم البرنامج تركيب (الخادم – العميل)؟ او يستخدم تركيباً وهيكلاً مستقلاً.
الوصول الى البياناتما واجهة البرنامج المطلوبة؟
حجم البياناتهل البرنامج يتناسب مع مجموعات البيانات الكبيرة؟
الكفاءةهل يظهر البرنامج نتائج خلال وقت مناسب؟
التوافقيةهل تتوافق واجهة الأداة مع الأدوات الأخرى أو مجموعة الأدوات؟
المتانةما درجة تماسك الأداة؟ كم عدد المرات التي يتم فيها عطل الأداة أو انهيارها؟
معايير الوظيفة
التنوعهل يوفر البرنامج مجموعة مختلفة من تقنيات التنقيب والخوارزميات لدعم القرار؟
المنهجيةهل يساعد البرنامج المستفيد بتقديم منهجية التنقيب خطوة بخطوة؟
الصلاحيةهل تدعم الأداة نموذج الصلاحية بالإضافة الى انتاج نموذج؟
نوع البيانهل تطبيق الخوارزميات المدعمة تعالج مجموعة من أنواع البيانات؟
القدرة على التعديلهل يمكن للمستفيد تعديل وضبط الخوارزميات؟
عينة البياناتهل يمكن للأداة اخذ عينة عشوائية من البيانات لنموذج التنبؤ؟
التقريرهل تظهر نتائج تقارير تحليل التنقيب بعدة طرق مختلفة؟
تصدير النموذجهل من الممكن تصدير النموذج لصيغ أخرى من الأدوات مثل Excel أو SQL
معايير الدعم
تنظيف البياناتهل تتيح الأداة إمكانية تعديل القيم الخطأ في مجموعة البيانات أو أداء عمليات أخرى مصممة لتنظيف البيانات؟
استبدال البياناتهل تتيح الأداة التبديل الشامل لأحد قيم البيانات أو مجموعة من القيم؟
فلترة البياناتهل تتيح الأداة اختيار المجموعات الفرعية من البيانات بناء على معايير اختيار المستفيد؟
العشوائيةهل تتيح الأداة عشوائية البيانات طبقاً لنموذج البناء؟
حذف التسجيلاتهل تتيح الأداة حذف كل التسجيلات او حذف بعض منها؟
معالجة الفراغاتهل تعالج الأداة الفراغات لتجنب فساد البيانات؟
معالجة واصفات البياناتهل تقدم الأداة للمستفيد توصيفات للبيانات وانواعها؟
التغذية المرتدة الناتجة.هل تتيح الأداة باستخراج النتائج من التحليل الداخلي؟
معايير الاستخدام
واجهة المستفيدهل تقدم الواجهة النتائج بطريقة مفهومة وواضحة؟
منحنى التعلمهل الأداة سهل تعلمها؟
أنواع المستفيدينهل الأداة مصممة للمبتدئين والمتوسطين والمتقدمين من المستفيدين أو دمج بين أنواع المستفيدين؟
رؤية البيانات وعرضهاهل الأداة تمثل البيانات؟
تقارير الخطأهل تم الإعلان عن الخطأ بطريقة مفهومة وواضحة؟
تاريخ العملهل تحتفظ الأداة بتاريخ الأفعال التي تم اتخاذها في عملية التنقيب في البيانات؟
تنوع النطاقهل يمكن للأداة ان تستخدم في مجموعة من التطبيقات والصناعات لحل المشكلات المختلفة؟
جدول 4 – من اعداد الباحث استناداً الى (سيد،2016).

يتضح من الجدول السابق (جدول4) بأن هناك عدة جوانب يجب مراعاتها عند النظر في نوع أداة التنقيب في البيانات المراد استخدامه ومجموعة من الأسئلة الاستفهامية لكل جانب معياري والتي يجب ان يكون هناك إجابات منطقية عليها لتسهيل عملية اختيار الأداة لتحقيق الغرض المطلوب منها.

مقارنة أدوات التنقيب في البيانات باستخدام المعايير:

أما دراسة (Al-Khoder A, 2015) فقد عمل مقارنة بين الأدوات المجانية ومفتوحة المصدر بناء على مجموعة من المعايير التي وضعها في الدراسة تشمل: الوصف، سنة الاطلاق، والاصدار، وفريق التطوير، وسعر الأداة، ونوع الرخصة، ولغة تصميم البرمجية.

الاداةRRapid MinerWEKAKNIME
الوصفلغة برمجة البرمجيات وبيئة البرمجيات للحوسبة والرسومات الإحصائية.توفر منصة البرامج بيئة متكاملة للتعلم الآلي واستخراج البيانات واستخراج النصوص والتحليلات التنبؤية وتحليلات الأعمالمجموعة شائعة من برامج التعلم الآليهو برنامج مفتوح المصدر لتحليل البيانات وإعداد التقارير والتكامل.
سنة الاطلاق1997200120022006
الاصدارة3.1.1 10-07-20146 02-05-20143.7.11 24-04-20142.10 10-08-2014
فريق التطويرR FoundationRapid-I CompanyUniversity of WaikatoKNIME.com AG
السعرمفتوح المصدرإصدار المجتمع المجاني الإصدار التجاري للمؤسساتمفتوح المصدرمفتوح المصدر الملحقات تجارية.
الرخصةGNU General Public LicenseAGPL (Community Edition) Closed (Enterprise Edition)GNU General Public LicenseGNU General Public License
لغة البرمجيةR interpreted languageJAVAJAVAJAVA
جدول 5 مقارنة عامة بين أدوات التنقيب في البيانات – من اعداد الباحث استناداً الى (Al-Khoder A, 2015).

ويتضح من الجدول السابق بأن البرمجيات الخاصة بالتنقيب في البيانات بدأت منذ 1997 بداية من لغة، ومازالت تنافس في الإصدارات حيث بلغت الاصدارة 3.1.1 في عام 2014 كما، ان لغة R هي الوحيدة بلغة برمجية مختلفة عن البقية التي اعتمدت على لغة JAVA.

كما يقارن (سيد،2016) بين مصادر بيانات أدوات التنقيب في البيانات مفتوحة المصدر وهي كالتالي:

مالمعيارRapidMinerWekaOrangeRattleKNIMETANAGRA
1OracleÖ×××××
2SybaseÖ×××××
3SQL ServerÖ×××××
4MySQLÖ×ÖÖÖ×
5Access××ÖÖÖ×
6ODBC××ÖÖÖ×
7JDBCÖÖ××Ö×
8ARFFÖÖ××ÖÖ
9CSVÖÖÖÖÖ×
10ExcelÖ×ÖÖ×Ö
11حجممتوسطمتوسطمتوسطكبيرمتوسطمتوسط
جدول 6 مقارنة بين مصادر التنقيب في البيانات – من اعداد الباحث استناداً الى (سيد،2016).

يتضح من الجدول السابق (جدول6) بأن أدوات التنقيب في البيانات تختلف مصادر البيانات فيها من أداة الى أخرى، وهذا ما استدعانا في بداية الورقة للقول بأن هناك استخدامات مختلفة لكل أداة، حسب بيئة المنظمة وطريقة تخزين البيانات فيها والتي قد تختلف من منظمة الى أخرى، الى ان المقارنة في الجدول السابق تسير في صالح RapidMiner فيما عدا تناول مصادر المعلومات من قواعد المعلومات (Access, ODBC) فأنها غير متوفرة فيهما.

الخلاصة:

يمكن النظر الى الأدوات في تنقيب البيانات الى انها أدوات ذات استخدامات محددة حسب طبيعة البيانات المتواجدة، ويمكن تطبيق معايير مختلفة منها معايير موجودة سابقاً او معايير بناء على احتياج المنظمة، كما تشير دراسة (سيد،2016) التي حددت مجموعة من الأسئلة الاستفهامية لتحديد المعايير الخاصة باختيار الأداة المناسبة.
وتعد أدوات التنقيب في البيانات تقنيات حديثة تساهم بشكل كبير في تعظيم المعرفة والاستفادة منها واستخراجها مما يقدم الفائدة للمنظمة بشكل أكبر.

المراجع:

دراسات أجنبية:

  • Bagga, S., & Singh, G. N. (2011). Comparison of Data Mining and Auditing Tools. International Journal of Computer Science and Communication, 2(1), 275-277.‏
  • Robb, D. (2022). Best Data Mining Tools & Software 2022. EWeek, N.PAG.
  • Santos-Pereira, J., Gruenwald, L., & Bernardino, J. (2021). Top data mining tools for the healthcare industry. Journal of King Saud University-Computer and Information Sciences.‏
  • Al-Khoder, A., & Harmouch, H. (2015). Evaluating four of the most popular open source and free data mining tools. Int. J. Acad. Sci. Res, 3(1), 13-23.‏
  • Patel, P. S., & Desai, S. G. (2015). A comparative study on data mining tools. International Journal of Advanced Trends in Computer Science and Engineering4(2).‏
  • Jović, A., Brkić, K., & Bogunović, N. (2014). An overview of free software tools for general data mining. 2014 37th International Convention on Information and Communication Technology, Electronics and Microelectronics, MIPRO 2014 – Proceedings, (May), 1112–1117. https://doi.org/10.1109/MIPRO.2014.6859735
  • Malkawi, R., Saifan, A. A., Alhendawi, N., & BaniIsmaeel, A. (2020). Data mining tools evaluation based on their quality attributes. International Journal of Advanced Science and Technology29(3), 13867-13890.‏

دراسات عربية:

  • علي، صلاح الدين عمر عبد الله، وعثمان، سيف الدين فتوح. (2018). تطوير نموذج تنقيب البيانات لدعم صنع القرارات الاستراتيجية: دراسة حالة جامعة بخت الرضا (رسالة دكتوراه غير منشورة). جامعة أم درمان الاسلامية، ام درمان. مسترجع من http://search.mandumah.com.sdl.idm.oclc.org/Record/906983
  • سيد، أحمد فايز أحمد. (2016). أدوات التنقيب عن البيانات مفتوحة المصدر: دراسة تحليلية تقييمية. مجلة جامعة طيبة للآداب والعلوم الإنسانية، مج5 ,ع10 ،792 – 865.

من محمد خبراني

باحث دكتوراه في ادارة المعرفة - متخصص في علوم المعلومات والمكتبات مهتم بالذكاء الاصطناعي والشبكات الاجتماعية، معلم لمقرر مهارات البحث ومصادر المعلومات

تواصل
1
تواصل من خلال الواتس اب.
Scan the code
مرحباً ،

هذه رسالة تلقائية تفيد بوصول رسالتك.

سيتم الرد عليك فور مشاهدة الرسالة.