قهوة سوداء: علم البيانات

الذي تستهلكه المعلومات بديهي: إنها تستهلك انتباه مستقبليها. لذلك غزارة المعلومات تولد ضحالة في الانتباه, وحاجة إلى توزيع الاهتمام بكفاءة بين ما قد يستهلكه من مصادر متكاثرة للمعلومات.

هربرت سيمون

وقعت هذه القصة في أحد أفرع متجر تارغت الأمريكي, حيث توجه أحد الزبائن غاضبا إلى المدير وهو يحمل صرة من الكوبونات التي أرسلها المتجر إلى ابنته. ثم قال للمدير "ابنتي حصلت على هذه الكوبونات عبر البريد. هي لا تزال في الثانوية وأنتم ترسلون إليها كوبونات عن ملابس وأسرّة للأطفال؟ هل تحاولون تشجيعها على الحمل؟". المدير لم يحر جوابا. تحقق بنفسه من عنوان البريد ووجده يعود إلى ابنة هذا الرجل والكوبونات كانت بالفعل إعلانات لمنتجات أمومية, فما كان منه إلا أن بادر بالاعتذار إلى الرجل. واتصل عليه بعد عدة أيام ليعتذر مجددا لكنه وجد الرجل يتحدث إليه بخجل وقال "تحدثت إلى ابنتي, وكما يبدو أن هناك بعض الأنشطة في منزلي لم أكن مطّلعا عليها بشكل كامل. ابنتي ستلد في أغسطس القادم. أنا مدين لك باعتذار."

كيف عرف متجر تارغت عن حمل هذه البنت حتى قبل معرفة والدها؟ بل واستغل هذه المعلومة بإرسال كوبونات تنبأ بشكل دقيق إلى حاجتها إليها؟ وماذا يمكنه أن يعرف عن بقية زبائنه؟ الجواب يكمن في هذا العلم الوليد, علم البيانات, الذي تستعين به العديد من الشركات والمتاجر .

علم البيانات هو حقل علمي متشعب, يهدف إلى غربلة البيانات الخام الفارغة من المعنى ليستخلص منها معلومات تساعد في اتخاذ القرارات والتنبؤ بالأحداث المستقبلية. هو صنف جديد من العلم لا يندرج تحت العلوم الطبيعية كالفيزياء ولا تحت العلوم الاجتماعية كعلم النفس, ويُعد بشكل ما امتدادا للإحصاء وللتحليل التنبؤي. صنفته مجلة هارفرد بزنس ريفيو كأكثر التخصصات إثارة في القرن الحادي والعشرين.

لمحة تاريخية

أول إشارة لعلم البيانات كانت عام 1996 في مؤتمر عقد باليابان. أما مصطلح عالم البيانات فأتى بعد ذلك بتسعة أعوام في 2005 من المجلس الوطني للعلوم في الولايات المتحدة. وفي عام 2007 تأسس مركز أبحاث الداتالوجي وعلم البيانات في الصين Research Center for Dataology and Data Science وأصدر اثنين من الباحثين في المركز ورقة علمية تعرّف علم البيانات على أنه صنف جديد ومغاير عن العلوم الطبيعية والإجتماعية:

"هناك أمثلة متزايدة لبيانات ليس لها مرجعية في العالم الطبيعي, كفيروسات الكمبيوتر وألعاب الفيديو والبيانات المهترئة, كلها أُنتِجَت في عالم البيانات datanature. البيانات المُنتَجَة في عالم البيانات تفوق تدريجيا الحقائق المادية الموجودة في العالم الطبيعي وصارت تُظهِر أنماطا فريدة بها.

…

على الجانب الآخر, المزيد والمزيد من الأبحاث العلمية ستوجه مباشرة نحو البيانات في عالم البيانات, عوضا عن الحقائق في الطبيعة, مما سيشجع على محاولة فهم البيانات وتبسيطها لاستكشاف الطبيعة والسلوك الإنساني. العلوم الطبيعية تأخذ موادا من الطبيعية كموضوعات للبحث, والعلوم الاجتماعية تأخذ السلوك الإنساني كموضوع للبحث. ولكن البيانات في الفضاء السيبيري cyberspace صارت تدريجيا تغطي بل وتفوق الحقائق في الطبيعة وفي السلوك الإنساني بسبب وجود العديد والعديد من البيانات بلا مرجعية في الطبيعة أو في السلوك الإنساني. نتيجة لذلك, الباحثين في البيانات يميلون إلى بحث البيانات في الفضاء السيبيري, أي أخذ البيانات كموضوع للبحث, خلافا لما هو واقع الآن في العلوم الطبيعية والإنسانية.

…

في عام 2009 عرّف زو Zhu وآخرون علم البيانات كعلم جديد موضوع بحثه هو البيانات. هناك توافق كبير بأن علم البيانات يختلف عن التكنولوجيات والعلوم القائمة اليوم وسيشكل طريقا بحثيا واعدا في المستقبل."

وللتعرف على علم البيانات بشكل واف يلزمنا معرفة عدة مفاهيم مرتبطة به كالبيانات الضخمة والبيننة وتعلم الآلة.

البيانات الضخمة Big Data

يكمن لب علم البيانات في جمع وتصنيف كميات هائلة ومعقدة من البيانات تُعرف بالبيانات الضخمة ثم تحليلها لتوليد رؤى تتيح تحسين عملية اتخاذ القرار والتنبؤ بدقة بلأحداث المستقبلية في مجال الصحة والاقتصاد وغيرها من المجالات.

في السنوات الأخيرة ظهر تدفق كبير للبيانات على الانترنت من مستخدمي الشبكات الاجتماعية ومن مصادر أخرى. هذه البيانات التي تُعرف بالبيانات الضخمة تتولد منها ملايين البتات كل ثانية, إلا أنها بيانات غير مترابطة ولا تدل على أي معنى, لذا لزم استحداث طرق جديدة أكثر كفاءة لتنطيمها ومعالجتها حاسوبيا ليأتي بعد ذلك دور عالم البيانات ويستخرج منها معلومات مفيدة. فالبيانات الضخمة تتعذر معالجتها في قواعد البيانات التقليدية إما لكبر حجمها, وأو بسبب حركتها السريعة, أو لأنها لا تلائم بنية قواعد البيانات التقليدية, وهذه هي السمات الرئيسة التي تميزها عن البيانات العادية:

السعة Volume: حين نتكلم عن حجم البيانات العادية فإننا نستخدم وحدات كالميغابايت والغيغابايت, أما البيانات الضخمة فقد يصل حجمها إلى البيتابايت والإكسابايت.
السرعة Velocity: أي الوقت الذي تأخذه البيانات من وصولها للكمبيوترات إلى حين معالجتها. فهي تنتقل وتتدفق بسرعات عالية مما يصعب تنظيمها وتخزينها ومعالجتها.
التنوع Variety: هي بيانات عالية التنوع. يجتمع فيها مزبج معقد من البيانات المهيكلة (تُخَزِّن وتُعالج في قواعد البيانات التقليدية) وغير المهيكلة (لا تتلائم مع قواعد البيانات التقليدية كالإيميلات والتغريدات والتدوينات) وشبه المهيكلة (لا تتلائم مع قواعد البيانات التقليدية لكنها مُعِلَّمة بوسوم تتيح خلق ترتيب وهرمية فيها).

فيمكن وصفها اختصارا بأنها البيانات التي لا يمكن معالجتها من قبل كمبيوتر واحد مهما بلغت قوته, لذا صار من اللازم الاتجاه إلى الحوسبة المتوازية Parallel Computing بحيث تُستخدم عدة حواسيب تُربط شبكيا لتعالج البيانات في نفس الوقت.

مخاطر البيانات الضخمة

ما أعنيه بالمخاطر هنا هو ما يتعلق بمستخدمي الانترنت الذين يعدون جزءا رئيسا في توليد هذه البيانات. وأحد أبرز مخاطر البيانات الضخمة انعدام الخصوصية, فلا يمكن إخفاء هوية أصحاب البيانات. فتتعذر إمكانية حجب البيانات الشخصية كالاسم والعنوان والعمر وغيرها من المعلومات الدالة على صاحب البيانات.

في عام 2006 نشرت شركة أمريكان أونلانين AOL بيانات متعلقة بعمليات بحث أجراها أكثر من نصف مليون شخص لمدة ثلاثة أشهر بهدف دراستها وتحليلها من قبل الباحثين. وأولت الشركة عناية كبيرة لإخفاء هوية المستخدمين بنزع كل المعلومات الدالة عليهم واستبدلتها برقم تسلسلي فريد لكل مستخدم ييسرتحليل كل عمليات البحث التي أجراها. وبالرغم من أن البيانات منزوعة الهوية, إلا أن صحيفة نيويورك تايمز تمكنت من التوصل إلى امرأة ومعرفة اسمها وعمرها ومحل سكنها فقط من خلال المفردات التي استخدمتها في عمليات البحث المنشورة.

في نفس العام فعلت شركة تأجير الأفلام نتفلكس Netflix الأمر ذاته بهدف تطوير خدمتها. فنشرت مليون سجل لعمليات تأجير أفلام أجراها ما يقارب النصف مليون مستخدم وعرضت مليون دولار جائزة لأي شخص يتمكن من تطوير نظام ترشيح الأفلام بنسبة 10%. بالرغم من أن هويات المستخدمين كانت منزوعة من البيانات إلا أن بعض الباحثين في جامعة تكساس تمكنوا من معرفة بعض المستخدمين من خلال مقارنة هذه البيانات مع بيانات أخرى في موقع قاعدة بيانات الأفلام في الانترنت IMDb حيث يستخدمه الكثير من الأشخاص لتقييم الأفلام.

في البيانات التي نشرتها شركة أمريكان أونلاين توصل إلى هوية المستخدمين خلال تحليل المادة التي حوتها البيانات ذاتها. أما مع البيانات التي نشرتها شركة نتفلكس فتم التوصل إلى هوية المستخدمين من خلال مقارنتها مع بيانات أخرى متوفرة بشكل عام. لذلك, كلما تزايد توليد البيانات الضخمة كلما تلاشت خصوصية مستخدميها أكثر وأكثر.

البَيْنَنَة Datafication

أحد المفاهيم التقنية الحديثة هو البيننة, وهي خلافا للرقمنة التي تحيل البيانات التناظرية إلى رقمية, البيننة تقوم على استخراج البيانات من كل شيء وتدوينها وتحليلها وتنظيمها. وأقصد كل شيء حتى تلك الأشياء التي لا يُتعامل معها على أنها مصدرا للمعلومات. فمثلا, يمكن لشركات السيارات أن تقوم ببيننة Datafy طريقة الجلوس على كرسي السيارة أثناء القيادة, فتستخرج بيانات حول كيفية توزيع الوزن أثناء الجلوس وشكل محيط الجسد (بعبارة أخرى, بصمة للمؤخرة!), ثم تسجلها حتى يكون هناك نمط محدد وفريد لطريقة الجلوس فإذا اختلف هذا النمط (البصمة) فيما بعد تقوم السيارة بطلب كلمة مرور من السائق أو أن يمتنع المحرك عن الدوران لتمنع بذلك أي محاولة لسرقة السيارة, كذلك تسجيل وجمع نمط الجلسة لعدد كبير من السائقين في اللحظات التي تسبق وقوع الحوادث لتساعد هذه البيانات فيما بعد بالتنبؤ بالحوادث واتخاذ من يلزم قبل وقوعها. فهذا الإجراء قد تعامل مع أمر لم يكن يُرى سابقا على أنه يحمل معلومات أو بأنه يمثل بيانات (كرسي السيارة طبعا!), لكن من خلال بيننته إلى صيغة مقاسة عدديا, أمكن التعامل معه بشكل مختلف واستخراج فائدة منه. فالبيننة أتاحت لكمية من المعلومات التي لم يكن يُنظَر لها على أنها ذات قيمة, إلى معلومات يمكن تخزينها ومعالجتها في الكمبيوترات وكذلك تحليلها.

من الأمور التي لم تكن بيننتها ممكنة سابقا هي أمزجة الناس. فمن خلال دراسة وتحليل نصف مليار تغريدة على مدار سنتين أنتجها ما يقارب المليونين ونصف المليون شخص من 84 دولة أصبح من الممكن معرفة ومقارنة الأنماط اليومية والأسبوعية للناس من مختلف الثقافات والدول حول العالم في دراسة نشرب بمجلة ساينس Science في 2011. وبفضل البيننة صار بالإمكان إخضاع أمزجة الناس وعواطفهم إلى الدراسة والتحليل.

تعلم الآلة Machine Learning

تعلم الآلة هو أحد المجالات الفرعية لعلم الكمبيوتر. يُعرفه عالم الكمبيوتر آرثر سامويل بأنه "المجال الذي يتيح للكمبيوترات القدرة على التعلم دون حاجة لبرمجتها على ذلك". فبدلا عن اتباع البرنامج لأوامر برمجية محددة بدقة, يأخذ كميات متعددة من البيانات ومنها يتعلم ويطور أدائه بالأمثلة والخبرات المتراكمة, أو يتعلم بأن يتخذ قرارات وتنبؤات أكثر دقة.

تطبيقات تعلم الآلة متعددة تشتمل على البرامج التي تتعرف على النصوص والأصوات فتتعلم كلما تم استخدامها وتلقيمها بالمزيد من البيانات. كذلك برامج فلترة البريد الغير مرغوب Spam Filter. فكلما وسِم أحد الإيميلات بأنه غير مرغوب فيه يتعلم البرنامج من هذه المعلومة ويطور من أدائه لاحقا.

كيف تصبح عالم بيانات؟

عالم البيانات هو شخص يتفوق في الإحصاء على أي مهندس برمجيات, ويتفوق في هندسة البرمجيات على أي إحصائي.

جوش ويلز

هال فاريان, كبير اقتصاديين قوقل, يصف وظيفة عالم البيانات بقوله: "إذا أدرت أن تكون ناجحا, عليك أن تكون متمما ونادرا لشيء واسع الانتشار وغير مكلف. البيانات موجودة بكثرة والأمر الهام والنادر على المدى الطويل هو معرفة كيفية استخراج الحكمة منها. لهذا السبب الإحصائيين ومدراء قواعد البيانات والمتخصصين في تعليم الآلة سيكونون بحق في موضع يحسدون عليه."

الفرق بين علماء البيانات والإحصائيين ومهندسي البيانات ومحلليها

علماء البيانات يستخدمون لغات البرمجة والتقنيات المعتمدة على الكمبيوترات خلافا للإحصائيين الذين يستخدمون الطرائق الإحصائية التقليدية المستقاة من الرياضيات. أما مهندس البيانات فهو من يوجد حلولا للقصور التقنية في معالجة البيانات ذات السعة والسرعة العالية, وهو الذي يجهز البيانات ويُعِدُّها ليستطيع عالم البيانات استنباط المعلومات المفيدة منها. أما محلل البيانات فمجال عمله يتناول تحليل كميات أقل بكثير من تلك التي يتعامل معها عالم البيانات ويعتمد على البرامج والأدوات المجهزة سابقا للقيام بعمله عكس عالم البيانات الذي يطور البرامج التي يستخدمها بنفسه.

فما يقوم به عالم البيانات هو استخلاص المعلومات المفيدة من بين أكداس هائلة من البيانات ليعرضها بأسلوب يسهل فهمه. وليقوم بعمله يلزمه المزج بين الإحصاء, والبرمجة, وتصميم المخططات البيانية.

يشرح فرانك لو, مدير ومؤسس إدارة علم البيانات لدى شركة واي فير للأثاث, أهم ثلاث صفات يجب على أي عالم بيانات التحلي بهن:

"علم البيانات هو تقاطع بين مناطق مختلفة من المهارات. هناك ثلاثة مناطق مهمة. الأولى الرياضيات والتقنيات الكمية. الثانية الهندسة لأن علم البيانات تقني جدا. والثالثة استراتيجيات العمل والمعرفة الجوهرية لأي موضوع تعمل عليه."

بعض الأدوات التي تحتاج إلى الإلمام بها (قد تتغير في المستقبل):

هادوب Hadoop: منصة عمل لمعالجة كميات كبيرة من البيانات بسرعة عالية.
ماب رديوس MapReduce: نموذج برمجي لمعالجة الكميات الكبيرة من البيانات باستخدام الحوسبة المتوازية والموزعة.
لغة آر R: لغة برمجة مخصصة للحوسبة الإحصائية.
ماهاوت Mahout: برنامج متخصص في تعلم الآلة.
تابلو Tableau: برنامج لتصوير البيانات.

أما بالنسبة للإحصاء فلا تحتاج أن تكون ضليعا فيه, بعض الأساسيات الإحصائية تكفي, مثل:

Linear regression
Ordinary least squares
Time series analysis
Monte Carlo simulation

الوسائل المتاحة لاكتساب المعرفة في علم البيانات متعددة, فالكثير من الجامعات شرعت في السنوات الأخيرة بتوفير تخصص علم البيانات للدراسات العليا, إن لم يسمح لك وقتك ومالك بالانضمام لأحدها يمكنك أخذ كورسات اونلاين MOOC.

مراجع:

Data Science for Dummies by Lillian Pierson
Big Data: A Revolution That Will Transform How We Live, Work, and Think by Viktor Mayer-Schonberger, Kenneth Cukier
Data Scientist: The Definitive Guide to Becoming a Data Scientist by Zacharias Voulgaris