مسار تطور الترجمة الآلية



البشر بطيئون, غير متقنيين, ومفكرين بارعين. الكمبيوترات سريعة, دقيقة, وغبية.
جون بفايفر

الصراع بين الإتحاد السوفييتي والولايات المتحدة ولّد صراعا علميا وتقنيا. حيث سعى كلا الكيانين إلى ضمان التفوق على الآخر. فأرسل الإتحاد السوفييتي أول قمر صناعي إلى الفضاء مما دفع الولايات المتحدة إلى إرسال أول رائد فضاء إلى القمر. وأدى خطر امتلاك الإتحاد السوفييتي لصواريخ نووية يمكن أن تشل حركة الاتصالات فيما بين الجيش الأمريكي إلى ظهور الانترنت كوسيلة اتصال لامركزية. وهناك مسعى آخر حاولت الولايات المتحدة أن تجد له حلا تكنولوجيا, إلا أنها إلى الآن لم تتقدم فيه إلا قليلا, وهو الترجمة الآلية التي بدأت منذ أربعينيات القرن العشرين.



في كتاب البيانات الضخمة: الثورة التي ستغير كيفية معيشتنا وعملنا وتفكيرنا يلخص المؤلف المحطات الرئيسة التي سلكتها الترجمة الآلية منذ نشأتها إلى الاستفادة من البيانات الضخمة اليوم:

"الترجمة الآلية كانت أحد أفكار رواد الكمبيوتر منذ فجر الحوسبة في الأربعينيات, حينما كانت الكمبيوترات تُصنع باستخدام الصمامات المفرغة وتملأ غرفة كاملة. وأثناء الحرب الباردة غدت هذه الفكرة ملحة, حيث جمعت الولايات المتحدة كميات كبيرة من المواد المكتوبة والصوتية باللغة الروسية لكن كانت تعوزها القوة البشرية لترجمتها بالسرعة المطلوبة.
المسار الأول الذي سلكه علماء الكمبيوتر هو الجمع بين القواعد النحوية مع قواميس ثنائية اللغة. ففي عام 1954 استطاع حاسوب مطور من شركة آي بي أم IBM أن يترجم ستون جملة روسية إلى الإنجليزية باستخدام 250 زوج من الكلمات وستة قواعد نحوية. النتائج كانت جدا مبشرة. “Mi pyeryedayem mislyi psryedstvom ryechyi,” أٌدخلت هذه الجملة إلى كمبيوتر آي بي أم 701 من خلال البطاقات المثقوبة وكان مُخرَجها هو جملة "نحن ننقل الأفكار بالكلام". تُرجمت الستون جملة بسلاسة, حسبما صرحت به آي بي أم احتفاءً بهذا الإنجاز. توقع ليون دوسترت, رئيس البرنامج البحثي من جامعة جورج تاون, أن الترجمة الآلية "ستغدو أمرا واقعا" خلال "خمس, ربما ثلاث سنوات".
إلا أن هذا النجاح المبدئي تبين فيما بعد كم كان مضللا. ففي عام 1966 اعترف أعضاء لجنة من خبراء الترجمة الآلية بفشلهم. المسألة أصعب مما بدت لهم. تعليم الكمبيوترات الترجمة لا يتضمن تعليمها القواعد فحسب بل والاستثناءات كذلك. فالترجمة ليست مجرد حفظ واستحضار. إنها تُعنى باختيار المفردة الصحيحة من بين خيارات شتى. فهل "bonjour" تعني "صباح الخير"؟ أو "يوما جميلا", أو "مرحبا", أو "أهلا"؟ الجواب هو, يعتمد…

في الثمانينيات استجدت لبعض الباحثين في آي بي أم فكرة. عوضا عن تلقيم الكمبيوتر قواعد لغوية محددة, بالإضافة إلى القاموس, قرروا بأن تكون عملية اختيار مدى ملائمة كلمة ما مقابل أخرى  للكمبيوتر ينجزها من خلال استخدام الإحتمالات الإحصائية. وفي التسعينيات استخدم مشروع كانديدي Candide من آي بي أم الأوراق الصادرة عن البرلمان الكندي باللغتين الفرنسية والإنجليزية, والتي تحتوي على ما يقارب ثلاثة ملايين زوج من الجمل. ولأنها نصوص رسمية, كانت مترجمة بجودة عالية. بمعايير ذلك الوقت, كان كم  البيانات كبيرا. ما عرف بالترجمة الآلية الإحصائية, أحال التعامل مع تحدي الترجمة إلى مسألة رياضية. وبدت أنها تسير بالمسار الصحيح. فتحسن أداء الترجمة الآلية بين ليلة وضحاها. بالرغم من هذه القفزة النظرية إلا أن آي بي أم لم تحرز إلا شيئا يسيرا من التقدم, مقارنة بما أنفقته. فقررت إيقاف المشروع.

بعد أقل من عقد من الزمان, ولجت قوقل عالم الترجمة تحت شعار 'تنظيم المعلومات في العالم وإتاحة الوصول إليها والانتفاع بها'. وبدلا عن استخدام نصوص تُرجمت بعناية فائقة, استفادت قوقل من نصوص بكميات أكبر بكثير ولكنها أقل جودة وتنظيما: أي كل ما هو متوفر على الانترنت, وأكثر. فامتصت أنظمتها كل ما استطاعت الوصول إليه من ترجمات بهدف تدريب كمبيوتراتها على الترجمة. فأخذت نصوصا من مواقع الشركات المتوفرة على أكثر من لغة, والنصوص الرسمية ذات الترجمات المتطابقة, والتقارير الحكومية مثل الأمم المتحدة والإتحاد الأوروبي. وحتى ترجمات لكتب كان قد أضافها مشروع قوقل لنسخ الكتب. في حين كان مشروع كانديدي قد استعان بثلاثة ملايين زوج من الجمل المترجمة بعناية فائقة, استعان نظام قوقل بمليارات الصفحات المتفاوتة بالجودة, حسبما أفاد فرانز جوزيف أوتش, رئيس مشروع ترجمة قوقل وأحد المرجعيات الرئيسة في هذا المجال. فكمية الكلمات التي تقدر بالتريليون تشكل مايقارب 95 مليار جملة إنجليزية, بالرغم من عدم دقة الترجمة.

بالرغم من عدم تناسق المادة المدخلة, تعمل خدمة قوقل بأحسن حال. فترجماتها أكثر دقة من ترجمات الأنظمة الأخرى (مع أنها لاتزال بعيدة عن المثالية). وهي أكثر غنى, فحتى منتصف 2012 غطت بياناتها أكثر من 60 لغة. ويمكنها التعامل مع المدخلات الصوتية في 14 لغة للترجمات الفورية. ولأنها تتناول اللغات كبيانات غير منسقة محكومة بالإحتمالات, يمكنها الترجمة بين لغات لا تتوفر بينهما إلا القليل جدا من الترجمات المباشرة, كما بين اللغتين الهندية والكاتلوينية. فبهذه الحالات تستخدم الإنجليزية كجسر بينهما. وهي بذلك أكثر مرونة من الطرق الأخرى في الترجمة, فيمكنها أن تضيف أو تزيل المفردات حسب معدل استخدامها.

الذي يتيح لنظام قوقل للترجمة العمل بشكل جيد هو ليس استخدامه لخوارزمية ذكية. بل لأن بانكو وبريل من ميكروسوفت قد ألقموه بكميات أكبر من البيانات. فاستطاع قوقل أن يستفيد من بيانات يبلغ حجمها أكبر بآلاف المرات من تلك التي استفاد منها مشروع كانديدي, لأنه قبل التعامل مع البيانات الغير منسقة. فكمية المفردات التريليونية التي استفادت منها قوقل في 2006 حصلت عليها من الفتات المتساقط في أرجاء الانترنت, أو بعبارة أخرى 'بيانات من البرية'. وشكلت حزمة التدريب الأولى التي بنى عليها النظام إحصائياته وإحتمالاته. يُعد هذا بعيدا كل البعد عن ما استخدمه مشروع براون كوربس في الستينيات, حيث استخدم ما مجموعه مليون مفردة إنجليزية. فإستخدام كميات ضخمة من البيانات أتاح السير بخطوات أوسع في مجال معالجة اللغة الطبيعية والذي تعتمد عليه أنظمة أخرى لتعمل كأنظمة التعرف على الصوت والترجمات الآلية. يقول خبير قوقل في مجال الذكاء الإصطناعي, بيتر نورفيج في الورقة العلمية التي عنونها 'الفعالية اللامعقولة للبيانات' : 'النماذج البسيطة مع الكثير من البيانات تتفوق على النماذج الدقيقة المبنية على بيانات أقل'.

كما أوضح نورفيج والمؤلف المشارك معه, بأن عدم التناسق كان المفتاح: 'بشكل ما, هذه الكومة المتكدسة تعد خطوة للوراء لما كان عند براون كوربس: فهي مستقاة من صفحات غير مفلترة من على الويب فتحتوي على جمل غير مكتملة, أخطاء إملائية, أخطاء نحوية, وكل الصنوف الأخرى من الأخطاء. فهي ليست مدققة يدويا بعناية. لكن بما أنها مليون مرة أكبر من بيانات براون كوربس فإن هذا يقلل من هذه النقائص'."

علم البيانات


الذي تستهلكه المعلومات بديهي: إنها تستهلك انتباه مستقبليها. لذلك غزارة المعلومات تولد ضحالة في الانتباه, وحاجة  إلى توزيع الاهتمام بكفاءة بين ما قد يستهلكه من مصادر متكاثرة للمعلومات.
هربرت سيمون




وقعت هذه القصة في أحد أفرع متجر تارغت الأمريكي, حيث توجه أحد الزبائن غاضبا إلى المدير وهو يحمل صرة من الكوبونات التي أرسلها المتجر إلى ابنته. ثم قال للمدير "ابنتي حصلت على هذه الكوبونات عبر البريد. هي لا تزال في الثانوية وأنتم ترسلون إليها كوبونات عن ملابس وأسرّة للأطفال؟ هل تحاولون تشجيعها على الحمل؟". المدير لم يحر جوابا. تحقق بنفسه من عنوان البريد ووجده يعود إلى ابنة هذا الرجل والكوبونات كانت بالفعل إعلانات لمنتجات أمومية, فما كان منه إلا أن بادر بالاعتذار إلى الرجل. واتصل عليه بعد عدة أيام ليعتذر مجددا لكنه وجد الرجل يتحدث إليه بخجل وقال "تحدثت إلى ابنتي, وكما يبدو أن هناك بعض الأنشطة في منزلي لم أكن مطّلعا عليها بشكل كامل. ابنتي ستلد في أغسطس القادم. أنا مدين لك باعتذار."

كيف عرف متجر تارغت عن حمل هذه البنت حتى قبل معرفة والدها؟ بل واستغل هذه المعلومة بإرسال كوبونات تنبأ بشكل دقيق إلى حاجتها إليها؟ وماذا يمكنه أن يعرف عن بقية زبائنه؟ الجواب يكمن في هذا العلم الوليد, علم البيانات, الذي تستعين به العديد من الشركات والمتاجر .

علم البيانات هو حقل علمي متشعب, يهدف إلى غربلة البيانات الخام الفارغة من المعنى ليستخلص منها معلومات تساعد في اتخاذ القرارات والتنبؤ بالأحداث المستقبلية. هو صنف جديد من العلم لا يندرج تحت العلوم الطبيعية كالفيزياء ولا تحت العلوم الاجتماعية كعلم النفس, ويُعد بشكل ما امتدادا للإحصاء وللتحليل التنبؤي. صنفته مجلة هارفرد بزنس ريفيو كأكثر التخصصات إثارة في القرن الحادي والعشرين.

لمحة تاريخية

أول إشارة لعلم البيانات كانت عام 1996 في مؤتمر عقد باليابان. أما مصطلح عالم البيانات فأتى بعد ذلك بتسعة أعوام في 2005 من المجلس الوطني للعلوم في الولايات المتحدة. وفي عام 2007 تأسس مركز أبحاث الداتالوجي وعلم البيانات في الصين Research Center for Dataology and Data Science وأصدر اثنين من الباحثين في المركز ورقة علمية  تعرّف علم البيانات على أنه صنف جديد ومغاير عن العلوم الطبيعية والإجتماعية:

"هناك أمثلة متزايدة لبيانات ليس لها مرجعية في العالم الطبيعي, كفيروسات الكمبيوتر وألعاب الفيديو والبيانات المهترئة, كلها أُنتِجَت في عالم البيانات datanature. البيانات المُنتَجَة في عالم البيانات تفوق تدريجيا الحقائق المادية الموجودة في العالم الطبيعي وصارت تُظهِر أنماطا فريدة بها.
على الجانب الآخر, المزيد والمزيد من الأبحاث العلمية ستوجه مباشرة نحو البيانات في عالم البيانات, عوضا عن الحقائق في الطبيعة, مما سيشجع على محاولة فهم البيانات وتبسيطها لاستكشاف الطبيعة والسلوك الإنساني. العلوم الطبيعية تأخذ موادا من الطبيعية كموضوعات للبحث, والعلوم الاجتماعية تأخذ السلوك الإنساني كموضوع للبحث. ولكن البيانات في الفضاء السيبيري cyberspace صارت تدريجيا تغطي بل وتفوق الحقائق في الطبيعة وفي السلوك الإنساني بسبب وجود العديد والعديد من البيانات بلا مرجعية في الطبيعة أو في السلوك الإنساني. نتيجة لذلك, الباحثين في البيانات يميلون إلى بحث البيانات في الفضاء السيبيري, أي أخذ البيانات كموضوع للبحث, خلافا لما هو واقع الآن في العلوم الطبيعية والإنسانية.
في عام 2009 عرّف زو Zhu وآخرون علم البيانات كعلم جديد موضوع بحثه هو البيانات. هناك توافق كبير بأن علم البيانات يختلف عن التكنولوجيات والعلوم القائمة اليوم وسيشكل طريقا بحثيا واعدا في المستقبل."

وللتعرف على علم البيانات بشكل واف يلزمنا معرفة عدة مفاهيم مرتبطة به كالبيانات الضخمة والبيننة وتعلم الآلة.

البيانات الضخمة Big Data

يكمن لب علم البيانات في جمع وتصنيف كميات هائلة ومعقدة من البيانات تُعرف بالبيانات الضخمة ثم تحليلها لتوليد رؤى تتيح تحسين عملية اتخاذ القرار والتنبؤ بدقة بلأحداث المستقبلية في مجال الصحة والاقتصاد وغيرها من المجالات.
في السنوات الأخيرة ظهر تدفق كبير للبيانات على الانترنت من مستخدمي الشبكات الاجتماعية ومن مصادر أخرى. هذه البيانات التي تُعرف بالبيانات الضخمة تتولد منها ملايين البتات كل ثانية, إلا أنها بيانات غير مترابطة ولا تدل على أي معنى, لذا لزم استحداث طرق جديدة أكثر كفاءة لتنطيمها ومعالجتها حاسوبيا ليأتي بعد ذلك دور عالم البيانات ويستخرج منها معلومات مفيدة. فالبيانات الضخمة تتعذر معالجتها في قواعد البيانات التقليدية إما لكبر حجمها, وأو بسبب حركتها السريعة, أو لأنها لا تلائم بنية قواعد البيانات التقليدية, وهذه هي السمات الرئيسة التي تميزها عن البيانات العادية:
  • السعة Volume: حين نتكلم عن حجم البيانات العادية فإننا نستخدم وحدات كالميغابايت والغيغابايت, أما البيانات الضخمة فقد يصل حجمها إلى البيتابايت والإكسابايت.
  • السرعة Velocity: أي الوقت الذي تأخذه البيانات من وصولها للكمبيوترات إلى حين معالجتها. فهي تنتقل وتتدفق بسرعات عالية مما يصعب تنظيمها وتخزينها ومعالجتها.
  • التنوع Variety: هي بيانات عالية التنوع. يجتمع فيها مزبج معقد من البيانات المهيكلة (تُخَزِّن وتُعالج في قواعد البيانات التقليدية) وغير المهيكلة (لا تتلائم مع قواعد البيانات التقليدية كالإيميلات والتغريدات والتدوينات) وشبه المهيكلة (لا تتلائم مع قواعد البيانات التقليدية لكنها مُعِلَّمة بوسوم تتيح خلق ترتيب وهرمية فيها).

فيمكن وصفها اختصارا بأنها البيانات التي لا يمكن معالجتها من قبل كمبيوتر واحد مهما بلغت قوته, لذا صار من اللازم الاتجاه إلى الحوسبة المتوازية Parallel Computing بحيث تُستخدم عدة حواسيب تُربط شبكيا لتعالج البيانات في نفس الوقت.

مخاطر البيانات الضخمة

ما أعنيه بالمخاطر هنا هو ما يتعلق بمستخدمي الانترنت الذين يعدون جزءا رئيسا في توليد هذه البيانات. وأحد أبرز مخاطر البيانات الضخمة انعدام الخصوصية, فلا يمكن إخفاء هوية أصحاب البيانات. فتتعذر إمكانية حجب البيانات الشخصية كالاسم والعنوان والعمر وغيرها من المعلومات الدالة على صاحب البيانات.
في عام 2006 نشرت شركة أمريكان أونلانين AOL بيانات متعلقة بعمليات بحث أجراها أكثر من نصف مليون شخص لمدة ثلاثة أشهر بهدف دراستها وتحليلها من قبل الباحثين. وأولت الشركة عناية كبيرة لإخفاء هوية المستخدمين بنزع كل المعلومات الدالة عليهم واستبدلتها برقم تسلسلي فريد لكل مستخدم ييسرتحليل كل عمليات البحث التي أجراها. وبالرغم من أن البيانات منزوعة الهوية, إلا أن صحيفة نيويورك تايمز تمكنت من التوصل إلى امرأة ومعرفة اسمها وعمرها ومحل سكنها فقط من خلال المفردات التي استخدمتها في عمليات البحث المنشورة.

في نفس العام فعلت شركة تأجير الأفلام نتفلكس Netflix الأمر ذاته بهدف تطوير خدمتها. فنشرت مليون سجل لعمليات تأجير أفلام أجراها ما يقارب النصف مليون مستخدم وعرضت مليون دولار جائزة لأي شخص يتمكن من تطوير نظام ترشيح الأفلام بنسبة 10%. بالرغم من أن هويات المستخدمين كانت منزوعة من البيانات إلا أن بعض الباحثين في جامعة تكساس تمكنوا من معرفة بعض المستخدمين من خلال مقارنة هذه البيانات مع بيانات أخرى في موقع قاعدة بيانات الأفلام في الانترنت IMDb حيث يستخدمه الكثير من الأشخاص لتقييم الأفلام.
في البيانات التي نشرتها شركة أمريكان أونلاين توصل إلى هوية المستخدمين خلال تحليل المادة التي حوتها البيانات ذاتها. أما مع البيانات التي نشرتها شركة نتفلكس فتم التوصل إلى هوية المستخدمين من خلال مقارنتها مع بيانات أخرى متوفرة بشكل عام. لذلك, كلما تزايد توليد البيانات الضخمة كلما تلاشت خصوصية مستخدميها أكثر وأكثر.

البَيْنَنَة Datafication

أحد المفاهيم التقنية الحديثة هو البيننة, وهي خلافا للرقمنة التي تحيل البيانات التناظرية إلى رقمية, البيننة تقوم على استخراج البيانات من كل شيء وتدوينها وتحليلها وتنظيمها. وأقصد كل شيء حتى تلك الأشياء التي لا يُتعامل معها على أنها مصدرا للمعلومات. فمثلا, يمكن لشركات السيارات أن تقوم ببيننة Datafy طريقة الجلوس على كرسي السيارة أثناء القيادة, فتستخرج بيانات حول كيفية توزيع الوزن أثناء الجلوس وشكل محيط الجسد (بعبارة أخرى, بصمة للمؤخرة!), ثم تسجلها حتى يكون هناك نمط محدد وفريد لطريقة الجلوس فإذا اختلف هذا النمط (البصمة) فيما بعد تقوم السيارة بطلب كلمة مرور من السائق أو أن يمتنع المحرك عن الدوران لتمنع بذلك أي محاولة لسرقة السيارة, كذلك تسجيل وجمع نمط الجلسة لعدد كبير من السائقين في اللحظات التي تسبق وقوع الحوادث لتساعد هذه البيانات فيما بعد بالتنبؤ بالحوادث واتخاذ من يلزم قبل وقوعها. فهذا الإجراء قد تعامل مع أمر لم يكن يُرى سابقا على أنه يحمل معلومات أو بأنه يمثل بيانات (كرسي السيارة طبعا!), لكن من خلال بيننته إلى صيغة مقاسة عدديا, أمكن التعامل معه بشكل مختلف واستخراج فائدة منه. فالبيننة أتاحت لكمية من المعلومات التي لم يكن يُنظَر لها على أنها ذات قيمة, إلى معلومات يمكن تخزينها ومعالجتها في الكمبيوترات وكذلك تحليلها.
من الأمور التي لم تكن بيننتها ممكنة سابقا هي أمزجة الناس. فمن خلال دراسة وتحليل نصف مليار تغريدة على مدار سنتين أنتجها ما يقارب المليونين ونصف المليون شخص من 84 دولة أصبح من الممكن معرفة ومقارنة الأنماط اليومية والأسبوعية للناس من مختلف الثقافات والدول حول العالم في دراسة نشرب بمجلة ساينس Science في 2011. وبفضل البيننة صار بالإمكان إخضاع أمزجة الناس وعواطفهم إلى الدراسة والتحليل.

تعلم الآلة Machine Learning

تعلم الآلة هو أحد المجالات الفرعية لعلم الكمبيوتر. يُعرفه عالم الكمبيوتر آرثر سامويل بأنه "المجال الذي يتيح للكمبيوترات القدرة على التعلم دون حاجة لبرمجتها على ذلك". فبدلا عن اتباع البرنامج لأوامر برمجية محددة بدقة, يأخذ كميات متعددة من البيانات ومنها يتعلم ويطور أدائه بالأمثلة والخبرات المتراكمة, أو يتعلم بأن يتخذ قرارات وتنبؤات أكثر دقة.
تطبيقات تعلم الآلة متعددة تشتمل على البرامج التي تتعرف على النصوص والأصوات فتتعلم كلما تم استخدامها وتلقيمها بالمزيد من البيانات. كذلك برامج فلترة البريد الغير مرغوب Spam Filter. فكلما وسِم أحد الإيميلات بأنه غير مرغوب فيه يتعلم البرنامج من هذه المعلومة ويطور من أدائه لاحقا.

كيف تصبح عالم بيانات؟

عالم البيانات هو شخص يتفوق في الإحصاء على أي مهندس برمجيات, ويتفوق في هندسة البرمجيات على أي إحصائي.
جوش ويلز



هال فاريان, كبير اقتصاديين قوقل, يصف وظيفة عالم البيانات بقوله: "إذا أدرت أن تكون ناجحا, عليك أن تكون متمما ونادرا لشيء واسع الانتشار وغير مكلف. البيانات موجودة بكثرة والأمر الهام والنادر على المدى الطويل هو معرفة كيفية استخراج الحكمة منها. لهذا السبب الإحصائيين ومدراء قواعد البيانات والمتخصصين في تعليم الآلة سيكونون بحق في موضع يحسدون عليه."

الفرق بين علماء البيانات والإحصائيين ومهندسي البيانات ومحلليها

علماء البيانات يستخدمون لغات البرمجة والتقنيات المعتمدة على الكمبيوترات خلافا للإحصائيين الذين يستخدمون الطرائق الإحصائية التقليدية المستقاة من الرياضيات. أما مهندس البيانات فهو من يوجد حلولا للقصور التقنية في معالجة البيانات ذات السعة والسرعة العالية, وهو الذي يجهز البيانات ويُعِدُّها ليستطيع عالم البيانات استنباط المعلومات المفيدة منها. أما محلل البيانات فمجال عمله يتناول تحليل كميات أقل بكثير من تلك التي يتعامل معها عالم البيانات ويعتمد على البرامج والأدوات المجهزة سابقا للقيام بعمله عكس عالم البيانات الذي يطور البرامج التي يستخدمها بنفسه.

فما يقوم به عالم البيانات هو استخلاص المعلومات المفيدة من بين أكداس هائلة من البيانات ليعرضها بأسلوب يسهل فهمه. وليقوم بعمله يلزمه المزج بين الإحصاء, والبرمجة, وتصميم المخططات البيانية.
يشرح فرانك لو, مدير ومؤسس إدارة علم البيانات لدى شركة واي فير للأثاث, أهم ثلاث صفات يجب على أي عالم بيانات التحلي بهن:
"علم البيانات هو تقاطع بين مناطق مختلفة من المهارات. هناك ثلاثة مناطق مهمة. الأولى الرياضيات والتقنيات الكمية. الثانية الهندسة لأن علم البيانات تقني جدا. والثالثة استراتيجيات العمل والمعرفة الجوهرية لأي موضوع تعمل عليه."

بعض الأدوات التي تحتاج إلى الإلمام بها (قد تتغير في المستقبل):
  • هادوب Hadoop: منصة عمل لمعالجة كميات كبيرة من البيانات بسرعة عالية.
  • ماب رديوس MapReduce: نموذج برمجي لمعالجة الكميات الكبيرة من البيانات باستخدام الحوسبة المتوازية والموزعة.
  • لغة آر R: لغة برمجة مخصصة للحوسبة الإحصائية.
  • ماهاوت Mahout: برنامج متخصص في تعلم الآلة.
  • تابلو Tableau: برنامج لتصوير البيانات.

أما بالنسبة للإحصاء فلا تحتاج أن تكون ضليعا فيه, بعض الأساسيات الإحصائية تكفي, مثل:
  • Linear regression
  • Ordinary least squares
  • Time series analysis
  • Monte Carlo simulation

الوسائل المتاحة لاكتساب المعرفة في علم البيانات متعددة, فالكثير من الجامعات شرعت في السنوات الأخيرة بتوفير تخصص علم البيانات للدراسات العليا, إن لم يسمح لك وقتك ومالك بالانضمام لأحدها يمكنك أخذ كورسات اونلاين MOOC.

مراجع:
  • Data Science for Dummies by Lillian Pierson
  • Big Data: A Revolution That Will Transform How We Live, Work, and Think  by Viktor Mayer-Schonberger, Kenneth Cukier
  • Data Scientist: The Definitive Guide to Becoming a Data Scientist by Zacharias Voulgaris

دورة حياة التكنولوجيا


أي شيء موجود في الحياة حين ولِدتَ يُعَد صحيحا وطبيعيا.
أي شيء أُخترع وأنت بعمر 15 إلى 35 يُعَد جديدا وثوريا ومشوقا, ويمكنك إلى حد ما أن تزاول عملا يعتمد عليه.
أي شيء أٌخترع وأنت أكبر من 35 عاما سيكون أمرا يخالف سنن الطبيعة.
دوغلاس آدام





عالم الكمبيوتر والمتخصص بالمستقبليات راي كيرزويل (1948) كان مأخوذا طوال حياته بالتكنولوجيا وله العديد من الاختراعات التقنية كالقارئ الضوئي للنصوص وآلة عزف إلكترونية تحاكي البيانيو, وألف العديد من الكتب التي حوت على تنبؤات تقنية دقيقة. في كتابه "عصر الآلات الروحية" يصف تطور أي تكنولوجيا بهذه المراحل السبعة:

تكافح التكنولوجيات من أجل البقاء, وتتطور وتخوض دورات حياة خاصة بها, ونستطيع تحديد سبع مراحل مختلفة. خلال مرحلة الإرهاصات تتوفر المتطلبات الأساسية للتقنية, وقد يستطيع الحالمون تصور اتحاد هذه العناصر معا, لكننا لا نعتبر الحلم مرادفا للاختراع, حتى لو كانت الأحلام مدونة, فقد رسم ليوناردو دا فينشي Leonardo da Vinci صورا مقنعة لطائرات وسيارات, لكننا لا نعتبره مخترعا لأي منها.
المرحلة الثانية -- وهي مرحلة نحتفي بها كثيرا في ثقافتنا -- هي الاختراع, وهي مرحلة وجيزة جدا, لا تختلف في بعض الجوانب عن عملية الميلاد بعد فترة طويلة من المخاض, وهنا يمزج المخترع حب الاستطلاع والمهارات العملية والعزيمة وقدرا من الاستعراض عادة للجمع بين الأساليب المختلفة بطريقة جديدة للخروج بتكنولوجيا جديدة.
المرحلة التالية هي التطوير, حيث يحمي الاختراع ويدعمه أوصياء لديهم شغف به (قد يكون من بينهم المخترع الأصلي), وكثيرا ما تفوق هذه المرحلة في أهميتها مرحلة الاختراع, وقد تتضمن ابتكارا إضافيا يفوق في أهميته الاختراع الأصلي. كان الكثيرون من هواة تجربة أجزاء الآلات قد انتهوا إلى إنشاء عربات ركاب بدون جياد تعمل بالتحكم اليدوي, لكن اختراع هنري فورد Henry Ford للإنتاج على نطاق واسع هو الذي أتاح للسيارة أن تحتل مكانها وتحقق النجاح.
المرحلة الرابعة هي النضج, فمع أن التكنولوجيا تواصل التطور, فإنها تكتسب عندئذ حياة ذاتية وتصبح جزءا مستقلا وراسخا في المجتع, وقد تندمج اندماجا كبيرا في نسيج الحياة حتى يبدو لكثير من المراقبين أنها ستدوم إلى الأبد, ويؤدي ذلك إلى دراما مثيرة عندما نصل إلى المرحلة التالية التي أطلق عليها مرحلة "المدعين", فهنا يهدد أحد المدعين بالقضاء على التكنولوجيا القديمة, وقبل الأوان يتوقع المتحمسون لها النصر, في حين توفر التكنولوجيا الجديدة بعض الميزات, نجد بعد إعادة النظر أن التكنولوجيا الأحدث ينقصها الجودة أو تفتقر إلى العملية, وعندما تفشل بالفعل في إزاحة النظام القائم, يرى المحافظون في ذلك دليلا على أن الأسلوب الأصلي سوف يعيش حقا إلى الأبد.
يكون ذلك في معظم الأحوال نصرا قصير الأجل للتكنولوجيا التي أصابتها الشيخوخة, وبعد وقت قصير تنجح تكنولوجيا جديدة عادة في إحالة التكنولوجيا الأصلية إلى التقاعد. في هذا الجزء من دورة الحياة تعيش التكنولوجيا سنواتها الأخيرة في تدهور تدريجي, وقد أصبح يشاركها الهدف منها ووظيفتها منافس أكثر حيوية. وتفضي هذه المرحلة -- التي قد تشكل (٥-١٠) بالمائة من دورة الحياة -- آخر الأمر إلى مرحلة الأثر التاريخي (من الأمثلة الراهنة; المركبات التي تجرها الخيول, والهاربسيكورد, والآلة الكاتبة اليدوية, والكمبيوتر الميكانيكي الكهربائي).
لتوضيح تلك المراحل تأمل أسطوانات الفونوغراف, فقد سبقها في منتصف القرن التاسع عشر العديد من الابتكارات بما فيها مسجلة الصوت البدائية phonautograph لإدوارد ليون سكوت دو مارتنفي Edouard-Leon Scott de Martinville, وكانت تسجل ذبذبات الصوت كنموذج مطبوع. غير أن توماس إديسون Thomas Edison هو الذي جمع في 1877 كل العناصر بعضها مع بعض واخترع أول جهاز يستطيع تسجيل الصوت وإعادته, وتطلب الأمر مزيدا من التنقيح للفونوغراف لكي يصبح عمليا من الناحية التجارية, وأصبح تكنولوجيا ناضجة تماما في 1948 عندما أنتجت كولومبيا الأسطوانة التي تدور بسرعة 33 دورة في الدقيقة وقدمت آر سي إي فيكتور RCA Victor الأسطوانة الصغيرة التي تدور بسرعة 45 دورة في الدقيقة. كان المدعي شريط الكاسيت الذي ظهر في الستينيات وانتشر في السبعينيات, وتنبأ المتحمسون الأوائل أن حجمه الصغير وإمكانية إعادة التسجيل عليه سيقضيان على الأسطوانات التي يعيبها كبر حجمها وقابليتها للخدش.
على الرغم من هذه الميزات الواضخة, كان ينقص أشرطة الكاسيت الوصول العشوائي (القدرة على الاستماع إلى مختارات بتتابع معين), وهي عرضة لأنواع معينة من التشويش وينقصها نقاء الصوت. وفي أواخر الثمانينيات وبداية التسعينيات وجهت الأقراص المضغوطة CD الضربة القاضية, فقد أتاحت هذه الأسطوانات الوصول العشوائي بالإضافة إلى مستوى من جودة الصوت يقترب من حدود الجهاز السمعي الإنساني, ودخلت أسطوانات الفونوغراف مرحلة الاختفاء التدريجي في النصف الأول من عقد التسعينيات, ومع أن هذه الأسطوانات لا تزال تُنتَج بكميات صغيرة, فإن التكنولوجيا التي ولدت على يد أديسون منذ أكثر من قرن في طريقها لأن تصبح أثرا تاريخيا.
يعد الكتاب المطبوع مثالا آخر, فهو الآن تكنولوجيا ناضجة تماما; إنه الآن في مرحلة المدعين, والمدعي هو الكتاب "الافتراضي" المعتمد على البرمجيات. ونظرا لافتقار الجيل الحالي من الكتاب الافتراضي للوضوح والتباين وغيرهما من المميزات البصرية للورق والحبر, فالجيل الحالي من الكتاب الافتراضي ليست له القدرة على إزاحة المطبوعات المعتمدة على الورق. غير أن انتصار الكتاب الورقي سيكون قصير الأجل, فسوف تنجح الأجيال المستقبلية من الكمبيوترات في توفير بديل مقبول تاما للورق.