البشر بطيئون, غير متقنيين, ومفكرين بارعين. الكمبيوترات سريعة, دقيقة, وغبية.
جون بفايفر
الصراع بين الإتحاد السوفييتي والولايات المتحدة ولّد صراعا علميا وتقنيا. حيث سعى كلا الكيانين إلى ضمان التفوق على الآخر. فأرسل الإتحاد السوفييتي أول قمر صناعي إلى الفضاء مما دفع الولايات المتحدة إلى إرسال أول رائد فضاء إلى القمر. وأدى خطر امتلاك الإتحاد السوفييتي لصواريخ نووية يمكن أن تشل حركة الاتصالات فيما بين الجيش الأمريكي إلى ظهور الانترنت كوسيلة اتصال لامركزية. وهناك مسعى آخر حاولت الولايات المتحدة أن تجد له حلا تكنولوجيا, إلا أنها إلى الآن لم تتقدم فيه إلا قليلا, وهو الترجمة الآلية التي بدأت منذ أربعينيات القرن العشرين.
في كتاب البيانات الضخمة: الثورة التي ستغير كيفية معيشتنا وعملنا وتفكيرنا يلخص المؤلف المحطات الرئيسة التي سلكتها الترجمة الآلية منذ نشأتها إلى الاستفادة من البيانات الضخمة اليوم:
"الترجمة الآلية كانت أحد أفكار رواد الكمبيوتر منذ فجر الحوسبة في الأربعينيات, حينما كانت الكمبيوترات تُصنع باستخدام الصمامات المفرغة وتملأ غرفة كاملة. وأثناء الحرب الباردة غدت هذه الفكرة ملحة, حيث جمعت الولايات المتحدة كميات كبيرة من المواد المكتوبة والصوتية باللغة الروسية لكن كانت تعوزها القوة البشرية لترجمتها بالسرعة المطلوبة.
المسار الأول الذي سلكه علماء الكمبيوتر هو الجمع بين القواعد النحوية مع قواميس ثنائية اللغة. ففي عام 1954 استطاع حاسوب مطور من شركة آي بي أم IBM أن يترجم ستون جملة روسية إلى الإنجليزية باستخدام 250 زوج من الكلمات وستة قواعد نحوية. النتائج كانت جدا مبشرة. “Mi pyeryedayem mislyi psryedstvom ryechyi,” أٌدخلت هذه الجملة إلى كمبيوتر آي بي أم 701 من خلال البطاقات المثقوبة وكان مُخرَجها هو جملة "نحن ننقل الأفكار بالكلام". تُرجمت الستون جملة بسلاسة, حسبما صرحت به آي بي أم احتفاءً بهذا الإنجاز. توقع ليون دوسترت, رئيس البرنامج البحثي من جامعة جورج تاون, أن الترجمة الآلية "ستغدو أمرا واقعا" خلال "خمس, ربما ثلاث سنوات".
إلا أن هذا النجاح المبدئي تبين فيما بعد كم كان مضللا. ففي عام 1966 اعترف أعضاء لجنة من خبراء الترجمة الآلية بفشلهم. المسألة أصعب مما بدت لهم. تعليم الكمبيوترات الترجمة لا يتضمن تعليمها القواعد فحسب بل والاستثناءات كذلك. فالترجمة ليست مجرد حفظ واستحضار. إنها تُعنى باختيار المفردة الصحيحة من بين خيارات شتى. فهل "bonjour" تعني "صباح الخير"؟ أو "يوما جميلا", أو "مرحبا", أو "أهلا"؟ الجواب هو, يعتمد…
في الثمانينيات استجدت لبعض الباحثين في آي بي أم فكرة. عوضا عن تلقيم الكمبيوتر قواعد لغوية محددة, بالإضافة إلى القاموس, قرروا بأن تكون عملية اختيار مدى ملائمة كلمة ما مقابل أخرى للكمبيوتر ينجزها من خلال استخدام الإحتمالات الإحصائية. وفي التسعينيات استخدم مشروع كانديدي Candide من آي بي أم الأوراق الصادرة عن البرلمان الكندي باللغتين الفرنسية والإنجليزية, والتي تحتوي على ما يقارب ثلاثة ملايين زوج من الجمل. ولأنها نصوص رسمية, كانت مترجمة بجودة عالية. بمعايير ذلك الوقت, كان كم البيانات كبيرا. ما عرف بالترجمة الآلية الإحصائية, أحال التعامل مع تحدي الترجمة إلى مسألة رياضية. وبدت أنها تسير بالمسار الصحيح. فتحسن أداء الترجمة الآلية بين ليلة وضحاها. بالرغم من هذه القفزة النظرية إلا أن آي بي أم لم تحرز إلا شيئا يسيرا من التقدم, مقارنة بما أنفقته. فقررت إيقاف المشروع.
بعد أقل من عقد من الزمان, ولجت قوقل عالم الترجمة تحت شعار 'تنظيم المعلومات في العالم وإتاحة الوصول إليها والانتفاع بها'. وبدلا عن استخدام نصوص تُرجمت بعناية فائقة, استفادت قوقل من نصوص بكميات أكبر بكثير ولكنها أقل جودة وتنظيما: أي كل ما هو متوفر على الانترنت, وأكثر. فامتصت أنظمتها كل ما استطاعت الوصول إليه من ترجمات بهدف تدريب كمبيوتراتها على الترجمة. فأخذت نصوصا من مواقع الشركات المتوفرة على أكثر من لغة, والنصوص الرسمية ذات الترجمات المتطابقة, والتقارير الحكومية مثل الأمم المتحدة والإتحاد الأوروبي. وحتى ترجمات لكتب كان قد أضافها مشروع قوقل لنسخ الكتب. في حين كان مشروع كانديدي قد استعان بثلاثة ملايين زوج من الجمل المترجمة بعناية فائقة, استعان نظام قوقل بمليارات الصفحات المتفاوتة بالجودة, حسبما أفاد فرانز جوزيف أوتش, رئيس مشروع ترجمة قوقل وأحد المرجعيات الرئيسة في هذا المجال. فكمية الكلمات التي تقدر بالتريليون تشكل مايقارب 95 مليار جملة إنجليزية, بالرغم من عدم دقة الترجمة.
بالرغم من عدم تناسق المادة المدخلة, تعمل خدمة قوقل بأحسن حال. فترجماتها أكثر دقة من ترجمات الأنظمة الأخرى (مع أنها لاتزال بعيدة عن المثالية). وهي أكثر غنى, فحتى منتصف 2012 غطت بياناتها أكثر من 60 لغة. ويمكنها التعامل مع المدخلات الصوتية في 14 لغة للترجمات الفورية. ولأنها تتناول اللغات كبيانات غير منسقة محكومة بالإحتمالات, يمكنها الترجمة بين لغات لا تتوفر بينهما إلا القليل جدا من الترجمات المباشرة, كما بين اللغتين الهندية والكاتلوينية. فبهذه الحالات تستخدم الإنجليزية كجسر بينهما. وهي بذلك أكثر مرونة من الطرق الأخرى في الترجمة, فيمكنها أن تضيف أو تزيل المفردات حسب معدل استخدامها.
الذي يتيح لنظام قوقل للترجمة العمل بشكل جيد هو ليس استخدامه لخوارزمية ذكية. بل لأن بانكو وبريل من ميكروسوفت قد ألقموه بكميات أكبر من البيانات. فاستطاع قوقل أن يستفيد من بيانات يبلغ حجمها أكبر بآلاف المرات من تلك التي استفاد منها مشروع كانديدي, لأنه قبل التعامل مع البيانات الغير منسقة. فكمية المفردات التريليونية التي استفادت منها قوقل في 2006 حصلت عليها من الفتات المتساقط في أرجاء الانترنت, أو بعبارة أخرى 'بيانات من البرية'. وشكلت حزمة التدريب الأولى التي بنى عليها النظام إحصائياته وإحتمالاته. يُعد هذا بعيدا كل البعد عن ما استخدمه مشروع براون كوربس في الستينيات, حيث استخدم ما مجموعه مليون مفردة إنجليزية. فإستخدام كميات ضخمة من البيانات أتاح السير بخطوات أوسع في مجال معالجة اللغة الطبيعية والذي تعتمد عليه أنظمة أخرى لتعمل كأنظمة التعرف على الصوت والترجمات الآلية. يقول خبير قوقل في مجال الذكاء الإصطناعي, بيتر نورفيج في الورقة العلمية التي عنونها 'الفعالية اللامعقولة للبيانات' : 'النماذج البسيطة مع الكثير من البيانات تتفوق على النماذج الدقيقة المبنية على بيانات أقل'.
كما أوضح نورفيج والمؤلف المشارك معه, بأن عدم التناسق كان المفتاح: 'بشكل ما, هذه الكومة المتكدسة تعد خطوة للوراء لما كان عند براون كوربس: فهي مستقاة من صفحات غير مفلترة من على الويب فتحتوي على جمل غير مكتملة, أخطاء إملائية, أخطاء نحوية, وكل الصنوف الأخرى من الأخطاء. فهي ليست مدققة يدويا بعناية. لكن بما أنها مليون مرة أكبر من بيانات براون كوربس فإن هذا يقلل من هذه النقائص'."