ربما يكون مشروع R للحوسبة واحدة من أقوى وأشهر منصات البرمجة الإحصائية والتعلم الآلي التطبيقي.
في هذه التدوينة سوف تكتشف ما هو R، ومن أين جاء وبعض أهم ميزاته.
دعونا نبدأ.
ما هو R؟
R هي واحدة من أشهر منصات البرمجة الإحصائية والتعلم الآلي التطبيقي، كما تعتبر بيئة مفتوحة المصدر للبرمجة الإحصائية والتصور.
R هو عدد من الأشياء، والتي قد تكون مربكة في البداية.
- R هي لغة كمبيوتر . وهي أحد أشكال لغة Lisp ويمكنك كتابة البرامج بها.
- R هو مترجم . يمكنه تحليل وتنفيذ نصوص R (البرامج) المكتوبة مباشرة أو المحملة من ملف يحمل امتداد .R.
- R عبارة عن منصة . يمكنها إنشاء رسومات لعرضها على الشاشة أو حفظها في ملف. يمكنها أيضًا إعداد نماذج يمكن الاستعلام عنها وتحديثها.
قد ترغب في كتابة نصوص R في ملفات وتشغيلها في وضع الدفعات باستخدام مفسّر R للحصول على نتائج مثل الجداول أو الرسومات. قد ترغب أيضا في فتح مفسّر R وكتابة الأوامر لتحميل البيانات واستكشافها ونمذجتها بطريقة مخصصة.
توجد بيئات رسومية، ولكن الاستخدام الأكثر بساطة وشيوعا للغة R هو من خلال وحدة تحكم R (مثل REPL ). إذا كنت قد بدأت للتو في استخدام R، فإنني أوصيك بتعلم R على وحدة التحكم.
من أين جاء R؟
تم إنشاء R بواسطة Ross Ihaka وRobert Gentleman في جامعة أوكلاند بنيوزيلندا كتطبيق للغة البرمجة S. بدأ التطوير في عام 1993. تم توفير نسخة على FTP تم إصدارها بموجب GNU GPL في عام 1995. تم إنشاء المجموعة الأساسية الأكبر ومشروع المصدر المفتوح في عام 1997.
بدأ الأمر كتجربة قام بها المؤلفون لتنفيذ اختبار إحصائي في لغة Lisp باستخدام قواعد نحوية مثل تلك المقدمة في S. ومع تطورها، أخذت المزيد من القواعد النحوية وميزات S، وتجاوزتها في النهاية في القدرة والنطاق.
للحصول على فكرة مثيرة للاهتمام ومفصلة لتاريخ R، راجع التقرير الفني R: التاريخ الماضي والمستقبل (PDF).
الميزات الرئيسية لـ R
R هي أداة يمكن استخدامها عندما تحتاج إلى تحليل البيانات أو رسمها أو بناء نموذج إحصائي للبيانات. وهي مثالية للنماذج الأولية للتحليلات الفردية والعمل الأكاديمي، ولكنها غير مناسبة لبناء نماذج يمكن نشرها في بيئات قابلة للتطوير أو تشغيلية.
فوائد R
هناك ثلاث فوائد رئيسية لـ R:
- مفتوح المصدر : R هو برنامج مجاني ومفتوح المصدر. يمكنك تنزيله الآن والبدء في استخدامه دون أي تكلفة. يمكنك قراءة الكود المصدري والتعلم منه وتعديله لتلبية احتياجاتك.
- الحزم : تحظى لغة R بشعبية كبيرة لأنها تحتوي على عدد كبير من الخوارزميات القوية للغاية التي يتم تنفيذها كمكتبات تابعة لجهات خارجية تسمى الحزم. ومن الشائع أن يصدر الأكاديميون في المجالات الإحصائية أساليبهم كحزم R، مما يعني أنه يمكنك الوصول المباشر إلى بعض الأساليب الحديثة.
- التكوين : R مستوحاة من لغة الإحصاء الخاصة S، باستخدام وتحسين التعبيرات الاصطلاحية والاستعارات المفيدة للحوسبة الإحصائية، مثل العمل في المصفوفات والمتجهات وإطارات البيانات.
لمزيد من المعلومات حول حزم R، راجع CRAN (شبكة أرشيف R الشاملة) واستعرض حسب الحزمة أو العروض . سيكون عرض التعلم الآلي والتعلم الإحصائي الذي يسرد حزم التعلم الآلي ذا أهمية كبيرة.
الصعوبات مع R
هناك ثلاث صعوبات رئيسية تواجه المنصة:
- عدم الاتساق :تُنفَّذ كل خوارزمية باستخدام معلماتها الخاصة واتفاقيات التسمية الفريدة. على الرغم من محاولة بعض الحزم الالتزام بالاتفاقيات الأولية (مثل استخدام دالة
predict
لإجراء التنبؤات)، إلا أن أسماء الوظائف ونتائجها يمكن أن تختلف بشكل كبير في تعقيدها وهيكلها. هذا الاختلاف قد يؤدي إلى ارتباك كبير، خاصة عند الانتقال بين الحزم البرمجية المختلفة. على سبيل المثال، قد تختلف المعلمات المطلوبة أو أسماء الدوال حتى في المهام الأساسية مثل التنبؤ أو التقييم.هذا الوضع يتطلب من المستخدم قراءة متعمقة للوثائق مع كل حزمة جديدة، مما يزيد من الوقت والجهد المطلوبين للتكيف مع الأدوات المختلفة. قد يكون هذا محبطًا بشكل خاص للمستخدمين الذين يعملون على مشاريع تتطلب استخدام عدة حزم أو الانتقال بين لغات برمجية مختلفة. - التوثيق :على الرغم من وجود كمية كبيرة من التوثيق المتاح للحزم البرمجية والأدوات الإحصائية، إلا أن هذا التوثيق غالبًا ما يكون مباشرًا ومختصرًا، مما يترك الكثير من التفاصيل المهمة غير مُغطاة. المساعدة المضمنة (مثل التوثيق المرفق مع الدوال أو الحزم) نادرًا ما تكون شاملة أو كافية لتلبية احتياجات المستخدمين، خاصة عند التعامل مع حالات استخدام معقدة أو غير شائعة.نتيجة لذلك، يجد المستخدمون أنفسهم مضطرين إلى اللجوء بشكل متكرر إلى البحث على الويب للعثور على أمثلة عملية وكاملة يمكنهم الاستفادة منها. هذه العملية تستغرق وقتًا طويلاً وقد تكون محبطة، خاصة عندما تكون الأمثلة المتاحة غير واضحة أو لا تتطابق تمامًا مع حالة الاستخدام المطلوبة.
- قابلية التوسع : تم تصميم R للاستخدام على البيانات التي تتناسب مع الذاكرة على جهاز واحد. وليس من المقصود استخدامه مع البيانات المتدفقة أو البيانات الضخمة أو العمل عبر أجهزة متعددة.
اللغة غامضة بعض الشيء، ولكن كمبرمج، لن تجد صعوبة كبيرة في تعلمها وتكييف الأمثلة مع احتياجاتك. تستفيد العديد من الحزم من الكود الرياضي المكتوب بلغات C وC++ وFORTRAN وJava، مما يوفر واجهة مريحة داخل بيئة R.
من يستخدم R؟
تدعم الشركات التجارية الآن لغة R. على سبيل المثال، Revolution R هي نسخة مدعومة تجاريًا من لغة R مع ملحقات مفيدة للشركات مثل IDE. توفر Oracle وIBM وMathematica وMATLAB وSPSS وSAS وغيرها التكامل مع لغة R ومنصاتها.
تشير منصة Kaggle لمسابقات علوم البيانات واستطلاعات KDnuggets إلى أن R هي المنصة الأكثر شعبية لممارسي علوم البيانات الناجحين.
ملخص
في هذا المنشور، حصلت على نظرة عامة حول ما هو R، وميزاته الرئيسية، ومن أين جاء ومن يستخدمه.
لمزيد من المعلومات حول R، تفضل بزيارة الصفحة الرئيسية لمشروع R للحوسبة الإحصائية . ستجد هناك روابط التنزيل والوثائق والأدلة وقوائم البريد الإلكتروني والمزيد.