
علم البياناتعربى
البيانات الضخمة واستخداماتها باستخدام هادووب و سبارك
استخدام البيانات الضخمة في التطبيقات الذكية
اكتشف كيف يمكن للبيانات الضخمة أن تغير مستقبل الأعمال.
ماذا ستتعلم
- فهم مفهوم البيانات الضخمة
- تطبيق تقنيات هادووب
- استخدام سبارك لتحليل البيانات
- تطوير مهارات تحليل البيانات
- تنفيذ مشاريع عملية في البيانات الضخمة
- تحسين اتخاذ القرارات بناءً على البيانات
نبذة عن الكتاب
استخدام البيانات الضخمة مع هادووب وسبارك
لمن هذا الكتاب
- محللو البيانات
- مديرو المشاريع
- طلاب علوم الحاسوب
- المهتمون بتقنيات البيانات
- رواد الأعمال
لماذا تقرأ هذا الكتاب
- شامل ومفصل حول البيانات الضخمة
- أمثلة عملية توضح التطبيقات الحقيقية
- يستخدم لغة بسيطة وسهلة الفهم
- يقدم استراتيجيات فعالة لتحليل البيانات
تقييمات القراء
التقييمات هنا من القراء الذين يملكون الكتاب — عن طريق الشراء أو ضمن اشتراكهم.
4.6
★★★★★
32 تقييم
5★
18
4★
14
3★
0
2★
0
1★
0
محتويات الكتاب
1مقدمة عن البيانات الضخمة
- Introduction To BigData
- مقدمة
- خصائص البيانات الضخمة
- الحجم
- السرعة Velocity
- متنوع Variety
- الموثوقية veracity
- قيمة Value
- أمثلة محددة المجال للبيانات الضخمة Domain Specific example of bigData
- مجال الويب
- مراقبة الأداء: performance monitoring
- استهداف الإعلانات والتحليلات Ad Targeting & Analytics
- توصية المحتوى content recommendations
- الأمور المالية financial
- نمذجة مخاطر الائتمان
- كشف الاحتيال fraude detection
- رعاية صحية
- الترصد الوبائي Epidemiological Surveillance
- تطبيق استخبارات القرار القائم على تشابه المريض
- التنبؤ بأحداث المخدرات العكسية
- كشف المطالبات الغريبة
- الطب القائم على الأدلة
- مراقبة الصحة في الوقت الحقيقي
- انترنت الأشياء internet of Things
- كشف التسلل Intrusion Detection
- المواقف الذكية smart garages
- الطرق الذكية smart roads
- مراقبة الصحة الإنشائية structural health monitoring
- الري الذكي smart irrigation
- بيئة enivirmonment
- مراقبة الطقس weather monitoring
- مراقبة تلوث الهواء Air Polution Monitoring
- مراقبة التلوث الضوضائي Noise Pollution monitoring
- كشف حرائق الغابات forest fire detection
- كشف فيضانات الأنهارRiver flood detection
- مراقبة جودة المياه water quality monitoring
- النقل والخدمات اللوجستية
- تتبع الأسطول في الوقت الحقيقي
- مراقبة الشحنات
- حلول إدارة الشحن لأنظمة النقل
- تشخيص المركبات عن بعد Remote Vehicle Diagnistic
- إنشاء وجدولة الطريق Routing Generation And scheduling
- أنظمة النقل الحديثة مدفوعة بالبيانات
- التوصيل المحلي المفرط hyper local delivary
- مجمعات الكابينة / سيارات الأجرة Cap Taxy Agregator
- الصناعة
- تشخيص الجهاز والتنبؤ به
- تحليل مخاطر العمليات الصناعية Risk Analysis of Industrial Operations
- تخطيط ومراقبة الإنتاج Production Planning and Control
- قياس تخطيط الإنتاج وأنظمة التحكم
- بيع بالتجزئة Retail Business
- توصيات العملاء Customer Recommendations
- تحسين تخطيط المتجر store layout optemisation
- توقع الطلب forecasting demand
- تدفق التحليلات للبيانات الضخمة Analytics Flow for Big Data
- جمع البيانات Data Collection
- تحضير البيانات Data Preparation
- أنواع التحليل Analysis types
- طرق التحليل Analysis Modes
- رسم البيانات Data Visualisation
- مخازن البيانات الضخمة big data stacks
- مصادر البيانات الخام Raw Data Sources
- مراقبة الاداء performance monitoring
- وسائل الاتصال بالبيانات Data Access Connectors
- التراسل باستخدام طريقة النشر والاشتراك publish subscribe messaging
- موصلات مصدر بالوعة :source sink connectors
- موصلات قاعدة البيانات Database connectors
- قوائم انتظار الرسائل Messaging Queues
- الموصلات المخصصة
- مخزن البيانات Data storage
- تحليلات الدُفعات Batch Analysis
- تحليلات في الوقت الحقيقي Real Time Data Analytics
- استعلام تفاعلي interactive query
- خدمة قواعد البيانات والويب وأطر التصور
- الربط بين تدفق التحليلات وحزم البيانات الضخمة
- لتنظيف البيانات وتحويلها
- جمع البيانات Data collection
- تحضير البيانات Data Preparation
- أنواع التحليل Analytics Types
- أنماط التحليل Analysis Modes
- التصورات
2مقدمة سبارك
- Classes and objects
- نظرة عامة عن سبارك
- تاريخ سبارك
- مفاهيم سبارك الأساسية والبناء المعمارى
- الفصل 1 مقدمة لأباتشي سبارك
- مجموعات سبارك ونظام إدارة الموارد
- تطبيق سبارك Spark application
- الذاكرة الموحدة لسبارك spark unfied stck
- قلب محرك سبارك
- سبارك SQL
- البث المنتظم لبيانات سبارك spark structured streaming
- مكتبة spark MPlib
- مكتبة SparkR
- تطبيقات Apache Spark
- مثال على تطبيق سبارك Example of Spark Application
3إعداد مخازن البيانات
- Setting up BigData Stack
- تشغيل نسخة امازون AWS EC2
- إعداد Apache Ambari
- أوامر لإعداد Ambari
- خطوة اعداد المدراء assigning masters
- ادوات بيانات Cloudera CDH
- امازون ايلاستيك ماب رديوس Amazon Elastic MapReduce (EMR)
- واجهة ال Azure HDInsight
4أنماط البيانات الكبرى
- BigData Pattern
- مكونات التحليلات المعمارية وأنماط التصميم
- تسوية التحميل مع قوائم الانتظار
- موازنة الأحمال مع العديد من المستهلكين
- اختيار القائد leader election
- التقسيم sharding
- الاتساق والتوافر وتسامح التقسيم (CAP) Consistency, Availability & Partition Tolerance (CAP)
- فلتر بلوم bloom filter
- الآراء المجسدة materialized view
- بناء دالة المبدا Lambda Structure
- مجدول - وكيل – مشرف Scheduler-Agent-Supervisor
- الموصلات والفلاتر pipes and filters
- خدمة ويب web services
- الإجماع في الأنظمة الموزعة consensus in distributed systems
- أنماط MapReduce
- ال MapReduce
- تطبيقات على ال Map Reduce
- التلخيص العددي Numrical Summarization
- عدد Count
- القيم العظمى والصغرى Max/Min
- متوسط Average
- أعلى ن Top N
- المنقي أو الفلتر filter Pattern
- الفهرس المعكوس Inverted Index
5قواعد بيانات
- NoSQL
- قواعد بيانات القيمة الرئيسية key-value database
- أنواع البيانات
- أمازون دينامو دي بي
- متطلبات الأداء. DynamoDB
- لتصميم قاعدة بيانات Dynamodb
- قواعد بيانات الوثيقة document database
- MongoDB
- اوامر ضبط واعداد قاعدة بيانات MonoDb
- اوامر ال shell لقاعدة بيانات mongoDb
- قواعد بيانات الأسرة العمود column Database
- قاعدة بيانات HBase
- نموذج البيانات Data Model
- هندسة عامة Architecture
- تخزين البيانات والعمليات
- يدعم HBase العمليات التالية
- مسار القراءة :Read Path
- مسار الكتابة write Path
- الضغط compactors
- مرشحات بلوم :bloom filters
- أمثلة على استخدام HBase
- سطر الأوامر
- أمثلة على HBase – Python
- عمل backup
- مؤشرات الخادم server metrix
- قواعد بيانات الرسم البياني graph Database
- قاعدة بيانات الرسم البيانى Neo4j
6الاستعلام عن البيانات
- Data Acquisition
- اعتبارات الاستعلام عن البيانات
- نوع المصدر data source
- السرعة velocity
- آلية الابتلاع Ingestion Mechanism
- إطار العمل لإرسال واستقبال الرسائل
- تركيب النظام اباتش كافكا Apache Kafca
- الاجزاء partitations
- نشر الرسائل publishing messaging
- استهلاك الرسائل consuming messages
- تخزين السجل والضغط log storage and compacting
- أمازون كينيسيس
- أنظمة جمع البيانات الضخمة BigData collection systems
- أباتشي فلوم Apache Flume
- بناء Flume fume Architecture
- مصادر التدفق Flume Sources
- مصدر NetCat
- مصدر المولد
- مصدر سجل النظام
- مصدر HTTP
- مصدر مخصص
- نقاط استهلاك بيانات Flume او Flume Sinks
- Avro Sink
- File Roll Sink
- قنوات Flume
- قناة JDBC
- قناة الذاكرة القابلة للانسكاب
- قناة مخصصة
- محددات القناة channel Selector
- تكرار محدد القناة
- محدد قناة تعدد الإرسال
- محدد القناة المخصص
- معالجات sink processors
- معالج حوض موازنة التحميل
- معالج Failover Sink
- معترضات Flume
- أمثلة Flume
- اباتشي سكووب Apache Sqoop
- استيراد البيانات مع Sqoop
- تحديد البيانات المراد استيرادها
- موصلات مخصصة custom connectors
- استيراد البيانات إلى الخلية importing data to hive
- استيراد البيانات إلى HBase
- الواردات المتزايدة incremental imports
- تصدير البيانات مع Sqoop
- قوائم انتظار الرسائل Messaging Queue
- بروتوكول RabbitMQ
- مكتبة الرسائل ZeroMQ
- قائمة الانتظار RestMQ
- أمازون SQS
- موصلات مخصصة custom connectors
- موصلات قائمة على REST
- تنفيذ موصل مخصص قائم على REST
- موصلات قائمة على WebSocket
- موصلات قائمة على MQTT
- تنفيذ موصل مخصص قائم على MQTT
- أمازون إنترنت الأشياء Amazon IoT
- Azure IoT Hub
7نظام هادوب للتخزين الموزع للملفات
- (HDFS)
- خصائص HDFS
- النسخ المتماثل Replication
- تدفق الوصول إلى البيانات streaming Data Access
- هندسة HDFS
- نامينود Namenode
- Namenode الثانوي
- داتانود Data Node
- كتل البيانات والنسخ المتماثل
- مسار قراءة HDFS
- مسار كتابة HDFS
- أمثلة على استخدام HDFS
- الوصول إلى HDFS باستخدام Python
- واجهة ويب HDFS
- تحليل الدُفعات Batch Analysis
- نموذج البرمجة MapReduce
- هادوب يارن Hadoop yarn
- إدارة - إلى مكونات منفصلة - ResourceManager و ApplicationMaster
- تطبيق Master (AM):
- Node Manager (NM):
- جدولة Hadoop
- جدول FIFO
- مجدول عادل
- جدولة القدرات capacity schedulers
- التحليل الدُفعي لبيانات المستشعر
- تشغيل برنامج برنامج mapreduce على هادوب كلستر
- تحليل الدُفعات لمجموعة بيانات N-Gram
- ابحث عن أفضل الكلمات مع MapReduce
- لغة المعالجة pig
- تحميل البيانات
- أنواع البيانات في لغة pig
- مترابطة بيانية
- نوع البيانات Bag
- نوع البيانات map
- تصفية البيانات وتحليلها
- نتائج التخزين storing result
- معاملات التصحيح debugging results
- بيان لعلاقة monthTemp
- أمثلة على لغة pig
- ملف تهيئة فلوم
- اباتشي اوزي Apache Oozie
- سير عمل Oozie لتحليل البيانات
- تطبيق reduce لحساب status/error
- حالة سير عمل Oozie
- اباتشي سبارك Apache Spark
- إنشاء RDDs
- عمليات سبارك spark operations
- خريطة map
- منقي filter
- عملية reduce by key
- عملية flatmap
- عينة sample
- اتحاد union
- تداخل intersection
- الربط join
- أجراءات action
- خفض Reduce
- يجمع collect
- عدد count
- أول first
- يأخذ take
- اخذ عينة take sample
- اباتشي سولر
- أمثلة Solr
8تحليل البيانات فى الزمن الحقيقى
- Real Time Data Analysis
- معالجة الدفق stream processing
- عاصفة أباتشي Apache Storm
- المفاهيم
- تجميع البيانات grouping streams
- البناء Architecture
- معالجة موثوقة Reliable Processing
- دراسات حالة العاصفة storm case study
- قم بإنشاء موضوع كافكا
- قم بإنشاء جدول DynamoDB
- الحصول على مفاتيح تطبيق Twitter
- تنفيذ المستمع implement listener
- مشروع بناء العاصفة build storm project
- تنفيذ تطبيق الويب
- إرسال طوبولوجيا العاصفة
- تحليل بيانات الطقس في الوقت الحقيقي
- مجموعة البيانات
- نموذج التنبؤ Prediction pattern
- صنبور العاصفة storm spout
- عاصفة بولت storm bolt
- تطبيق الويب web Application
- معالجة في الذاكرة
- أباتشي سبارك
- عمليات النافذة
- نافذة او شباك
- تقليل reduceByWindow
- تقليل من خلال KeyAndWindow
- شرارة دراسات الحالة
- تحليل بيانات الاستشعار في الوقت الحقيقي
- تصفية البيانات
- تحليل آراء تويتر في الوقت الفعلي
- تحليل النوافذ المنبثقة من التغريدات Windowed Analysis of Tweets
9الاستعلام الفعال
- Interactive Querying
- اطار spark sql
- اطار بيانات Hive
- أمازون ريد شيفت Amazon Red Shift
- استعلام جوجل الضخم Google BigQuery
10خدمة قواعد البيانات وأطر الويب
- Web Frameworks
- قواعد البيانات العلائقية (SQL)
- قيود التكامل المرجعي
- قواعد البيانات غير العلائقية (NoSQL)
- أمازون دينامو دي بي Amazon Dynmodb
- كاساندرا Cassandra
- اعداد كاسندرا settingup casendra
- تصميم جدول باستخدام كاسندرا
- لقطة شاشة لاستعلام تم تنفيذه في غلاف CQL
- قاعدة بيانات MongoDB
- إطار عمل تطبيق ويب Python – Django
- تركيب دجانـجو Django Architecture
- نموذج model
- قالب Template
- العرض view
- إنشاء مشروع وتطبيق Django
- تكوين قاعدة بيانات
- تعريف النموذج defining a model
- موقع إدارة Django
- تعريف نموذج عرض defining view
- تعريف قالب defining template
- نموذج عرض تفاصيل موظفين
- نموذج عرض تفاصيل مشروع
- تحديد أنماط URL ( defininf url pattern
- التعامل مع الاخطاء Hanling Exception
- رفع الاخطاء Raising Errors
11العمل مع اباتشى سبارك
- Working With Apache Sparke
- تحميل وتثبيت Spark
- تحميل Spark
- تثبيت سبارك على ويندو 10
- المتطلبات الأساسية
- موجه الأوامر أو Powershell
- اختبار Spark
- تشغيل نافذة اوامر سبارك بايثون spark python shell
- الاستمتاع باوامر نافذة Scala Spark
- أوامر مفيدة ونصائح سبارك سكالا شل
- الاوامر التفاعلية الأساسية مع سكالا وسبارك
- اوامر التعامل مع Scala
- تعلم Spark
- مقدمة في Databricks
- تكوين الكتلة creating cluster
- إنشاء مجلد creating folder
- إنشاء دفتر ملاحظات creating a Notebook
- دليلا على انشاء النوت بوك
- إعداد سورس كود سبارك setting up spark source code