cara menggunakan apache spark

Diposting pada

Apache Spark installation on Windows 10 | Paul Hernandez playing ...
Apache Spark installation on Windows 10 | Paul Hernandez playing …

Apache Spark Belajar

Hello adalah posting pertama saya. Sebenarnya di sini saya hanya ingin menempatkan apa yang saya pelajari, jadi saya merasa lebih mudah untuk mengingat dan mungkin berguna bagi orang lain.

Jawa Konfigurasi

Konfigurasi Python

dalam kode di atas jika sparkSession ditulis secara khusus untuk dataset, karena di Jawa Saya baru saja mencoba 2 jenis RDD dan dataset . Pada RDD tidak perlu sparkSession (saya berasumsi itu karena RDD ini peninggalan seperti benar-benar selesai belum kepikiran yang aneh2 * lol).

Ambil Jumlah Kata-kata yang dimulai dengan huruf D dari A RDD String di Jawa

mengambil Jumlah kata-kata yang dimulai dengan huruf D dari A RDD string dalam Python

dalam kode di atas adalah mengambil kata dalam string untuk split (kode menggunakan flatMap untuk mengubah satu item ke n item), setelah perpecahan kemudian di filter untuk kata dengan karakter aslinya ‘d’ atau ‘ D’ dan kemudian menghitung berapa banyak kata-kata yang memenuhi filter.

Ambil berkas CSV dan menyimpan ke dataset (Java)

Ambil berkas CSV dan menyimpan ke DataFrame (Python)

data yang disimpan ke bentuk RDD semacam daftar, misalnya:

Sementara dataset atau DataFrame menjadi tabel berbentuk, misalnya:

dalam dataset atau DataFrame kita bisa langsung melihat deskripsi statistik dari meja kami. Namun, karena data dalam tabel adalah string Semua keterangan sehingga statistik tidak diperlukan.

Di sini saya mencoba untuk membuat kolom baru yang disebut “perusahaan” yang saya ambil dari email (dengan asumsi format email: username@company.domain), selain itu saya juga mencoba menambahkan “FULL_NAME” yang sebenarnya hanya kombinasi dari kolom first_name dan last_name. Selain itu saya juga membuat kode untuk menumerikan jenis kelamin sehingga bahwa gender tidak lagi Perempuan dan Laki-laki melakukan boolean 0 dan 1. Berikut kodenya:

Dataset Pengolahan dengan Java

Dataset Pengolahan di Python

dalam beberapa file python, UDF bukan tipe saya karena dengan isi typenya default adalah tali dan kebetulan saya lakukan keinginan untuk output string. Hal yang harus dilakukan ketika Anda ingin membuat kolom baru UDF mendefine yang berisi aturan-aturan yang akan menjadi isi kolom baru, dan kemudian memetakan kolom berpengaruh. Untuk menambahkan kolom dapat menggunakan perintah withColumn (nama_column_baru, mapping_function).

Berikutnya saya ingin mencoba untuk bergabung meja. Tapi karena saya baru-baru punya satu meja, tentu saja praktis saya membuat tabel lain yang berisi id dan nama jenis kelamin kemudian saya bergabung dengan data lama untuk mengetahui nama jenis kelaminnya (agak memaksa pula karena data asli sudah Perempuan dan Laki-laki kemudian dikonversi kenumerik er adalah dibalikin bersedia lagi ehehehehe ya nama juga belajar * lol). Berikut kodenya:

Latihan Bergabung dengan Java

Latihan Bergabunglah dengan Python

Untuk membuat dataframe baru, hal yang harus dilakukan adalah membuat struktur data dan kemudian masukkan isi tabel struktur data yang sesuai yang telah dibuat. Dengan DataFrame atau Dataset, sendi dapat dilakukan dengan cukup mudah. Pada kode di atas bergabung fungsi, saya tidak cara mendefine sebagai bergabung batin, kiri, kanan, dll karena secara default adalah batin dan aku ingin bergabung dalam. Berikutnya, saya mencetak data bergabung dengan saya tapi hanya beberapa kolom saja. Terakhir, saya menyimpan data saya tapi ingat bahwa data dalam Spark adalah kekal. Selama aku tidak dimasukkan kembali ke dalam variabel yang sama, maka data tidak berubah. Jadi di sini saya hanya menyimpan data yang sama seperti sebelumnya (numerik jenis kelamin, namun pada bergabung).

Beberapa Apache Spark proses belajar saya di Tahap 1, semoga bermanfaat juga bagi mereka yang membaca eheheheheh. Terima kasih.

Ditulis oleh

Ditulis oleh

Lebih Dari Medium

Temukan Medium

Membuat Anda Sedang

menjadi anggota sebuah

Dapatkan Medium aplikasi

Apache Spark: Perangkat Lunak Analisis Terpadu untuk Big Data
Apache Spark: Perangkat Lunak Analisis Terpadu untuk Big Data

End-to-End Data Pipelines with Apache Spark
End-to-End Data Pipelines with Apache Spark

Apache Spark : Install Apache Spark locally on Windows - YouTube
Apache Spark : Install Apache Spark locally on Windows – YouTube

Apache Spark Stack (With images) | Apache spark, Data science ...
Apache Spark Stack (With images) | Apache spark, Data science …

Apache Spark installation on Windows 10 | Paul Hernandez playing ...
Apache Spark installation on Windows 10 | Paul Hernandez playing …

End-to-End Data Pipelines with Apache Spark
End-to-End Data Pipelines with Apache Spark

Cara Menggunakan Apache Hadoop untuk Prediktif Analytics - dummies ...
Cara Menggunakan Apache Hadoop untuk Prediktif Analytics – dummies …

End-to-End Data Pipelines with Apache Spark
End-to-End Data Pipelines with Apache Spark

IBM Analytics for Apache Spark: Get Started on IBM Cloud - YouTube
IBM Analytics for Apache Spark: Get Started on IBM Cloud – YouTube

Hikmah_2D_TI || Cara Membuat ERD - YouTube
Hikmah_2D_TI || Cara Membuat ERD – YouTube

Cara install Apache Spark Di Windows
Cara install Apache Spark Di Windows

Use custom Maven packages with Jupyter in Spark on Azure HDInsight ...
Use custom Maven packages with Jupyter in Spark on Azure HDInsight …

How are Big Companies using Apache Spark - Level Up
How are Big Companies using Apache Spark – Level Up

Media Tweets by Bayu Dwiyan Satria (@bayudsatria) | Twitter
Media Tweets by Bayu Dwiyan Satria (@bayudsatria) | Twitter

Membuat dan Menjalankan Aplikasi Apache Spark dengan Intellij IDEA ...
Membuat dan Menjalankan Aplikasi Apache Spark dengan Intellij IDEA …

Hands-On Tour of Apache Spark in 5 Minutes
Hands-On Tour of Apache Spark in 5 Minutes

PDF) Parallelization of Hybrid Content Based and Collaborative ...
PDF) Parallelization of Hybrid Content Based and Collaborative …

OpenShift Commons Big Data SIG #3: Building Cloud Native Apache ...
OpenShift Commons Big Data SIG #3: Building Cloud Native Apache …

Use custom Maven packages with Jupyter in Spark - Azure HDInsight ...
Use custom Maven packages with Jupyter in Spark – Azure HDInsight …

Cloud Dataflow - Pemrosesan Data Streaming & Batch | Google Cloud
Cloud Dataflow – Pemrosesan Data Streaming & Batch | Google Cloud

End-to-End Data Pipelines with Apache Spark
End-to-End Data Pipelines with Apache Spark

Apache Spark: Perangkat Lunak Analisis Terpadu untuk Big Data
Apache Spark: Perangkat Lunak Analisis Terpadu untuk Big Data

Apache Spark installation on Windows 10 | Paul Hernandez playing ...
Apache Spark installation on Windows 10 | Paul Hernandez playing …

MongoDB NoSQL (@MNosql) | Twitter
MongoDB NoSQL (@MNosql) | Twitter

Building Scalable Data Science Platform Wit r | Apache Spark | R ...
Building Scalable Data Science Platform Wit r | Apache Spark | R …

A Neanderthal's Guide to Apache Spark in Python - Towards Data Science
A Neanderthal’s Guide to Apache Spark in Python – Towards Data Science

PDF) Parallelization of Hybrid Content Based and Collaborative ...
PDF) Parallelization of Hybrid Content Based and Collaborative …

Emr Oozie
Emr Oozie

PDF) Analisis Big Data Berbasis Stream Processing Menggunakan ...
PDF) Analisis Big Data Berbasis Stream Processing Menggunakan …

sql tutorials w3schools – Online Coding
sql tutorials w3schools – Online Coding

End-to-End Data Pipelines with Apache Spark
End-to-End Data Pipelines with Apache Spark

Machine Learning in Spark | Apache Spark | Databases
Machine Learning in Spark | Apache Spark | Databases

PENGUKURAN PERFORMA APACHE SPARK DENGAN LIBRARY H2O MENGGUNAKAN ...
PENGUKURAN PERFORMA APACHE SPARK DENGAN LIBRARY H2O MENGGUNAKAN …

How are Big Companies using Apache Spark - Level Up
How are Big Companies using Apache Spark – Level Up

PDF) Parallelization of Hybrid Content Based and Collaborative ...
PDF) Parallelization of Hybrid Content Based and Collaborative …

Jual Data Mining dan Big Data Analytics - Kota Surabaya ...
Jual Data Mining dan Big Data Analytics – Kota Surabaya …

Cloud Dataflow - Pemrosesan Data Streaming & Batch | Google Cloud
Cloud Dataflow – Pemrosesan Data Streaming & Batch | Google Cloud

Media Tweets by Bayu Dwiyan Satria (@bayudsatria) | Twitter
Media Tweets by Bayu Dwiyan Satria (@bayudsatria) | Twitter

Open Big Data | Big Data that actually works, Belajar Big Data ...
Open Big Data | Big Data that actually works, Belajar Big Data …

Stories Muhammad Apriandito A.S. clapped for – Medium
Stories Muhammad Apriandito A.S. clapped for – Medium

How are Big Companies using Apache Spark - Level Up
How are Big Companies using Apache Spark – Level Up

Use custom Maven packages with Jupyter in Spark - Azure HDInsight ...
Use custom Maven packages with Jupyter in Spark – Azure HDInsight …

Dan Clements (@dan1clements) | Twitter
Dan Clements (@dan1clements) | Twitter

Cloud Dataflow - Pemrosesan Data Streaming & Batch | Google Cloud
Cloud Dataflow – Pemrosesan Data Streaming & Batch | Google Cloud

Comparative study between Hadoop and Spark based on Hibench ...
Comparative study between Hadoop and Spark based on Hibench …

End-to-End Data Pipelines with Apache Spark
End-to-End Data Pipelines with Apache Spark

Buku Data Mining Dan Big Data Analytics : Teori Dan Implementasi ...
Buku Data Mining Dan Big Data Analytics : Teori Dan Implementasi …

Pertanyaan Wawancara Apache Spark: Kuasai & Lolos Seleksi
Pertanyaan Wawancara Apache Spark: Kuasai & Lolos Seleksi

MongoDB NoSQL (@MNosql) | Twitter
MongoDB NoSQL (@MNosql) | Twitter

PDF) Parallelization of Hybrid Content Based and Collaborative ...
PDF) Parallelization of Hybrid Content Based and Collaborative …

Klustering menggunakan MongoDB, Pentaho DI, Hadoop, dan Apache ...
Klustering menggunakan MongoDB, Pentaho DI, Hadoop, dan Apache …

End-to-End Data Pipelines with Apache Spark
End-to-End Data Pipelines with Apache Spark

Zeppelin
Zeppelin

Emr Zeppelin Configuration
Emr Zeppelin Configuration

Tinggalkan Balasan

Alamat email Anda tidak akan dipublikasikan. Ruas yang wajib ditandai *