Pengurusan memori percikan

Kolam memori ini diuruskan oleh Spark. Ini bertanggungjawab untuk menyimpan keadaan pertengahan semasa melakukan pelaksanaan tugas seperti bergabung atau menyimpan pemboleh ubah siaran. Semua data cache / berterusan akan disimpan di segmen ini, khususnya dalam memori simpanan segmen ini.

Bagaimana memori percikan berfungsi?
Boleh mencetuskan kehabisan ingatan?
Bagaimana memori dibahagi dalam percikan api?
Bagaimana saya menyetel memori percikan saya?

Bagaimana memori percikan berfungsi?

Apache Spark adalah platform pengkomputeran kluster yang menyediakan API untuk pengaturcaraan terdistribusi yang serupa dengan model MapReduce, tetapi dirancang agar cepat untuk pertanyaan interaktif dan algoritma berulang. Ini terutama dapat dicapai dengan mencache data yang diperlukan untuk pengiraan dalam memori node dalam kluster.

Boleh mencetuskan kehabisan ingatan?

Kehabisan memori di peringkat pemandu

Pemandu di Spark adalah JVM di mana aliran kawalan utama aplikasi berjalan. Lebih kerap daripada itu, pemandu gagal dengan ralat OutOfMemory kerana penggunaan Spark yang salah.

Bagaimana memori dibahagi dalam percikan api?

Memori Di Tumpukan

Secara lalai, Spark hanya menggunakan timbunan memori sahaja. Kawasan memori On-heap di Executor boleh dibahagikan kepada empat blok berikut: Memori Penyimpanan: Ia digunakan terutamanya untuk menyimpan data cache Spark, seperti cache RDD, Unroll data, dan sebagainya.

Bagaimana saya menyetel memori percikan saya?

Berikut adalah beberapa cara untuk melakukannya:

Sekiranya ukuran RAM kurang dari 32 GB, bendera JVM harus ditetapkan ke –xx: + UseCompressedOops. ...
Struktur bersarang dapat dihindari dengan menggunakan beberapa objek kecil dan juga penunjuk.
Daripada menggunakan rentetan untuk kunci, anda boleh menggunakan ID berangka dan objek yang dihitung.