Semalt Ekspert Javascript ilə İnternet Scraping üçün bir təlimat təqdim edir

Veb kazıma hər hansı bir işdə qərar qəbul etmə prosesində istifadə olunan əla bir kritik məlumat mənbəyi ola bilər. Buna görə də etibarlı məlumat toplamağın yeganə etibarlı yolu olduğundan məlumat təhlilinin əsasını təşkil edir. Sıxıla bilən onlayn məzmunun miqdarı daim artmaqda olduğu üçün hər səhifəni əllə qırmaq demək olar ki, qeyri-mümkün ola bilər. Bu, avtomatlaşmanı tələb edir.

Fərqli avtomatlaşdırma layihələri üçün hazırlanmış bir çox vasitə olsa da, onların əksəriyyəti mükafatdır və bəxtinizə başa gələcəkdir. Buraya Kukla + Chrome + Node.JS daxil olur. Bu dərslik veb saytları avtomatik asanlıqla qıra biləcəyinizi təmin edərək prosesi sizə istiqamətləndirəcəkdir.

Quraşdırma necə işləyir?

Qeyd etmək vacibdir ki, JavaScript haqqında bir az bilik əldə etmək bu layihədə faydalı olacaqdır. Başlayanlar üçün yuxarıda göstərilən 3 proqramı ayrıca almalı olacaqsınız. Kukla başsız Chrome-u idarə etmək üçün istifadə edilə bilən Node Kitabxanasıdır. Başsız xrom, XU-nun GUI olmadan və ya başqa bir şəkildə xrom olmadan işləmə prosesinə aiddir. Node 8+ rəsmi saytından quraşdırmalı olacaqsınız.

Proqramları quraşdırdıqdan sonra kodun tərtibatına başlamaq üçün yeni bir layihə hazırlamağın vaxtı gəldi. İdeal olaraq, kazıma prosesini avtomatlaşdırmaq üçün koddan istifadə etdiyiniz JavaScript-lərdir. Kukla haqqında daha çox məlumat üçün sənədlərinə baxın, yüzlərlə nümunə var.

JavaScript qırıntılarını necə avtomatlaşdırmaq olar

Yeni bir layihə yaratdıqda (.js) bir fayl yaratmağa davam edin. Birinci sətirdə əvvəllər quraşdırdığınız Kukla asılılığını çağırmalı olacaqsınız. Bunun ardınca avtomatlaşdırma kodunun hamısını tutacaq bir əsas funksiya "getPic ()" izlənilir. Üçüncü sətir "getPic ()" funksiyasını işlədəcək şəkildə işlədəcəkdir. GetPic () funksiyasının "async" funksiyası olduğunu nəzərə alaraq, kodun növbəti sətirinə keçmədən əvvəl "söz" in həllini gözləyərkən funksiyanı dayandıran gözləmə ifadəsini istifadə edə bilərik. Bu ilkin avtomatlaşdırma funksiyası kimi işləyəcəkdir.

Başsız xromu necə çağırmaq olar

Növbəti kodu sətri: "const brauzer = gözləyən kukla.Launch ();" avtomatik olaraq kukla qurğusunu işə salacaq və yeni yaradılan "brauzer" dəyişənimizə təyin edən bir xrom nümunəsini işə salacaq. Daha sonra qırıntılı götürmək istədiyiniz URL-ə getmək üçün istifadə ediləcək bir səhifə yaratmağa davam edin.

Məlumatları necə qırdı

Kukla API, saat, forma doldurma və məlumat oxumaq kimi fərqli veb girişləri ilə ətrafında oynamağa imkan verir. Bu prosesləri necə avtomatlaşdıra biləcəyinizi yaxından görmək üçün müraciət edə bilərsiniz. "Scrape ()" funksiyası qırıntı kodumuzu daxil etmək üçün istifadə olunur. Qırıntı prosesini başlatmaq üçün node scrape.js funksiyasını işə salmağa davam edin. Bütün quraşdırma sonra avtomatik olaraq tələb olunan məzmunu çıxarmağa başlamalıdır. Kodunuzdan keçməyi və yol boyunca səhvlərə yol verməmək üçün hər şeyin dizayna uyğun işlədiyini yoxlamağı unutmayın.