Reviżjoni ta ’Semalt - Ġirja ta’ Scraping Script

Il-fluss tal-ajru huwa libreriji ta 'Scheduler għal Python użati biex jiġu kkonfigurati flussi tax-xogħol b'ħafna sistemi eżegwiti b'mod parallel fuq kull numru ta' utenti. Pajpeline tal-Fluss tal-Ajru uniku jinkludi operazzjonijiet SQL, bash, u Python. L-għodda taħdem billi tispeċifika fuq id-dipendenzi bejn il-kompiti, element kritiku li jgħin biex jiddetermina l-kompiti li għandhom jitmexxew b’mod parallel u liema għandhom jiġu eżegwiti wara li l-funzjonijiet l-oħra jkunu tlestew.

Għaliex il-Fluss tal-Ajru?

L-għodda tal-Fluss tal-Ajru hija miktuba f'Python, li tagħti l-vantaġġ li żżid l-operaturi tiegħek mal-funzjonalità tad-dwana diġà stabbilita. Din l-għodda tippermettilek li tinbarax id-dejta permezz ta 'trasformazzjonijiet minn websajt għal skeda ta' dejta strutturata sewwa. Il-fluss tal-ajru juża Grafiċji Aċikliċi Diretti (DAG) biex jirrappreżentaw fluss tax-xogħol speċifiku. F'dan il-każ, fluss tax-xogħol jirreferi għal ġabra ta 'kompiti li jinkludu dipendenzi direzzjonali.

Kif jaħdem Apache Airflow

Fluss tal-Ajru huwa Sistema ta ’Ġestjoni tal-Imħażen li taħdem biex tiddefinixxi l-kompiti bħala d-dipendenzi finali tagħhom hekk kif il-kodiċi jeżegwixxi l-funzjonijiet fi skeda u jqassam l-eżekuzzjoni tal-kompitu fil-proċessi kollha tal-ħaddiem. Din l-għodda toffri interface tal-utent li turi l-istat ta 'kemm għaddej u l-kompiti tal-passat.

Il-Fluss tal-Ajru juri informazzjoni dijanjostika lill-utenti rigward il-proċess tal-eżekuzzjoni tal-kompitu u jippermetti lill-utent aħħari jimmaniġġja l-eżekuzzjoni tal-kompiti manwalment. Innota li graff aċikliċi dirett jintuża biss biex jistabbilixxi l-kuntest ta 'eżekuzzjoni u biex jorganizza kompiti. Fil-Fluss ta 'l-Ajru, il-kompiti huma l-elementi kruċjali li jmexxu skript għall-brix. Fil-brix, il-kompiti jinkludu żewġ togħmiet li jinkludu:

  • Operatur

F’xi każijiet, il-kompiti jaħdmu bħala operaturi fejn iwettqu operazzjonijiet kif speċifikat mill-utenti finali. L-operaturi huma mfassla biex imexxu skraping script u funzjonijiet oħra li jistgħu jitwettqu bil-lingwa tal-programmazzjoni Python.

  • Senser

Kompiti huma żviluppati wkoll biex jaħdmu bħala sensuri. F'każ bħal dan, l-eżekuzzjoni ta 'kompiti li jiddependu minn xulxin tista' titwaqqaf sakemm jintlaħaq kriterju fejn il-fluss tax-xogħol jimxi sewwa.

Il-fluss tal-arja jintuża f’oqsma differenti biex imexxi skript tal-brix. Hawn taħt hawn gwida dwar kif tuża l-Airflow.

  • Iftaħ il-browser tiegħek u iċċekkja l-interface tal-utent tiegħek
  • Iċċekkja l-fluss tax-xogħol li falla u kklikkja fuqu biex tara l-kompiti li marru ħażin
  • Ikklikkja fuq "View log" biex tivverifika l-kawża ta 'falliment. F'ħafna każijiet, falliment tal-awtentikazzjoni tal-password jikkawża falliment tal-fluss tax-xogħol
  • Mur fit-taqsima tal-amministratur u kklikkja fuq "Konnessjonijiet." Editja l-konnessjoni Postgres biex tirkupra l-password il-ġdida u kklikkja "Save."
  • Żur mill-ġdid il-browser tiegħek u kklikkja fuq il-kompitu li kien falla. Ikklikkja fuq il-kompitu u tektek "Ċara" sabiex il-kompitu jimxi b'suċċess il-ħin li jmiss.

Skedaturi oħra ta 'Python għandhom jikkunsidraw

Cron

Cron hija sistema bbażata fuq Unix użata biex tmexxi skripts tal-brix perjodikament f'intervalli, dati u ħinijiet fissi. Din il-librerija tintuża l-aktar biex iżżomm u twaqqaf ambjenti ta ’softwer.

Luigi

Luigi huwa modulu Python li jippermettilek tieħu ħsieb il-viżwalizzazzjoni u r-riżoluzzjoni tad-dipendenza. Luigi jintuża għall-ħolqien ta ’linji tal-pajpijiet kumplessi għall-ġbir tal-impjiegi.

Airflow hija librerija ta 'Scheduler għal Python użata biex timmaniġġa proġetti ta' ġestjoni tad-dipendenza. Fil-Fluss tal-Ajru, il-kompiti li jmexxu jiddependu minn xulxin. Biex tikseb riżultati konsistenti, tista 'tissettja l-iskrittura tal-Fluss tal-Ajru tiegħek biex taħdem awtomatikament wara kull siegħa jew tnejn.