Back to Question Center
0

Web grate ak Ekspè Semalt

1 answers:

Web grate, ke yo rele tou rekòlte entènèt, se yon teknik ki itilize ekstrè done sou sit entènèt. Lojisyèl rekòlte entènèt ka jwenn aksè nan yon sit entènèt dirèkteman lè l sèvi avèk HTTP oswa yon navigatè entènèt. Pandan ke pwosesis la ka aplike manyèlman pa yon itilizatè lojisyèl, teknik la jeneralman explik yon pwosesis otomatik ki te aplike lè l sèvi avèk yon krole entènèt oswa bot.

Web grate se yon pwosesis lè done estriktire kopye nan entènèt la nan yon baz done lokal pou revize ak Rekipere. Li enplike nan chache yon paj entènèt ak èkstraksyon kontni li yo. Pawòl ki nan paj la ka analize, fouye, restriktire ak done li yo kopye nan yon aparèy depo lokal yo.

Paj wèb yo jeneralman konstwi nan langaj ki baze sou tèks ki baze sou tè tankou XHTML ak HTML, tou de nan ki gen ladan yon gwo nan done itil nan fòm lan nan tèks. Sepandan, anpil nan sit entènèt sa yo yo te fèt pou imen-itilizatè moun epi yo pa pou itilizasyon otomatik. Sa a se rezon ki fè poukisa grate lojisyèl te kreye.

Gen anpil teknik ki ka anplwaye pou grate entènèt efikas. Kèk nan yo yo te elabore pi ba a:

1. Imèl kopi-ak-keratin

De tan zan tan, menm pi bon zouti grafye entènèt s pa ka ranplase presizyon ak efikasite nan kopi-ak-keratin manyèl yon imen an..Sa a se sitou aplikab nan sitiyasyon lè sou sit entènèt mete kanpe baryè yo anpeche automatisation machin.

2. Text Pattern Matching

Sa a se yon apwòch jistis senp, men pwisan itilize ekstrè done ki nan paj wèb. Li ka baze sou UNSE grep lòd la oswa jis yon etablisman ekspresyon regilye nan yon lang pwogram bay, pou egzanp, Python oswa Perl.

3. HTTP Programming

HTTP Programming ka itilize pou tou de paj wèb estatik ak dinamik. Done yo ekstrè nan afiche demann HTTP nan yon sèvè entènèt aleka pandan y ap fè pou sèvi ak pwogramasyon priz.

4. HTML Parsing

Anpil sit entènèt yo gen tandans gen yon koleksyon anpil nan paj kreye dynamique de yon sous estrikti kache tankou yon baz done. Isit la, done ki fè pati yon kategori ki sanble kode nan paj ki sanble. Nan HTML analize, yon pwogram jeneralman detekte tankou yon modèl nan yon sous patikilye nan enfòmasyon, rekupèr sa li yo ak Lè sa a, tradui l 'nan yon fòm afilye, refere yo kòm yon pakè.

5. DOM analize

Nan teknik sa a, yon pwogram embed nan yon navigatè entènèt plen véritable tankou Mozilla Firefox oswa Internet Explorer la rekipere kontni dinamik ki te pwodwi pa script-bò script la. Navigatè sa yo ka tou parese paj wèb nan yon pye bwa DOM depann sou pwogram yo ki ka ekstrè pati nan paj sa yo.

6. Semantik Anons Rekonesans

Paj yo ou gen entansyon pou grate ka anbrase makiyaj semantik ak anotasyon oswa metadata, ki ka itilize pou jwenn spesifik done espesifik yo. Si sa yo anonim yo entegre nan paj sa yo, yo ka wè teknik sa a kòm yon ka espesyal nan analyse dom. Anons sa yo ka òganize tou nan yon kouch sentaktik, ak Lè sa a, ki estoke ak jere separeman nan paj wèb yo. Li pèmèt grafon rekipere done schema kòm byen ke kòmandman soti nan kouch sa a anvan li rèspèkte paj yo.

December 6, 2017
Web grate ak Ekspè Semalt
Reply