Însemnări etichetate cu ‘tips’

Cineva te fură prin scrape. Ce faci?

Wednesday, October 20th, 2010

Ce este scraping?

Web scraping (also called Web harvesting or Web data extraction) is a computer software technique of extracting information from websites. (via Wikipedia)

Raclare Web (numit și Recoltare web sau Extragerea datelor de pe web) este o tehnică de software pe calculator prin care se extrag informaţii de pe site-uri web.

Cum funcționează?

Descriere populară: E furt obraznic și ilegal!

Descriere tehnică: E php curl (transfer de date prin diferite protocoale), softul e setat cu url către rss, de acolo se iau link-urile (adresele spre articole/conținut), se extrage, se face follow location pe ele și intră în site. Apoi face regex (regular expression checking) după anumite elemente html, se extrage conținutul, se face clean la el (se curăță) și strip_tags după care se introduce în baza de date a hoților/scraperilor.

Continuare »