Annonse
Er du tro på ideen om at når noe er publisert på Internett, så er det publisert for alltid? Vel, i dag skal vi fjerne den myten.
Sannheten er at det i mange tilfeller er fullt mulig å utrydde informasjon fra Internett. Jada, det er en oversikt over websider som er blitt slettet hvis du søker på Wayback-maskin, Ikke sant? Jøss, absolutt. På Wayback Machine er det poster av nettsider som går tilbake mange år - sider som du ikke finner med et Google-søk fordi websiden ikke lenger eksisterer. Noen slettet det, eller nettstedet ble lagt ned.
Så det er ikke noe å komme seg rundt det, ikke sant? Informasjon vil for alltid være inngravert i steinen på Internett, der i generasjoner å se? Vel, ikke akkurat.
Sannheten er at selv om det kan være vanskelig eller umulig å utslette store nyhetshistorier som har spredd seg fra et nyhetsnettsted eller blogg til et annet som et virus, det er faktisk ganske enkelt å utrydde en webside eller flere websider fra alle eksistensoppføringer - for å fjerne den siden for både søkemotorer og de
Wayback-maskin Den nye Wayback-maskinen lar deg visuelt reise tilbake i Internett-tidDet ser ut til at siden Wayback Machine-lanseringen i 2001, har eierne av nettstedet bestemt seg for å kaste ut den Alexa-baserte bakenden og redesigne den med sin egen åpen kildekode. Etter å ha gjennomført tester med ... Les mer . Det er selvfølgelig fangst, men vi kommer til det.3 måter å fjerne bloggsider fra nettet
Den første metoden er den som flertallet av eiere av nettsteder bruker, fordi de ikke vet noe bedre - bare å slette websider. Dette kan skje fordi du har innsett at du har duplisert innhold på nettstedet ditt, eller fordi du har en side som du ikke vil vise i søkeresultatene.
Bare slett siden
Problemet med å slette sider fra nettstedet ditt er at siden du allerede har opprettet siden på siden netto, det er sannsynligvis koblinger fra ditt eget nettsted i tillegg til eksterne lenker fra andre nettsteder til det aktuelle side. Når du sletter den, gjenkjenner Google umiddelbart den siden din som en manglende side.
Så når du sletter siden din, har du ikke bare opprettet et problem med "Ikke funnet" gjennomsøkingsfeil for deg selv, men du har også opprettet et problem for alle som noen gang har lenket til siden. Vanligvis vil brukere som kommer til nettstedet ditt fra en av disse eksterne koblingene, se 404-siden din, som ikke er en hovedproblemet, hvis du bruker noe som Googles tilpassede 404-kode for å gi brukerne nyttige forslag eller alternativer. Men du skulle tro at det kan være mer grasiøse måter å slette sider fra søkeresultatene uten å sparke av alle de 404-ene for eksisterende innkommende lenker, ikke sant?
Det er det.
Fjern en side fra Googles søkeresultater
Først av alt, bør du forstå at hvis websiden du vil fjerne fra Googles søkeresultater ikke er en side fra ditt eget nettsted, så er du heldig, med mindre det er juridiske grunner, eller hvis nettstedet har lagt ut din personlige informasjon på nettet uten tillatelse. Hvis det er tilfelle, så bruk Googles feilsøking for fjerning å sende en forespørsel om å få siden fjernet fra søkeresultatene. Hvis du har en gyldig sak, kan det hende at du får suksess med å fjerne siden - selvfølgelig kan du ha enda større suksess kontakte nettstedets eier Slik fjerner du falske personlige opplysninger på InternettOnline-personvern er ikke garantert lenger. Lær hvordan du rapporterer et nettsted og fjerner personlig informasjon fra Internett. Les mer som jeg beskrev hvordan du gjør det tilbake i 2009.
Hvis siden du vil fjerne fra søkeresultatene er på ditt eget nettsted, er du heldig. Alt du trenger å gjøre er å lage en robots.txt arkiver og sørg for at du ikke har tillatt enten den bestemte siden du ikke vil ha i søkeresultatene, eller hele katalogen med innholdet du ikke vil indeksere. Slik ser blokkering av en enkelt side ut.
Bruker agent: * Disallow: /my-deleted-article-that-i-want-removed.html
Du kan blokkere roboter fra å gjennomsøke hele katalogene på nettstedet ditt på følgende måte.
Bruker agent: * Disallow: / content-about-personal-stuff /
Google har en utmerket støtteside som kan hjelpe deg med å opprette en robots.txt-fil hvis du aldri har opprettet en før. Dette fungerer ekstremt bra, som jeg nylig forklarte i en artikkel om strukturering av syndikering avtaler Hvordan forhandle om syndikeringstilbud og beskytte søkerangeringene dineSyndicating er alt raser i disse dager. Men plutselig kunne du oppdage at syndikasjonspartneren er listet høyere enn deg i søkeresultatene etter en historie som du opprinnelig skrev! Beskytt søkerangeringene dine. Les mer slik at de ikke skader deg (ber syndikasjonspartnere om å ikke tillate indeksering av sidene der du er syndikert). Når min egen syndikasjonspartner gikk med på å gjøre dette, forsvant sidene som ble duplisert innhold fra bloggen min helt fra søkeoppføringer.
Bare hovednettstedet kommer opp på tredjeplass for siden der de viser tittelen vår, men bloggen min er nå oppført på både første og andre plassering; noe som ville vært nesten umulig hadde et nettsted med høyere autoritet forlatt den dupliserte siden indeksert.
Det mange ikke er klar over er at dette også er mulig å oppnå med Internet Archive (Wayback Machine). Her er linjene du trenger å legge til i robots.txt-filen for å få det til.
Bruker-agent: ia_archiver. Avvis: / sample-kategori /
I dette eksemplet ber jeg Internett-arkivet om å fjerne noe i underkatalogen for eksempler på kategorien på nettstedet mitt fra Wayback Machine. Internetarkivet forklarer hvordan du gjør dette på hjelpesiden for ekskludering. Det er også her de forklarer at "Internet Archive er ikke interessert i å tilby tilgang til nettsteder eller andre internettdokumenter hvis forfattere ikke vil ha sitt materiale i samlingen."
Dette flyr i strid med den vanlige troen på at alt som er lagt ut på Internett blir feid inn i arkivet i all evighet. Nope - webansvarlige som eier innholdet, kan spesifikt fjerne innholdet fra arkivet ved å bruke robots.txt-tilnærmingen.
Fjern en individuell side med metatagger
Hvis du bare har noen få individuelle sider som du vil fjerne fra Googles søkeresultater, trenger du faktisk ikke å bruke robots.txt-tilnærmingen i det hele tatt kan du ganske enkelt legge til riktig “robot” -metakode på de enkelte sidene, og fortelle robotene om ikke å indeksere eller følge koblinger på hele side.
Du kan bruke metoden "roboter" ovenfor for å hindre at roboter indekserer siden, eller du kan spesifikt fortelle det til Google-roboten ikke å indeksere, slik at siden bare fjernes fra Googles søkeresultater, og andre søkroboter kan fremdeles få tilgang til siden innhold.
Det er helt opp til deg hvordan du vil administrere hva roboter gjør med siden, og om siden blir oppført eller ikke. For bare noen få individuelle sider kan dette være den bedre tilnærmingen. Gå til robots.txt-metoden for å fjerne en hel katalog med innhold.
Ideen om å "fjerne" innhold
Denne typen snur hele forestillingen om å "slette innhold fra Internett" på hodet. Teknisk sett, hvis du fjerner alle dine egne lenker til en side på nettstedet ditt, og du fjerner det fra Google Søk og Internettarkiv ved bruk av robots.txt-teknikken, siden er for enhver smak "slettet" fra Internett. Det kule er imidlertid at hvis det finnes eksisterende lenker til siden, vil koblingene fortsatt fungere, og du vil ikke utløse 404 feil for de besøkende.
Det er en mer "skånsom" tilnærming for å fjerne innhold fra Internett uten å rote til nettstedets eksisterende lenke-popularitet på Internett. Til slutt, hvordan du arbeider med å håndtere hvilket innhold som blir samlet inn av søkemotorer og Internet Archive er opp til deg, men alltid husk at til tross for hva folk sier om levetiden til ting som blir lagt ut på nettet, er det virkelig innenfor ditt kontroll.
Ryan har en BSc-grad i elektroteknikk. Han har jobbet 13 år innen automatisering, 5 år innen IT, og er nå en applikasjonsingeniør. Han var tidligere administrerende redaktør for MakeUseOf, han snakket på nasjonale konferanser om datavisualisering og har blitt omtalt på nasjonal TV og radio.