§ Sourcing & automatisering
Sätt upp deduplicering så samma artikel inte dyker upp två gånger
Flera RSS-flöden rapporterar samma nyhet. Eller en källa skickar samma artikel två gånger av misstag. Dedupe-systemet förhindrar dubbletter i Inkorgen.
Uppdaterad idag
Det vanligaste irritationsmomentet i en automatiserad nyhetspipeline: samma nyhet dyker upp 3-4 gånger i Inkorgen från olika källor. Deduplicering löser det — Ahody känner igen att två artiklar handlar om samma sak och visar bara en.
Hur dedupe fungerar
Ahody jämför inkommande artiklar mot senaste 48-72 timmarna av redan-mottagna och bedömer dubblett baserat på:
- URL-match — exakt samma länk → 100% dubblett
- Rubrik-match — nästan identisk rubrik → sannolik dubblett
- Innehållssemantik — vektorjämförelse av brödtext → om mycket lika
Om dubblett: artikeln hoppas över (skippad i loggen).
Konfigurera dedupe-strikthet
Som admin: Konto → Inställningar → Pipeline → Deduplicering.
Tre nivåer typiskt:
- Strikt — bara exakta URL-matchningar räknas som dubbletter. Risk: missar att två RSS:er rapporterar samma sak under olika URL:er.
- Normal (default) — URL + rubrik-likhet. Bra balans.
- Aggressiv — URL + rubrik + semantisk likhet. Risk: filtrerar bort liknande men inte identiska artiklar (t.ex. två versioner av samma händelse från olika vinklar).
Dedupe per källa eller globalt
- Global dedupe — jämför mellan alla källor. T.ex. TT-flödet och DN:s RSS som båda rapporterar samma minister-uttalande.
- Per-källa dedupe — jämför bara inom samma källa. Skyddar mot att en buggad RSS skickar samma artikel flera gånger.
Vanligast: global för rubrik-match, per-källa för URL-match.
Tidsfönster för jämförelse
Hur långt bakåt ska Ahody titta?
- 24 timmar — för dagliga nyheter
- 48-72 timmar — för bredare bevakning
- 7 dagar — om ni har långsamma källor (veckotidningar)
Längre fönster = bättre dedupe, mer beräkning.
Whitelist: viktiga händelser ska få dubletter
Vissa events vill ni ha multiple coverage av — typ valnatten 2026 där flera vinklar är värdefulla.
Whitelist:
- Lägg in nyckelord (typ "valresultat") där dedupe ska stängas av
- Eller per källa — markera vissa källor som "skipp dedupe alltid"
Granska dedupe-actions
I sourcing-loggar visas vilka artiklar som skippades pga dedupe:
"Skipped: duplicate of article ID 12345 (TT, kl. 14:23)"
Granska regelbundet — för många dedupes = för aggressiv. För få = inte strikt nog.
Manuellt markera dubblett
I Inkorgen, om du manuellt ser två artiklar om samma sak:
- Markera den ena
- Klicka "Markera som dubblett" → välj den kanoniska versionen
- Ahody lär sig — dedupe-algoritmen får mer träningsdata
Vissa konfigurationer låter dig slå ihop två artiklar till en med kombinerat innehåll.
Felsökning
"Vi får 3-4 dubbletter av allt":
- Dedupe är förmodligen avstängd eller på Strikt. Höj till Normal.
"Vissa nyheter försvinner helt — dedupe är för aggressiv":
- Sänk från Aggressiv → Normal. Eller utöka whitelist.
"Dedupe missar uppenbara dubbletter":
- Källornas rubriker är förmodligen för olika. Höj till Aggressiv med semantik aktiverad.
Om du fastnar
- "Inställningarna 'Deduplicering' finns inte" — Funktionen kan vara avstängd för ert företag. Be admin/support aktivera.
- "Dedupe fungerar mellan vissa källor men inte andra" — Vissa källor kan vara whitelistade. Kontrollera per-källa-inställningar.
- "Inkorgen är fortfarande full av dubbletter trots aggressiv dedupe" — Källornas content kan vara för olika rent text-mässigt (omskrivet av andra journalister). Manuell triage återstår.