§ Sourcing & automatisering

Sätt upp deduplicering så samma artikel inte dyker upp två gånger

Flera RSS-flöden rapporterar samma nyhet. Eller en källa skickar samma artikel två gånger av misstag. Dedupe-systemet förhindrar dubbletter i Inkorgen.

AdminAvancerad4 min läsning

Uppdaterad idag

Det vanligaste irritationsmomentet i en automatiserad nyhetspipeline: samma nyhet dyker upp 3-4 gånger i Inkorgen från olika källor. Deduplicering löser det — Ahody känner igen att två artiklar handlar om samma sak och visar bara en.

§ Skärmdump Bevakningar
Bevakningar

  1. Hur dedupe fungerar

    Ahody jämför inkommande artiklar mot senaste 48-72 timmarna av redan-mottagna och bedömer dubblett baserat på:

    1. URL-match — exakt samma länk → 100% dubblett
    2. Rubrik-match — nästan identisk rubrik → sannolik dubblett
    3. Innehållssemantik — vektorjämförelse av brödtext → om mycket lika

    Om dubblett: artikeln hoppas över (skippad i loggen).

  2. Konfigurera dedupe-strikthet

    Som admin: Konto → Inställningar → Pipeline → Deduplicering.

    Tre nivåer typiskt:

    • Strikt — bara exakta URL-matchningar räknas som dubbletter. Risk: missar att två RSS:er rapporterar samma sak under olika URL:er.
    • Normal (default) — URL + rubrik-likhet. Bra balans.
    • Aggressiv — URL + rubrik + semantisk likhet. Risk: filtrerar bort liknande men inte identiska artiklar (t.ex. två versioner av samma händelse från olika vinklar).
  3. Dedupe per källa eller globalt

    • Global dedupe — jämför mellan alla källor. T.ex. TT-flödet och DN:s RSS som båda rapporterar samma minister-uttalande.
    • Per-källa dedupe — jämför bara inom samma källa. Skyddar mot att en buggad RSS skickar samma artikel flera gånger.

    Vanligast: global för rubrik-match, per-källa för URL-match.

  4. Tidsfönster för jämförelse

    Hur långt bakåt ska Ahody titta?

    • 24 timmar — för dagliga nyheter
    • 48-72 timmar — för bredare bevakning
    • 7 dagar — om ni har långsamma källor (veckotidningar)

    Längre fönster = bättre dedupe, mer beräkning.

  5. Whitelist: viktiga händelser ska få dubletter

    Vissa events vill ni ha multiple coverage av — typ valnatten 2026 där flera vinklar är värdefulla.

    Whitelist:

    • Lägg in nyckelord (typ "valresultat") där dedupe ska stängas av
    • Eller per källa — markera vissa källor som "skipp dedupe alltid"
  6. Granska dedupe-actions

    I sourcing-loggar visas vilka artiklar som skippades pga dedupe:

    "Skipped: duplicate of article ID 12345 (TT, kl. 14:23)"

    Granska regelbundet — för många dedupes = för aggressiv. För få = inte strikt nog.

  7. Manuellt markera dubblett

    I Inkorgen, om du manuellt ser två artiklar om samma sak:

    1. Markera den ena
    2. Klicka "Markera som dubblett" → välj den kanoniska versionen
    3. Ahody lär sig — dedupe-algoritmen får mer träningsdata

    Vissa konfigurationer låter dig slå ihop två artiklar till en med kombinerat innehåll.

  8. Felsökning

    "Vi får 3-4 dubbletter av allt":

    • Dedupe är förmodligen avstängd eller på Strikt. Höj till Normal.

    "Vissa nyheter försvinner helt — dedupe är för aggressiv":

    • Sänk från Aggressiv → Normal. Eller utöka whitelist.

    "Dedupe missar uppenbara dubbletter":

    • Källornas rubriker är förmodligen för olika. Höj till Aggressiv med semantik aktiverad.

Om du fastnar

  • "Inställningarna 'Deduplicering' finns inte" — Funktionen kan vara avstängd för ert företag. Be admin/support aktivera.
  • "Dedupe fungerar mellan vissa källor men inte andra" — Vissa källor kan vara whitelistade. Kontrollera per-källa-inställningar.
  • "Inkorgen är fortfarande full av dubbletter trots aggressiv dedupe" — Källornas content kan vara för olika rent text-mässigt (omskrivet av andra journalister). Manuell triage återstår.