Input är två kolumner från en data frame eller liknande.
Problemet är att det i col1 kan finnas items som motsvaras av olika översättningar i col2
Man får tillbaka alla items som har mer än en motsvarighet i col2
def duplicate_translations (col1, col2): dub_list = zip(col1, col2) orDict = defaultdict(list) for key, val in dub_list: orDict[key].append(val) rensat = {key:set(value) for (key,value) in orDict.items() if len(set(value))>1} return rensat
Obs defaultdict(list) som gör att man kan ha ett dict med en lista av värden.
Och att zip blir en tuple som man anger som (key, value) i dict comprehension längre ner.
Comments
You can follow this conversation by subscribing to the comment feed for this post.