Python encoding 였λ₯˜ ν•΄κ²°

json ν˜•νƒœμ˜ 둜그 νŒŒμΌμ„ 파이썬으둜 ETL μž‘μ—…μ„ ν•˜λ˜ 도쀑 νŠΉμ • νŒŒμΌμ—μ„œ 인코딩 였λ₯˜κ°€ λ°œμƒν•˜μ—¬ μŠ€ν¬λ¦½νŠΈκ°€ λ™μž‘ μ•ˆν•˜λŠ” 문제 λ°œμƒ

μˆ˜λ™μœΌλ‘œ λ©”λͺ¨μž₯μ΄λ‚˜ λ‹€λ₯Έ λ…ΈνŠΈνŒ¨λ“œλ₯˜ ν”„λ‘œκ·Έλž¨μ„ μ΄μš©ν•˜μ—¬ κ°•μ œλ‘œ utf-8둜 μ €μž₯을 ν•˜λ©΄ λ¬Έμ œλŠ” ν•΄κ²° λ˜μ§€λ§Œ μˆ˜μ‹­κ°œμ˜ νŒŒμΌμ„ 일일이 ν™•μΈν•˜κΈ°μ—λŠ” λ¬Έμ œκ°€ μžˆλŠ” 상황

UTF-8 인코딩이 μ•„λ‹Œ λ‹€λ₯Έ μΈμ½”λ”©μœΌλ‘œ λ˜μ–΄μžˆλŠ”μ§€ 확인을 ν•˜κΈ° μœ„ν•΄ python libraray인 CharDet을 μ΄μš©ν•˜μ—¬ 문자 셋을 확인해 보렀고 ν–ˆμ§€λ§Œ κ²€μΆœμ„ λͺ»ν•˜λŠ” 상황

CharDet에 λŒ€ν•œ μžμ„Έν•œ μ •λ³΄λŠ” μ•„λž˜ λ§ν¬μ—μ„œ 확인–

https://pypi.org/project/chardet/

λŒ€λž΅ μ΄λŸ°μ‹μœΌλ‘œ μ‚¬μš©..

κ²°κ΅­ λ‹€μ‹œ 검색을 ν•˜λ‹€λ³΄λ‹ˆ open μ˜΅μ…˜μ—μ„œ 섀정을 ν•  수 μžˆλ„€…

μ—λŸ¬λ‚˜λŠ” 뢀뢄을 λ¬΄μ‹œν•˜κ³  인코딩을 진행..

μ΄λ ‡κ²Œ open μ˜΅μ…˜μ— errors=’ignore’λ₯Ό λ„£μ–΄μ£Όλ©΄ μ—λŸ¬λ‚˜λŠ” 문자만 λ¬΄μ‹œν•˜κ³  인코딩을 ν•΄μ€€λ‹€.

이제 λ…Έκ°€λ‹€ μˆ˜μž‘μ—…μ€ μ•ˆν•΄λ„ 될듯…