정규표현식 - r 특수문자 인식



특수 문자 처리(예:R의 악센트) (3)

데이터 프레임에 이름을 몇 가지 웹 스크랩하는 중입니다.

"Tomáš Rosický과 같은 이름의 경우 결과가"Tomá¡ Rosický "

나는 노력했다.

Encoding("Tomáš Rosický") #  with latin1 response

악센트가있는 원래 이름을 얻기 위해 그곳에서 어디로 가야할지 확실하지 않았습니다. 성공없이 iconv로 놀아났다.

나는 "Tomas Rosicky"의 결과물을 만족하고 (심지어 더 좋아할 수도있다)


UTF-8로 인코딩 된 페이지를 읽었습니다. x 가 이름 열이면 Encoding(x) <- "UTF-8" .


악센트를 올바르게 내보내는 방법은 다음과 같습니다.

enc2utf8(as(dataframe$columnname, "character"))

파일을 올바르게 읽으려면 스캔 기능을 사용하십시오.

namb <- scan(file='g:/testcodering.txt', fileEncoding='UTF-8',
what=character(), sep='\n', allowEscapes=T)
cat(namb)

이것은 또한 작동합니다 :

namc <- readLines(con <- file('g:/testcodering.txt', "r",
encoding='UTF-8')); close(con)
cat(namc)

올바른 악센트로 파일을 읽습니다.





character