R语言 UTF-8各种问题的解决方案

时间：2021-05-20

R语言在碰到读UTF-8文件，或者处理UTF-8数据时总是会遇到各种各样的问题，本姑娘也是在碰了n多次壁，被气得吐血好多次之后，终于对这类总结出了一些解决办法：

1. 读UTF-8文件，例如UTF-8格式的csv：

最好的处理办法就是：

a1=read.table('C:\\test11.csv',sep=',',fileEncoding = 'UTF-8',header = F)

如果使用如下方法可能会出错（全是血泪教训啊）：

a2=read.csv('C:\\test11.csv',fileEncoding = 'UTF-8',header = F)a2=read.csv('C:\\test11.csv',encoding = 'UTF-8',header = F)

2. 如何在R里把一个数据转化为UTF-8格式：

因为我在R里写了一段程序，需要把数据转化为JSON格式，通过上面的方法读进来的数据是没有问题，但是数据再R里并不是utf-8格式存储的，所以toJSON()时报了如下错误：

unable to escape string. String is not utf8

后来发现R里有一个函数可以把数据转为utf8格式：enc2utf8()

> a='小源'> Encoding(a)#查看a的编码格式[1] "unknown"> b=enc2utf8(a)> Encoding(b)[1] "UTF-8"

3. 如何SOURCE一个UTF-8格式的R文件：

source一个utf8编码保存的R脚本，在windows下（linux由于默认编码就是utf8，直接source就可以）

source('test.R',encoding = 'UTF-8')

补充：mac系统csv乱码_R语言写入UTF-8格式CSV乱码解决办法

中文编码方式有GBK(GB2312)和UTF-8两种。

由于区域设置问题，在Windows系统下，Excel程序默认用GBK格式读取CSV文件。

因此会导致乱码。

如下图所示：

解决的办法是用tidyverse包中的write_excel_csv()函数。

下面上代码：

library(tidyverse)x <- c('好好地', '针对是棒极啦', '哈好好好好好爱吼吼吼啊', '啊')y <- c(1, 2, 3, 4)z <- c('haha', 'hehe', 'hoho', 'lala')xyz_tbl <- tibble(x,y,z) read_csv(file = 'data1.csv', )#乱码write.csv(xyz_tbl,'data_old.csv',row.names = T,fileEncoding='UTF-8')#再次乱码write_csv(xyz_tbl, 'data.csv')#解决问题write_excel_csv(xyz_tbl, 'data_ex.csv')#以上文件用R读取都没问题read_csv(file = 'data.csv')read_csv(file = 'data_ex.csv')read_csv(file = 'data_old.csv')

原数据

data.csv

data_ex.csv

data_old.csv

以上为个人经验，希望能给大家一个参考，也希望大家多多支持。如有错误或未考虑完全的地方，望不吝赐教。

R语言 UTF-8各种问题的解决方案

1. 读UTF-8文件，例如UTF-8格式的csv：

2. 如何在R里把一个数据转化为UTF-8格式：

3. 如何SOURCE一个UTF-8格式的R文件：

下面上代码：

相关文章

解决Pyinstaller打包为可执行文件编码错误的问题

解决Tomcat修改get提交请求乱码问题

Go语言中多字节字符的处理方法详解

Ajax，UTF-8还是GB2312 eval 还是execScript

设置mysql5.7编码集为utf8mb4的方法