有一个文件夹里有大概1000个文件。我有以下的Python语句调用后出现下面的错误。应该是涉及到特殊字符的问题，我试了其他的方法，都不能解决问题。 - DataSciences版 - 未名存档

本页内容为未名空间相应帖子的节选和存档，一周内的贴子最多显示50字，超过一周显示500字访问原贴

DataSciences版 - 有一个文件夹里有大概1000个文件。我有以下的Python语句调用后出现下面的错误。应该是涉及到特殊字符的问题，我试了其他的方法，都不能解决问题。

相关主题
● 问个R的问题	● ［内推］data scientist/machine learing
● UCLA七月初useR conference	● Free Session: Big Data Real User Case in Financing
● 在R里merge两个dataframe太慢了	● 特征工程简介
● irregular time series	● predict的时候对于test data，要不要standardized？
● 求问Facebook的data scientist ETL interview (转载)	● 各位ds们是如何利用user story， use case来指导自己的工作的？
● 新手求问spark	● 请问FB的data scientist职位onsite面试里面的ETL是怎么考的？
● 有没有在bank做big data的	● R user interactive的问题
● 请教一个面试题（已跪）	● 有一个文件夹里有大概1000个文件。我有以下的Python语句调用后(转载)

相关话题的讨论汇总
话题: file话题: dir话题: users话题: line话题: decode

进入DataSciences版参与讨论

1

(共1页)

m**********r 发帖数: 122	1 有一个文件夹里有大概1000个文件。我有以下的Python语句调用后出现下面的错误。应该是涉及到特殊字符的问题，我试了其他的方法，都不能解决问题。 DIR = 'C:\Users\Desktop\data\rec.sport.hockey' posts = [open(os.path.join(DIR,f)).read() for f in os.listdir(DIR)] x_train = vectorizer.fit_transform(posts) UnicodeDecodeError: 'utf8' codec can't decode byte 0x80 in position 240: invalid start byte Traceback (most recent call last): File "C:/Users/PycharmProjects/Project3/demo10.py", line 16, in x_train = vectorizer.fit_transform(posts) File "C:UsersAppDataRoamingPythonPython27site-packagessklearnfeature_ extractiontext.py", line 804, in fit_transform self.fixed_vocabulary_) File "C:UsersAppDataRoamingPythonPython27site-packagessklearnfeature_ extractiontext.py", line 739, in _count_vocab for feature in analyze(doc): File "C:UsersAppDataRoamingPythonPython27site-packagessklearnfeature_ extractiontext.py", line 236, in tokenize(preprocess(self.decode(doc))), stop_words) File "C:UsersAppDataRoamingPythonPython27site-packagessklearnfeature_ extractiontext.py", line 113, in decode doc = doc.decode(self.encoding, self.decode_error) File "C:Python27libencodingsutf_8.py", line 16, in decode return codecs.utf_8_decode(input, errors, True) UnicodeDecodeError: 'utf8' codec can't decode byte 0x80 in position 240: invalid start byte DIR = 'C:\Users\Desktop\data\rec.sport.hockey' posts = [codecs.open(os.path.join(DIR,f),'r','utf-8') for f in os.listdir( DIR)] x_train = vectorizer.fit_transform(posts) Traceback (most recent call last): File "C:/Users/PycharmProjects/Project3/demo10.py", line 15, in posts = [codecs.open(os.path.join(DIR,f),'r','utf-8') for f in os. listdir(DIR)] File "C:Python27libcodecs.py", line 878, in open file = __builtin__.open(filename, mode, buffering) IOError: [Errno 24] Too many open files: 'C:\Users\Desktop\data\rec.sport. hockey\53909'
Y****a 发帖数: 243	2 我不确定，只是几个建议试试UTF-16呢? 看看你的路径里是不是少了一个／ file打开用完之后及时关上
h*********d 发帖数: 109	3 【在 m**********r 的大作中提到】 : 有一个文件夹里有大概1000个文件。我有以下的Python语句调用后出现下面的错误。应 : 该是涉及到特殊字符的问题，我试了其他的方法，都不能解决问题。 : DIR = 'C:\Users\Desktop\data\rec.sport.hockey' : posts = [open(os.path.join(DIR,f)).read() for f in os.listdir(DIR)] : x_train = vectorizer.fit_transform(posts) : UnicodeDecodeError: 'utf8' codec can't decode byte 0x80 in position 240: : invalid start byte : Traceback (most recent call last): : File "C:/Users/PycharmProjects/Project3/demo10.py", line 16, in : x_train = vectorizer.fit_transform(posts)
b******g 发帖数: 88	4 取决于设计，出现特殊字符的文件多少以及是否重要，要不然就encode，要不然就忽略异常 except UnicodeDecodeError:

1

(共1页)

进入DataSciences版参与讨论

相关主题
● 有一个文件夹里有大概1000个文件。我有以下的Python语句调用后(转载)	● 求问Facebook的data scientist ETL interview (转载)
● 超级新手，求助 python pandas 和pandas_DataReader	● 新手求问spark
● 问一道Google的题	● 有没有在bank做big data的
● python question, easy one	● 请教一个面试题（已跪）
● 问个R的问题	● ［内推］data scientist/machine learing
● UCLA七月初useR conference	● Free Session: Big Data Real User Case in Financing
● 在R里merge两个dataframe太慢了	● 特征工程简介
● irregular time series	● predict的时候对于test data，要不要standardized？

相关话题的讨论汇总
话题: file话题: dir话题: users话题: line话题: decode

未名新帖统计// 7月16日

#	版面	帖数(主题数)
-	全站	4871 (796)
1	Military	3777 (569)
2	Stock	341 (51)
3	Joke	117 (17)
4	History	116 (3)
5	Automobile	100 (9)
6	USANews	55 (9)
7	Midlife	45 (1)
8	Headline	41 (41)
9	Dreamer	33 (13)
10	FleaMarket	32 (20)
11	Living	30 (7)

* 这里只显示发帖超过25的版面，努力灌水吧:-)