Python处理json格式的数据文件（一些坑、一些疑惑） - seven_clear

这里主要说最近遇到的一个问题，不过目前只是换了一种思路先解决了，脑子里仍然有疑惑，只能怪自己太菜。

最近要把以前爬的数据用一下了，先简单的过滤一下，以前用scrapy存数据的时候为了省事也为了用一下它的item exporter，将数据持久化，用了jsonlinesitemexporter，并且导出到一个json文件（现在我有点后悔）。当我读文件，遍历每行，json.loads每行时，没错，惊喜出现了。

def cf_movie():
    with open('movies.json', 'r') as fp:
        for l in fp:
            mj = json.loads(l)
            wstr = mj['name']
            f.write(wstr.encode('utf-8'))
        print 'done'

ValueError: Expecting property name: line 1 column 137 (char 136)

当时就蒙了，难道我导出去json格式，再用json来loads就不行了？不能说我打开文件方式不对吧，而且遍历方式以前一直在用，错误出在loads那里。其实我是有点较真的，导出的文件有TXT格式的，我拿一个试了试，一点错没有。Google百度了一大堆，都是说字符串格式问题，不过这不是我的错，我导出的就是json格式，所以格式不会有错，而且我还专门确认了一下。我表示不服，不过没道理的呀，我试着一行一行读（试几行），可以loads没错。我甚至把遍历文件的三种方式都试了一遍，仍然报错。突然想到当初看scrapy文档时，有讲到json处理大文件不方便，难道是因为我文件是json的问题？我换了一个小的json文件，果然没问题。现在基本确定是json文件大小的问题，不过Python得json模块里没说这个问题。但数据还是要过滤的，我试了一下，我的json文件有大概2万行，设一个flag测读多少行，最高设到8000,9000就报错，然后8500页报错，所以8000是可以的。这样就有一个思路，将文件分解为多个不报错的小文件，然后再解析、过滤。不过我的测试文件才2M左右，我还有400多M的，这样岂不是很刚。想了想我决定先不用这种思路，想到了以前学Python基础的时候无意看到一个函数eval，将字符串转为字典，我的字符串符合字典格式（肯定的），所以我决定用这种方式，目前很流畅，不过前提是你的字符串格式要对。

不过我目前还是没懂为什么loads会报错，用TXT格式文件却不报错，经历了从有想法到放弃，心有疑惑。

posted on 2016-10-26 09:55 seven_clear 阅读(13020) 评论(0) 收藏举报

刷新页面返回顶部