由买买提看人间百态

boards

本页内容为未名空间相应帖子的节选和存档,一周内的贴子最多显示50字,超过一周显示500字 访问原贴
DataSciences版 - 请教一个Big Data/Analysis 方面的设计问题
相关主题
请教各位DS大拿data science Master, 美国哪个大学好?
Some thoughts on data science and data scientists做个调查了解一下,有公司用HP Vertica 和 Hana 这些 data base的么?
有没有在bank做big data的data scientist position
新人工作无经验之 能源Vs医院 选择 (data analysis)能解决这个问题的才是真正的数据科学家
怎么学marketing 的data analysis?OCR job from recruiter - it is interesting but I can't do it, yet
求书提供Uber内推
data science的另一面(update)DS需要会的手艺 真不少
Text AnalyticsPig UDF written in Python
相关话题的讨论汇总
话题: big话题: data话题: analysis话题: date话题: ocr
进入DataSciences版参与讨论
1 (共1页)
s*******s
发帖数: 162
1
本人在大数据方面是个小白, 公司里也没有人懂大数据, 所以想请各位大牛分析
一下我一个设想的可行性:
公司里积累了很多scanned image files,内容大致差不多但没有统一的格式。 比如
十几年内从上百个不同的供应商拿到的各种收据: 格式完全不一样但都包含着一些相
似的内容 (像日期,地址和总数额)
目前的想法是把图片上所有的数据全部 OCR成 JSON或 XML 格式, 然后把这些
unstructured data扔到一个Big Data系统里, 最后再找个人做分析。 目前担心是每
一个表格上都有很多无关内容, 如果储存前不些做处理的话后期会很难分析。 (比
如说日期: 有些叫 Invoice Date, 有些只有 Shipping Date, 也有可能会有好个几
不同的日期出现在一张收据里 )
想请教一下设计上思路,怎么储存数据更适合后期分析。 也求建议一些好用的工
具/软件(比如说OCR)
d****n
发帖数: 12461
2
有了json就会容易一点。但是怎么ocr成json?这个好像是世界难题。
内容大致差不多就比较简单。分析一下json里面哪些key比较多,那就是重要的。例如
invoice date,有些可能叫receipt date,有些叫purchase date,等等,然后你决定
到底这些是不是一个东西,然后确定一个canonical的名称,然后就可以统一化成结构
化的数据了。当然纠错也要花很久。
基本上这两个工作就可以占据你数据分析90%的时间了。这两部做完了后面都是小菜一
碟。
1 (共1页)
进入DataSciences版参与讨论
相关主题
Pig UDF written in Python怎么学marketing 的data analysis?
板上R高手多,包子求R数据输出到CSV方法求书
诚心请教Spark EMR配置data science的另一面(update)
免费讲座: JSON in SQL2016 (转载)Text Analytics
请教各位DS大拿data science Master, 美国哪个大学好?
Some thoughts on data science and data scientists做个调查了解一下,有公司用HP Vertica 和 Hana 这些 data base的么?
有没有在bank做big data的data scientist position
新人工作无经验之 能源Vs医院 选择 (data analysis)能解决这个问题的才是真正的数据科学家
相关话题的讨论汇总
话题: big话题: data话题: analysis话题: date话题: ocr