由买买提看人间百态

boards

本页内容为未名空间相应帖子的节选和存档,一周内的贴子最多显示50字,超过一周显示500字 访问原贴
JobHunting版 - 今天写了个比较effecient XML parser
相关主题
两个面试ST和HU店面
=== 2 Java Developer Openings (Bay Area Only) ===你们遇到过限时做project的面试吗
=== Startup Job Opening: Java Developer ===发两个软件组的面试题
转一个Employment oppotunity for Jr .Net developer这道雅虎的面试题绝了,有谁会做吗
Java developer or .Net devleloper Opportunites at Citi本组招人 提供内推 有意者私信给我
学什么语言的问题(java/c/c++/python/php/ruby)其实很简单给还在找工作的XDJM们打气!(附MS面试建议)
求问大牛json parser的问题怎么提高BST traversal efficiency?
被问到一道题: how to design a xml parser.有个recruiter发给我的,我用不着,看看有没有感兴趣的,直接跟recuiter联系吧
相关话题的讨论汇总
话题: xml话题: parser话题: effecient话题: 比较话题: dataframe
进入JobHunting版参与讨论
1 (共1页)
E**********e
发帖数: 1736
1
今天比较高兴, 网上搜了个比较简单的xml parser,比较efficient。 本来在real
xml file上测试了,比较满意。但是换到了experian 的xml files。 竟然有bug。 花
了一天的时间debug。最终搞定了。 总共就几个简单的functions, 用recursion。竟
然很好的解决的experina的问题。 说到这,不得不赞自己一下。 学习能力还是很厉害
的吗。IT组的一个资深软件工程师用C#编的parser,用了most brute force 的
algorithm,答应出来竟然要10多页纸。
另外,也要赞一下python。 发现用python处理 xml file,很有效。 xml转成
dictionary data structure, 然后到json,到dataframe,到mongoDB. 一下子全通了
e*******s
发帖数: 1979
2
讲讲parsing algorithm?

【在 E**********e 的大作中提到】
: 今天比较高兴, 网上搜了个比较简单的xml parser,比较efficient。 本来在real
: xml file上测试了,比较满意。但是换到了experian 的xml files。 竟然有bug。 花
: 了一天的时间debug。最终搞定了。 总共就几个简单的functions, 用recursion。竟
: 然很好的解决的experina的问题。 说到这,不得不赞自己一下。 学习能力还是很厉害
: 的吗。IT组的一个资深软件工程师用C#编的parser,用了most brute force 的
: algorithm,答应出来竟然要10多页纸。
: 另外,也要赞一下python。 发现用python处理 xml file,很有效。 xml转成
: dictionary data structure, 然后到json,到dataframe,到mongoDB. 一下子全通了
: 。

j**********r
发帖数: 3798
3
这东西难道不是有一堆开源类库,还要自己写?

【在 E**********e 的大作中提到】
: 今天比较高兴, 网上搜了个比较简单的xml parser,比较efficient。 本来在real
: xml file上测试了,比较满意。但是换到了experian 的xml files。 竟然有bug。 花
: 了一天的时间debug。最终搞定了。 总共就几个简单的functions, 用recursion。竟
: 然很好的解决的experina的问题。 说到这,不得不赞自己一下。 学习能力还是很厉害
: 的吗。IT组的一个资深软件工程师用C#编的parser,用了most brute force 的
: algorithm,答应出来竟然要10多页纸。
: 另外,也要赞一下python。 发现用python处理 xml file,很有效。 xml转成
: dictionary data structure, 然后到json,到dataframe,到mongoDB. 一下子全通了
: 。

p***r
发帖数: 4702
4
why

【在 E**********e 的大作中提到】
: 今天比较高兴, 网上搜了个比较简单的xml parser,比较efficient。 本来在real
: xml file上测试了,比较满意。但是换到了experian 的xml files。 竟然有bug。 花
: 了一天的时间debug。最终搞定了。 总共就几个简单的functions, 用recursion。竟
: 然很好的解决的experina的问题。 说到这,不得不赞自己一下。 学习能力还是很厉害
: 的吗。IT组的一个资深软件工程师用C#编的parser,用了most brute force 的
: algorithm,答应出来竟然要10多页纸。
: 另外,也要赞一下python。 发现用python处理 xml file,很有效。 xml转成
: dictionary data structure, 然后到json,到dataframe,到mongoDB. 一下子全通了
: 。

E**********e
发帖数: 1736
5
pyhton 是有开源的。
不过,要是是么都拿开源的, 自己怎么会提高? 是不是。 自己通过这个项目,很好
的明白了xml的数据结构,同时加深理解了python dictionary的数据结构。再加上
mongodb,json 数据结构。好像hive也就类似的数据结构。
而且pytyon dataframe 太赞了。 即使有的key missing, 但是最终dataframe 可以让
他们现行。很容易debug。
而且我这个比开源的要快。这是关键。 我现在能够熟练的操作xml, mongodb, sql。
这些是金融行业比较流行的数据结构。 我向data scientist 迈进了一小步。

【在 j**********r 的大作中提到】
: 这东西难道不是有一堆开源类库,还要自己写?
p***r
发帖数: 4702
6
支持xpath 之类吗?这些玩意要一做一套,或者符合iso 不然没有什么卵用。
你的xml parser 支持namespace 吗

【在 E**********e 的大作中提到】
: pyhton 是有开源的。
: 不过,要是是么都拿开源的, 自己怎么会提高? 是不是。 自己通过这个项目,很好
: 的明白了xml的数据结构,同时加深理解了python dictionary的数据结构。再加上
: mongodb,json 数据结构。好像hive也就类似的数据结构。
: 而且pytyon dataframe 太赞了。 即使有的key missing, 但是最终dataframe 可以让
: 他们现行。很容易debug。
: 而且我这个比开源的要快。这是关键。 我现在能够熟练的操作xml, mongodb, sql。
: 这些是金融行业比较流行的数据结构。 我向data scientist 迈进了一小步。

j**********r
发帖数: 3798
7
XML作为数据载体已经过时了。

【在 E**********e 的大作中提到】
: pyhton 是有开源的。
: 不过,要是是么都拿开源的, 自己怎么会提高? 是不是。 自己通过这个项目,很好
: 的明白了xml的数据结构,同时加深理解了python dictionary的数据结构。再加上
: mongodb,json 数据结构。好像hive也就类似的数据结构。
: 而且pytyon dataframe 太赞了。 即使有的key missing, 但是最终dataframe 可以让
: 他们现行。很容易debug。
: 而且我这个比开源的要快。这是关键。 我现在能够熟练的操作xml, mongodb, sql。
: 这些是金融行业比较流行的数据结构。 我向data scientist 迈进了一小步。

E**********e
发帖数: 1736
8
还不懂xpath。
现在是从xml转化到python dict。 namespace有相应的函数处理掉。
这个parser是用来处理工作的数据。目前没有必要考虑iso是么。也许处理别的vendor
的xml还会有bug。不过即使有debug,再改进也行。 核心的东西就是recursion。 而且
也有附属的数据转化功能, xml 相应的text 转化成相应的数据类型。
总的来说, 处理experian的信用报告的xml 也就足够了。

【在 p***r 的大作中提到】
: 支持xpath 之类吗?这些玩意要一做一套,或者符合iso 不然没有什么卵用。
: 你的xml parser 支持namespace 吗

l**g
发帖数: 133
9
为楼主认真学习的精神点赞
p**r
发帖数: 5853
10
你被骗了,一般真的认真学习的,都没时间来发帖,
吃饭拉屎都在想进化。

【在 l**g 的大作中提到】
: 为楼主认真学习的精神点赞
E**********e
发帖数: 1736
11
mitbbs上垃圾挺多的,充诉各个版面,见不的有人夸自己好。像您这位就是。
我吃饱了撑的,没事发个假贴,引来您这尊大神
确实该高兴。马工的是干不了。但作为data scientist,coding能力胜任的。这也是自
己正在提高的方向。工作中有时就应该自己找活干。我这个parser一搞定,就可以绕开
IT。不是说IT干的不好。不同组之间有时工作安排不同,必须等。
1 (共1页)
进入JobHunting版参与讨论
相关主题
有个recruiter发给我的,我用不着,看看有没有感兴趣的,直接跟recuiter联系吧Java developer or .Net devleloper Opportunites at Citi
Front-End Developer @ Verizon Wireless NJ学什么语言的问题(java/c/c++/python/php/ruby)其实很简单
Job Opening @ Verizon Wireless @ Central NJ求问大牛json parser的问题
和大家讨论一下设计一个在线象棋游戏被问到一道题: how to design a xml parser.
两个面试ST和HU店面
=== 2 Java Developer Openings (Bay Area Only) ===你们遇到过限时做project的面试吗
=== Startup Job Opening: Java Developer ===发两个软件组的面试题
转一个Employment oppotunity for Jr .Net developer这道雅虎的面试题绝了,有谁会做吗
相关话题的讨论汇总
话题: xml话题: parser话题: effecient话题: 比较话题: dataframe