a*f 发帖数: 1790 | 1 查查太祖的抄袭作品
诗词好收集
请教大牛下面这样的相关性分析电脑怎么做比较有效率?
天若有情天亦老
——唐•李贺•《金铜仙人辞汉歌》
天若有情天亦老
——毛泽东《七律•解放军占领南京》1949年4月
雄鸡一声天下白
——唐•李贺《致酒行》
一唱雄鸡天下白
——毛泽东《浣溪沙•和柳亚子先生》1950年10月
宁饮建业水,不食武昌鱼
——《三国志》:《吴孙皓初童谣》
才饮长沙水,又食武昌鱼
——毛泽东《水调歌头•游泳》1956年6月
极目楚天空
——宋代,幼卿《浪淘沙》
极目楚天舒
——毛泽东《水调歌头•游泳》1956年6月 |
f******2 发帖数: 2455 | 2 关注!
【在 a*f 的大作中提到】 : 查查太祖的抄袭作品 : 诗词好收集 : 请教大牛下面这样的相关性分析电脑怎么做比较有效率? : 天若有情天亦老 : ——唐•李贺•《金铜仙人辞汉歌》 : 天若有情天亦老 : ——毛泽东《七律•解放军占领南京》1949年4月 : 雄鸡一声天下白 : ——唐•李贺《致酒行》 : 一唱雄鸡天下白
|
w***g 发帖数: 5958 | 3 1. 把句子变成word vector,然后算cosine similarity。可以用IDF对word加权。
2. 两个句子算edit distance。如果要做得fancy点,每一步edit可以根据IDF加权。
IDF也可以变成别的权重。这个得试。
3. 自己想新算法。比如 雄鸡一唱 --> 一唱雄鸡,
如果用edit distance算,需要先删去两个再加上两个,所以是4。
但显然“一唱雄鸡”比“一唱雄鸭”更接近,不应该两个都是4。
可以考虑把删掉的东西存到一个buffer里,如果后面加的东西
在buffer里能找到,那么添加的distance就打点折扣。不过这个
动态规划可能就没法写了。
【在 a*f 的大作中提到】 : 查查太祖的抄袭作品 : 诗词好收集 : 请教大牛下面这样的相关性分析电脑怎么做比较有效率? : 天若有情天亦老 : ——唐•李贺•《金铜仙人辞汉歌》 : 天若有情天亦老 : ——毛泽东《七律•解放军占领南京》1949年4月 : 雄鸡一声天下白 : ——唐•李贺《致酒行》 : 一唱雄鸡天下白
|
w***g 发帖数: 5958 | 4 要不你多收集些语料库,比如把全唐诗全宋词都找好,
然后我们搞个RNN训练自动写诗。
这个国内有人做得很不错了,但是自己搞一个肯定还是很有意思的。
【在 a*f 的大作中提到】 : 查查太祖的抄袭作品 : 诗词好收集 : 请教大牛下面这样的相关性分析电脑怎么做比较有效率? : 天若有情天亦老 : ——唐•李贺•《金铜仙人辞汉歌》 : 天若有情天亦老 : ——毛泽东《七律•解放军占领南京》1949年4月 : 雄鸡一声天下白 : ——唐•李贺《致酒行》 : 一唱雄鸡天下白
|
a9 发帖数: 21638 | 5 你这是想把亲戚搞失踪的节奏啊
【在 a*f 的大作中提到】 : 查查太祖的抄袭作品 : 诗词好收集 : 请教大牛下面这样的相关性分析电脑怎么做比较有效率? : 天若有情天亦老 : ——唐•李贺•《金铜仙人辞汉歌》 : 天若有情天亦老 : ——毛泽东《七律•解放军占领南京》1949年4月 : 雄鸡一声天下白 : ——唐•李贺《致酒行》 : 一唱雄鸡天下白
|
a*f 发帖数: 1790 | 6 没事我署阿九的名字,或者取个方肘子笔名
【在 a9 的大作中提到】 : 你这是想把亲戚搞失踪的节奏啊
|
h**********c 发帖数: 4120 | 7 你无法表达感情或者是我不知道正确的术语来表达以下表现手法
比如
尼丝达春绿
泥鸽墨闻花
既不含蓄也不直白,智力因子也不很高。但却很煽动,适于集体农庄茶余饭后。却能
viral |
c*********e 发帖数: 16335 | 8
-----找“雄鸡”就可以了。找名词更容易一些。找到了名词,再在名词的周围找动词。
【在 w***g 的大作中提到】 : 1. 把句子变成word vector,然后算cosine similarity。可以用IDF对word加权。 : 2. 两个句子算edit distance。如果要做得fancy点,每一步edit可以根据IDF加权。 : IDF也可以变成别的权重。这个得试。 : 3. 自己想新算法。比如 雄鸡一唱 --> 一唱雄鸡, : 如果用edit distance算,需要先删去两个再加上两个,所以是4。 : 但显然“一唱雄鸡”比“一唱雄鸭”更接近,不应该两个都是4。 : 可以考虑把删掉的东西存到一个buffer里,如果后面加的东西 : 在buffer里能找到,那么添加的distance就打点折扣。不过这个 : 动态规划可能就没法写了。
|
M**********n 发帖数: 432 | 9 可以用 Ngram 来做 feature lists |
k*****u 发帖数: 1688 | 10 python里面:结巴分词,算词频,然后tf-idf,然后算相对距离,比如cos或者欧式距
离,然后比较
sklearn直接copy paste code应该就可以了啊 |