论文章的重复率与文章好坏/创新的关系
现行的好多文章评审机构都认为,重复率高的文章,就是抄袭文章,就是坏文章,就是没有创新或者创新程度不高的文章。这种仅仅以重复率来确定文章好坏的做法,是科学的么?我认为这是有问题的。
为表述简便,我把仅仅以重复率来确定文章好坏的机制,表述为"重复率问题"。
我之所以认为有问题,不是因为我的文章有问题。事先说明,我的文章没问题,都是原创。
那我为什么要写作此文呢?只是因为出自我的责任感和对人们自由表达意愿的期待,而重复率的存在,无疑会阻碍人们自由表达的意愿。
重复率一事,会影响许多人的生活和利益。尤其是,作家,科研者,毕业论文的学生,还有自媒体作者。所以,我们不得不对重复率的问题作一番探讨和认真分析。
以重复率来定文章好坏的思路是:1.人和人都是不一样的,所以人和人的表达也不一样。所以,一旦重复率高,就说明某人抄袭了另一人。2.重复率检测的目的也是好的:打击抄袭,保护知识产权。
但是,我想说的是,只以重复率来确定文章是抄袭与否,是很有问题的。
第一个问题是,随着文章的增加,重复率会自然升高。
曾几何时,我们也都认为人和人的外貌都是独一无二的,可是,随着人口的快速增加。那么,会不会出现两个人的外貌的相似率高达60%以上,乃至90%以上的现象呢?(即使排除双胞胎,没有亲属关系的两个人之间?)如果现在世界上60亿人没有,那么,如果人口增至80亿,100亿,甚至更多呢(假设地球的人口容量无限),我想,随着人口的增加,即使不是双胞胎,两个人的外貌相似度超过60%(或者相似比超过70%、90%等其它数值)的可能性,是会增加的。即,随着人口的增加,一个人与另一个人长得很像的可能性是会增加的。(即使不是双胞胎)。
那么,我国汉字的个数是有限的,那么多人,祖祖辈辈,包括现在的14亿人,包括以后的学生、作家、新闻、自媒体等写作的人,以及其他的需要写东西的人,得出多少文章和作品啊!汉字是有限的,而人们的写作,一个人也好,现在的14亿人也好,以后的子子孙孙也好,都是要用到这些个数有限的汉字的,而这些汉字的组合方式却是有限的——而汉字的组合方式最终所形成的东西,就是文章。不同的汉字组合,形成了不同的文章,尽管我国的汉字有很多(可以看看新华字典,基本包括现行的汉字),字与字的组合而最终形成的文章,也是很多的,但是再多,它的组合方式也是有限的,这最终会形成文章的重复率增高现象。而这种增高,显然,是组合方式逐渐用尽的结果,而不是抄袭的结果。
也许有人说,我的这个看法不对,因为,人们可以造字,所以,汉字的个数是无限的。我想,即使如此,我们可以通过造新字的方式,来缓解必然的重复率增高问题,那么,这种造新字的速度,能跟得上写作而带来的消耗的组合方式的速度么?如果能,那么还好,如果不能,那么重复率还会增加。
我的数学不好。搞不清用这些汉字,在字既定和字数既定的文章中,可以有多少种意思连贯的组合方式。尽管很多更多,但是总是有限的。举个简单的例子来说:
例子如下:
我给你6个既定的字(含标点),它们是
"他"、"爱"、"你"、""好"、"恨"、句号。
我让你写一个字数为4的句子。
那么,有意义的句子表达是:
1.他爱你。
2.你爱他。
3.他恨你。
4.你恨他。
由上可见,只有4种不同意义组合方式,而其它的组合方式是没有意义的(即不连贯的)。
如果我有4个人回答这个问题,并且规定重复率为100%是抄袭。那么,只有4个人是可以免于抄袭的,但是如果有第5个人回答正确,那么,按重复率定,他必然是抄袭的。
上面是一个简化的例子,尽管在现实写作中,新华字典的汉字(或者说生活中现阶段的汉字)是确定的,写作中,一般也没有人规定你作文的确切字数,而且作文一般都是好多句子组合的,但是,道理是一样的:随着文章越来越多,在一定阶段汉字的个数有限的情况下,文章的重复率是会自然增加的。
以上,是依据重复率高低来定文章好坏的第一个不合理的地方。
第二个不合理的地方是,重复率问题,是典型的形式主义。
我看到这么一个故事。
说是抗日时期,鬼子与八路争夺粮食,而汉奸为了帮鬼子筹集粮食,所以到处贴反动标语,其中有个标语是这样的:
粮食不卖给八路军!
抗日根据地的爱国者看了不高兴了,于是给这个标语加了个标点符号,这句话成了:
粮食不卖,给八路军!
仅仅加了一个逗号,意思相反,而这个标点,就是画龙点睛之笔啊!若是按照重复率检测,这两个标语的重复率达99.99%。典型的抄袭。
可是,这是抄袭么?
重复率检测的形式主义就在这里,它只看重复率,不看内容主旨。它以为,重复率高的,就是抄袭!(现在大学,较为宽松的标准是,重复率超过30%是抄袭,当然,各校不同,一般比这低)。
如果我们认为重复率高就是抄袭,就是不合格,那么,就等于承认画龙点睛是错的。因为,我们不能排除这样的情形:
如果复制了别人的一篇文章。文末只加了一句自己的话,是点睛之笔。因为这句话,使全文的层次的都上到了新的高度,甚至使原文的意思表达向着反向发展,这样的弄出来的文章,是抄袭(搬运)么?
古代有斟酌推敲的典故,有一字千金的典故,这些典故都充分说明了,人们写作,应该注重意思的精准表达。可是当今某些人和机构,只以重复率来定文章好坏,定是否抄袭,是不是汗颜呢?
第三个重复率问题是,他使人表达感情、思想受到了阻碍。而之所以会这样,只是为了降低重复率之故。毕竟,人与人的感情等,至少是,部分人和部分人之间,还是有共性的,比如,对待爱情的感觉,失恋的感觉,想家的感觉。如果在写作中为了表达这些感情、意愿,而自己没有那样的表达力,既然发现有别人的完美的表达,为什么不可以借来一用呢?只是需要标明来源,不把美句据为己有、当作自己的创作就可以了[1]。可是,为了考虑降低重复率——即重复率鼓励着人们不得不减少引用,或者用自己蹩脚的话来表述,使得意境降低。同理,对于学术性的精确表达的引用,也存在这个问题。
当然,重复率检测的优点是高效,但是,高效不能弥补、更不能解决上述三个问题。
因此,判定文章好坏的解决方法是:
可以对文章重复率检测,检测过关的,进入下一个环节。但是,如果重复率不过关,不能以此否定这篇文章,而是需由人工审核,由专家来对这篇重复率过高的文章进行判定,看它的内容主旨,是真有创新之处,画龙点睛之笔,还是确实属于抄袭,如果专家觉得这些亮点是足以过关的,那么就允许其过关,否则就属于抄袭。
注释:
[1]前提是,原创者不禁止你借来一用。一般地,公开的文章,尤其是古代的经典著作,其作者都是不禁止你用的。