为什么在重复网站上看起来很奇怪?

2017年7月27日

当您浏览各种重复网站时,您可能会遇到一些奇怪的单词或名称,例如Gonzãlez,Su¢Cient或Mã¶ller。为什么出现?要达到最底层,必须首先了解Repec网站如何获得其内容。所有这些直接来自发布者其中2000年,他们在各自站点上提供所有相关信息。为此,他们跟随指示并在其FTP或网站上放置带有特定布局的文件。

这些文件应该是简单的文本文件,不像Microsoft Word或libreoffice一样格式化。这应该使它们易于使用自动脚本处理。不幸的是,这忽略了角色编码的讨厌问题。每个操作系统或软件都假设特定字符编码是标准,直到文件从一台计算机移动到另一台计算机为止。早期,Repec中使用的文件被假定为默认情况下编码为ISO-LATIN-1或Windows-1252。早在1997年,UTF-8(“ Unicode”)很少见。但是,只要可以通过在文件的开头添加一个字节订单标记(“ BOM”)来强制repec脚本来假设UTF-8的选项,该声明表明该文件具有非标准的编码。

现在,UTF-8变得越来越普遍,发行商有时将UTF-8编码数据放入没有BOM的文件中,尤其是对于脚本创建的文件。然后重复将数据解释为ISO-LATIN-1或Windows-1252,然后对于受限的ASCII集合(简单的字母和数字)之外的任何字符来说,输出可能看起来很奇怪。例如,如果错误编码的话,任何重音字符都会看起来很奇怪。同样适用于æ,us和ß,非西部字母等连接,以及Microsoft Word中使用的一些标点符号。

作为Repec Publisher,如何修复编码不佳的UTF-8数据?有两种解决方案。要么在数据开始时添加BOM,要么使用假设UTF-8的新的.REDIF扩展名。但是,如果您从.rdf转换为.REDIF,请确保删除旧的.rdf文件,否则您的记录将随着复制而出现,从而变得无效。请记住:您的文件中没有HTML编码。


重复2017年6月

2017年7月5日

本月有一些新颖性。三个新的NEP报告:nep-big(大数据),NEP-DES(经济设计)和NEP-FLE(金融素养和教育)。机构的新排名:学生记录从过去10年开始的出版物中进行衡量。我们还拥有一些新的参与档案:卡尔加里大学(II),葡萄,经济历史研究中心,全国法医经济学协会,D。A。Tsenov经济学学院,Tripal Publishing House,Doba教职员工。我们在2017年6月计算了443,596个文件下载和1,596,970个抽象视图。

至于我们达到的里程碑:

40,000,000累积文章下载
通过NEP下载6,000,000个累积下载
Repec Genealogy中列出的12,000人