Usuario:AVBOT/PFC/Introducción

<< Volver al índice.

Introducción

editar

Objetivos

editar

Se pretende crear un programa que proteja a Wikipedia en español[Nota 1]​ (y por extensión a cualquier página web que utilice el software MediaWiki[Nota 2]​ de usuarios maliciosos[Nota 3]​ que introduzcan modificaciones indeseadas. Para ello es necesario completar cada uno de los siguientes objetivos:

  1. Lectura de los cambios que se producen en los artículos en tiempo real.
  2. Análisis y valoración de cada uno de los cambios capturados en el «objetivo 1».
  3. Tomar las acciones oportunas: actuar si el cambio es malicioso o dejarlo pasar si no supone peligro.
  4. Mantener un log de las acciones realizadas para su depuración en caso de error.

Más adelante se hará una distinción entre modificaciones meramente maliciosas y ediciones de prueba. En cualquier caso, se trata de aportaciones que deben ser deshechas, pues no contribuyen a la mejora de Wikipedia.

Alcance

editar

Se trata de un proyecto innovador, surge de la necesidad de controlar las ingentes cantidades de información que vuelcan miles de usuarios alrededor del mundo en un proyecto colaborativo como Wikipedia. Wikipedia pertenece a la denominada Web 2.0,[Nota 4]​ una nueva concepción de la World Wide Web[Nota 5]​ en la que los usuarios ya no son meros consumidores de datos que los webmasters cuelgan en Internet, sino que ellos mismos juegan el papel de productores/consumidores de esa información.

Esto conlleva una serie de ventajas y desventajas. Por un lado el potencial de producción crece exponencialmente,[Nota 6]​ ya que cualquier persona con un navegador web puede modificar los contenidos y mejorarlos. Por otro lado la cantidad de errores bienintencionados o de mala fe también crece.

Estas aportaciones no deseadas son, la mayoría de las veces, detectables fácilmente para un humano o un ordenador, ya que lo modificado resalta sobre lo demás por contener expresiones malsonantes o texto sin sentido. En otras ocasiones esta tarea se hace más compleja para un computador por no poder ser descrito mediante un patrón sencillo.

Existen muchas personas comprometidas con Wikipedia, y la mayoría de ellos controlan de manera altruista y voluntaria que nadie destruya los contenidos de la enciclopedia. Este esfuerzo podría dedicarse a la mejora o creación de nuevos artículos, en vez de a vigilar constantemente si los cambios producidos por usuarios nuevos o anónimos son malintencionados. Esto sería un gran beneficio para la comunidad. Para ello puede desarrollarse un programa que haga esta tarea, al menos con las ediciones claramente destructivas.

El producto de este proyecto tiene por nombre AVBOT. Es el acrónimo de «AntiVandal BOT» (en español: «BOT AntiVándalos»).[Nota 7]​ Este programa analizará las ediciones que se realicen en Wikipedia en español para buscar contribuciones maliciosas y las revertirá. AVBOT no podrá sustituir nunca a una persona, pues la capacidad de comprensión humana a la hora de leer un texto sobrepasa con creces la que pueda tener un programa de ordenador, aunque sí será de gran ayuda para revertir esos vandalismos repetitivos y monótonos.

Definiciones, acrónimos y abreviaturas

editar

Para facilitar la comprensión del presente documento, se incluyen a continuación una serie de definiciones de términos, acrónimos y siglas que aparecen con frecuencia.

  • Administrador: Persona que se dedica al mantenimiento de un sistema o red.[1]​ En Wikipedia hace referencia a aquellos usuarios que tienen ciertos privilegios[Nota 8]​ como borrar/restaurar páginas, bloquear/desbloquear usuarios, proteger/desproteger páginas, etc.[2]​ En Wikipedia en español se llaman «bibliotecarios».[3]
  • Artículo: Página de Wikipedia con contenido enciclopédico. Su espacio de nombres tiene identificador «0».
  • ASCII: American Standard Code for Information Interchange
  • AVBOT: Acrónimo de «AntiVandal BOT» («BOT AntiVándalos» en español).[6]
  • Bibliotecario: Es el nombre con el que se conoce en Wikipedia en español a los administradores.[3]
  • Blanqueo: Eliminación parcial o total del contenido de una página, lo que constituye una edición maliciosa o un acto de vandalismo.[7]
  • Bloqueo: Suspensión temporal o indefinida a un usuario de su capacidad de modificar páginas. Los bloqueos sólo pueden realizarlos los administradores y siempre de manera justificada.[wikipedia blocking policy] Existe un log público donde ver los últimos bloqueos realizados,[log de bloqueos] y los bloqueos vigentes.[8]
  • Bot: Véase robot.
  • Cambios recientes: Página especial de Wikipedia en la que puede observarse las modificaciones realizadas en cualquier parte de la enciclopedia en los últimos minutos. Para Wikipedia en español es http://es.wikipedia.org/wiki/Special:RecentChanges.
  • Canal de IRC: Las comunicaciones dentro de un servidor de IRC se dividen en salas temáticas, a cada una de ellas se les llama canal. Por ejemplo, el canal de Wikipedia en español es #wikipedia-es dentro de la red irc.freenode.org.
  • Citizendium: Proyecto para crear una enciclopedia libre enorme y fiable.[9]
  • Commons: Véase Wikimedia Commons.
  • Conflicto de edición: Error que se produce cuando dos o más personas modifican una misma página a la vez. Si uno de ellos guarda sus cambios, cuando el resto vaya a hacer lo mismo, recibirán un mensaje de advertencia, indicando que el contenido ha cambiado.
  • CSS: Cascading Style Sheets, Hojas de estilo en cascada.
  • Diff: Extracto que muestra las diferencias de contenido entre dos versiones distintas de una misma página.
  • Discusión: Anexo a cualquier página del software MediaWiki desde donde se pueden discutir cambios en el contenido de dicha página.
  • Enciclopedia libre: Compendio de conocimiento cuyo contenido se distribuye bajo una licencia libre. También se conoce con este nombre a un fork de Wikipedia en español.[10]​ Wikipedia no es el único proyecto que ha existido o existe con la intención de crear una enciclopedia libre. Con anterioridad a Wikipedia existió Nupedia[nupedia en internet archive] y recientemente se fundó Citizendium.[9]
  • Edición: En el contexto de los wikis hace referencia a la modificación de una página.
  • Edición maliciosa o destructiva: Véase vandalismo.
  • Enlace interlingüístico: Vínculo que une a dos páginas sobre un mismo tema en distintos idiomas.
  • Espacio de nombres: División que realiza el software MediaWiki para diferenciar distintos tipos de páginas. Los principales son: artículos, categorías, plantillas y páginas de usuario.
  • Etiqueta: Nombre con el que se conoce a la netiquette en Wikipedia.[11]
  • Expresión regular: Patrones con los que se pueden describir una gran variedad de cadenas en poco espacio.
  • Fork: Software o proyecto que se separa en dos ramas de desarrollo distintas.[Nota 9]
  • Fundación Wikimedia: «Organización sin ánimo de lucro dedicada a fomentar el crecimiento, desarrollo y distribución de contenido libre y políglota, y proveer la totalidad del contenido de estos proyectos wiki al público, libre de costes. La Fundación Wikimedia opera algunos de los más grandes proyectos de consulta en el mundo, incluyendo Wikipedia, el cuarto sitio más visitado de Internet.»[Nota 10]
  • GNU: GNU's Not Unix
  • GPL GNU: General Public License (Licencia Pública General GNU)
  • GFDL GNU: Free Documentation License (Licencia de Documentación Libre de GNU)
  • Historial: Conjunto formado por todas las versiones anteriores de una misma página, incluida la actual. Cada página mantiene su propio historial, y es utilizado frecuentemente para restaurar el contenido debido a vandalismos, desacuerdos en la redacción, etc.
  • HTML: HyperText Markup Language[what is html]
  • Interwiki: Véase enlace interlingüístico.
  • IRC: Internet Relay Chat.[rfc 1459 irc] Freenode (irc.freenode.org) es la red donde se sitúan los canales de Wikipedia y sus proyectos hermanos. Los canales de cambios recientes se encuentran en irc.wikimedia.org.[meta irc, meta irc channels] Para acceder a ellos es necesario contar con un cliente de IRC, por ejemplo ChatZilla.
  • Irclib: Librería que encapsula el protocolo IRC.[irclib]
  • Licencia libre: Licencia que no establece unas restricciones férreas en cuanto a la libertad de uso, redistribución o modificación de una obra.
  • Lista de seguimiento: Listado con las páginas que hemos decidido vigilar y sus cambios recientes.
  • Los cinco pilares: Las cinco normas básicas de Wikipedia y en las que se sustentan el resto de políticas. (1) Wikipedia es una enciclopedia, (2) Wikipedia busca el punto de vista neutral, (3) Wikipedia es de contenido libre, (4) Wikipedia sigue unas normas de etiqueta, (5) Wikipedia no tiene normas firmes más allá de estos cinco pilares.[los cinco pilares]
  • Manual de estilo: Conjunto de normas que ayudan a mantener un diseño uniforme entre los artículos de Wikipedia.[wikipedia manual de estilo]
  • MediaWiki: Software para la creación de wikis, con licencia GPL, programado en PHP y que utiliza bases de datos MySQL.[12][13]
  • MIT: Massachusetts Institute of Technology
  • Namespace: Véase espacio de nombres.
  • Netiquette: Conjunto de normas tácitas que regulan el comportamiento de una persona en Internet.[netiquette]
  • NPOV: Neutral Point Of View, véase Punto de vista neutral.
  • Nupedia: Proyecto para crear una enciclopedia libre con artículos escritos por expertos y revisados por pares. Fue cerrado.[nupedia en internet archive]
  • Política: Norma refrendada por la comunidad. Aunque Wikipedia no tiene normas firmes más allá de los cinco pilares, se recomienda seguir las políticas del proyecto, pues han sido elaboradas con un alto consenso y su no cumplimiento puede acarrear sanciones como bloqueos.
  • Punto de vista neutral: Es uno de los pilares de Wikipedia. Según el texto de la política oficial de Wikipedia en español: «El punto de vista neutral (PVN) establece que la enciclopedia debe contener hechos y que sus artículos deben ser escritos sin sesgos, presentando adecuadamente todos los puntos de vista existentes sobre tales hechos. [...] Esta política se malinterpreta con facilidad. No supone que sea posible escribir un artículo desde un único punto de vista objetivo no sesgado. Dice que debemos representar adecuadamente los diferentes puntos de vista y sin que el artículo afirme, implique o insinúe que alguno de ellos es el correcto. La neutralidad es mostrar todos los puntos de vista relevantes posibles tal y como son, para que cada lector adopte la opinión que prefiera».[wikipedia punto de vista neutral] Jimmy Wales ha llegado a afirmar que es «absoluto e innegociable».[npov absoluto e innegociable]
  • Python: Lenguaje de programación interpretado, publicado por primera vez por Guido van Rossum en 1991.[python history]
  • Pywikibot: Framework para desarrollar herramientas que hagan mantenimiento en Wikipedia y por extensión en cualquier sitio MediaWiki.[pywikipediabot]
  • Redirección: Página que al ser visitada reenvía al navegador a otro destino. Se utiliza cuando un artículo puede tener varios títulos, de esta forma se evita duplicar el contenido.
  • Regexp: Véase expresión regular.
  • Resumen de edición: Texto que puede adjuntarse a cada modificación de una página con el propósito de explicar en qué consisten los cambios realizados. Es útil cuando se consulta el historial. Se considera una buena práctica el rellenarlo.[meta edit summary]
  • Revertir: Restaurar el contenido de un artículo a su estado anterior.[meta reverting]
  • Robot: Programa que realiza de manera automática tareas aburridas y tediosas.[meta bot] Para ejecutar un bot en Wikipedia, se debe contar con el consenso de la comunidad, pues sus cambios son rápidos y pueden afectar a multitud de artículos en muy poco tiempo.[meta bot policy, wikipedia en ingles bot policy]Existen robots para poner interwikis,[meta interwiki bot] crear artículos,[meta botopedia] corregir faltas de ortografía, luchar contra el vandalismo y un sin fin de utilidades más.
  • Sysop: Véase administrador.
  • Trasladar: Acción de cambiar el título de una página. Para trasladar debe utilizarse la pestaña «mover» presente en cada artículo, de esta forma se conservan los historiales.[meta moving a page]
  • Unicode: Estándar con los principales sistemas de escritura del mundo.
  • URL: Uniform Resource Locator
  • Usuario anónimo: Usuario que no se ha registrado en Wikipedia y aparece identificado por su dirección IP.[meta anonymous user]
  • Usuario malicioso: Véase vándalo.
  • UTF: Unicode Transformation Format
  • Vándalo: Usuario que comete vandalismos.
  • Vandalismo: Modificación no deseada en la que se elimina parte de la información del artículo, se introducen palabras soeces, etc.[Wikipedia Vandalismo]
  • Web 2.0: Término acuñado por Tim O'Reilly y que hace referencia a una nueva generación de la web, caracterizada por una mayor participación de los usuarios en los contenidos.[14]
  • Wiki: Sitio web que permite a sus visitantes modificar el contenido del mismo. Ward Cunningham, desarrollador del primer software wiki, llamado WikiWikiWeb, lo definió como «the simplest online database that could possibly work»,[What Is Wiki] en español, «la base de datos en línea más simple que puede funcionar».
  • Wikificar: Acción de adaptar y transformar un texto plano al formato wiki según las normas, políticas y manual de estilo del sitio.
  • Wikimedia: Véase Fundación Wikimedia.
  • Wikimedia Commons: Depósito de imágenes libres que pueden ser enlazadas desde los proyectos de la Fundación Wikimedia en cualquier idioma.
  • Wikcionario: Proyecto para la creación de un diccionario libre.
  • Wikibooks: Véase Wikilibros.
  • Wikilibros: Proyecto para crear libros de texto educativos.
  • Wikinews: Véase Wikinoticias.
  • Wikinoticias: Fuente de noticias libre.
  • Wikispecies: Directorio de especies libre.
  • Wikipedia: Proyecto para la construcción de una enciclopedia libre.[15]​ Utiliza el software MediaWiki.
  • Wiktionary: Véase Wikcionario.
  • WWW: World Wide Web

Visión general

editar

Tras esta «introducción» que da una visión global en la que se han presentado los «objetivos», «alcance del proyecto» y una serie de «definiciones» para falicitar la compresión del texto, se incluyen con detalle el resto de apartados de la memoria.

Un aspecto importante del proyecto lo constituye el calendario, que contiene las tareas que se han desempeñado, su orden, precedencias y dependencias entre ellas. Esto se encuentra explicado en «Desarrollo del calendario» y ha sido generado usando la herramienta Planner.[Nota 11]

A continuación se presenta la «Descripción general del proyecto» que incluye la perspectiva y funciones del producto, características de los usuarios a los que va dirigido, restricciones generales, suposiciones, dependencias y requisitos para futuras versiones.

Luego se profundiza en el «Desarrollo del proyecto», con detalles de la metodología de desarrollo empleada, especificacion de requisitos, análisis del sistema y diseño del sistema. En la sección de «Codificación» se comentan los aspectos más relevantes de esta etapa.

La parte de «Pruebas y validación» recoge datos de las más de 5000 horas de ejecución que lleva acumuladas el programa y en el «resumen» y «conclusiones» se recopila lo más destacado del trabajo.

Son ineludibles los «manuales» de usuario e instalación, junto con una serie de anexos que ayudan a comprender mejor la función de este proyecto y el contexto en el que se desarrolla. Para cerrar el documento, se añadió el texto completo en inglés de la licencia GFDL 1.3.

  1. «Wikipedia» es un proyecto para crear una enciclopedia libre en multitud de idiomas. Wikipedia:About
  2. «MediaWiki» es un software para la creación de wikis, con licencia GPL, programado en PHP y que utiliza bases de datos MySQL. MediaWiki.org How does MediaWiki work?
  3. A estos «usuarios maliciosos» se les conoce en la jerga de Wikipedia como «vándalos», y a sus acciones como «vandalismos». Wikipedia:Vandalism
    Política de Wikipedia en inglés acerca de qué es el vandalismo, tipos, cómo luchar contra él, cómo no se debe reaccionar ante los vándalos y otras recomendaciones.
  4. «Web 2.0» es un término acuñado por Tim O'Reilly y que hace referencia a una nueva generación de la web, caracterizada por una mayor participación de los usuarios en los contenidos. O'Reilly, Tim, «What Is Web 2.0», 2005
  5. La «World Wide Web», a grandes rasgos, es un sistema de documentos vinculados entre sí mediante hiperenlaces, que pueden ser consultados con cualquier navegador web.
  6. El crecimiento de Wikipedia en inglés desde octubre de 2002 hasta octubre de 2006 se asemejó a una curva exponencial. El número de artículos era doblado cada 346 días aproximadamente. Esto puede explicarse del siguiente modo: más contenido atrae más visitas, más visitas generan más ediciones, más ediciones crean más contenido. Wikipedia:Modelling Wikipedia's growth
    Página de Wikipedia en inglés en la que se estudia el crecimiento que ha tenido el proyecto durante los últimos años.
  7. El término «AVBOT» surge de la fusión de varios conceptos. Primero la denominación de máquina como proceso automático (robot o «bot»), y «vándalo», palabra con la que se identifica a los usuarios que modifican Wikipedia con malas intenciones.
  8. Puede parecer que estos poderes dan ventaja a unos usuarios sobre otros. Nada más lejos de la realidad. Los bibliotecarios deben actuar acorde a unas normas y políticas votadas por la comunidad. Jimmy Wales llegó a decir «ser administrador no es una gran cosa».
  9. Wikipedia en español tiene un fork llamado «Enciclopedia Libre».
  10. Extraido de su página oficial: «The Wikimedia Foundation, Inc. is a nonprofit charitable organization dedicated to encouraging the growth, development and distribution of free, multilingual content, and to providing the full content of these wiki-based projects to the public free of charge. The Wikimedia Foundation operates some of the largest collaboratively edited reference projects in the world, including Wikipedia, the fourth most visited website in the world.»
  11. «Planner» es una herramienta libre para la gestión de proyectos.

Referencias

editar
  1. The Free On-line Dictionary of Computing
  2. Wikipedia:Bibliotecarios
  3. a b Wikipedia:Archivo de elecciones
  4. Mediawiki:API
  5. Barrapunto, «API para Wikipedia», 2008, http://barrapunto.com/articles/08/04/26/2328245.shtml
  6. Página de usuario de AVBOT en Wikipedia en español
    Página de AVBOT dentro de Wikipedia en español. En ella se dan algunos datos, se listan las funciones que realiza, enlaces a las subpáginas de configuración, características futuras, gráficos, enlaces a la forja con el código fuente, etc.
  7. Ejemplo de blanqueo
  8. Lista de bloqueos vigentes en Wikipedia en español
  9. a b Página principal de Citizendium
  10. Enciclopedia Libre Universal en Español
    Página principal de Enciclopedia Libre, el fork de Wikipedia en español.
  11. Wikipedia:Etiqueta
  12. MediaWiki.org
    Página principal del software MediaWiki en la que se puede encontrar, además de enlaces para su descarga en distintas versiones y documentación, extensiones que amplían sus funciones y lo hacen más potente.
  13. How does MediaWiki work?
    Página que recoge la licencia, lenguaje de programación, bases de datos y otros detalles técnicos del software MediaWiki.
  14. O'Reilly, Tim, «What Is Web 2.0», 2005, http://www.oreillynet.com/pub/a/oreilly/tim/news/2005/09/30/what-is-web-20.html
    Documento sobre la llamada Web 2.0. Cómo se ha llegado hasta ella, qué es, comparaciones entre servicios de la Web 1.0 y la 2.0.
  15. Wikipedia:About
    Página «acerca de» en Wikipedia. Recoge sus fines, historia, datos sobre la comunidad, comparaciones con otras enciclopedias, datos técnicos, preguntas frecuentes, etc.

<< Volver al índice.