Este proyecto tiene como proposito inicial realizar un port (reescritura) en Delphi del aclamado proyecto de Apache LUCENE, el cual es un indexador y buscador de información. Es la clase de software que usan los motores de búsqueda como Google y Altavista y abre todo un abanico de posibilidades de innovación al momento de hacer software.
Audiencia
Este proyecto es para desarrolladores de software con habilidades en Delphi, .NET, Linux y otros. No es para usuarios finales.
Para que sirve, Kimosave
1- Busqueda de texto a velocidad de base de datos (no, MUCHO MAS!).
2- Buscadores (como Google)
3- Investigacion, Mineria de informacion, analisis dimensionales
4- Procesar informacion no estructurada, como archivos de texto, musica y videos
Porque es importante esto?
1- NO EXISTE NINGUN INDEXADOR OPEN SOURCE para Delphi. Zero, nada. Lo unico decente que existe es http://www.tamaracka.com/ (Rubicon). Aunque es MUUUYYY bueno, y es una solucion COMPLETA y me parece super bien y no me doleria pagarles, necesito es algo que me permita incrustrar la engine dentro de varios programas que estoy planeando y necesito hacer cosas locas como mineria de datos... y luego de pensarlo durante meses decidi mas bien montarme en esta vaca loca.
2- LOS INDEXADORES OPEN SOURCE EXISTENTES TIENEN NULO O LIMITADO SOPORTE PARA ESPAÑOL
Aunque mi idea es mantener 100% compatibilidad de API y capacidades con Lucene y DotLucene (para hacer comparativas, test, etc...) me interesa es avanzar el soporte a español. Es definitivo, pues soy Colombiano y me toca hablar spanish ok?. Soporte al dialecto de cada area, como Mexico, España, Ecuador, Argentina. Que los resultados realmente esten en armonia con nuestra forma de ver las cosas y no como las suponen quienes viven al norte...
3- ENSEÑA COMO HACER PROCESAMIENTO MASIVO DE DATOS. Poca gente sabe como leer un archivo de 1 GIGA con maximo desempeño, con una excelente API Orientada a objetos, de forma flexible e intercambiable. Aun si no interesa el indexador como tal, seguro que el ver como se hacen ciertas cosas les sera muy util.
4- HABRE AREAS DE CONOCIMIENTO DIFERENTES. Hasta hace un año, yo pensaba al igual que muchos, que procesamiento masivo de informacion, que Google, que buscadores, que leer archivos a nivle de muchos megas/gigas, que analisis de texto, que parsing, que indexar datos es programacion estratosferica, solo accesequible a gigantes como MS, Oracle o IBM.
Que solo manejar bases de datos lo unico posible. Pero eso NO es asi.
En este momento estoy en Alpha. Espero para terminar el mes tener compatibilidad API con la version1.4 y que el programa compile 100% sin errores ni warnings... tambien estoy armando test con DUNIT y ya hay 25 que pasan ok.
Por ahora, la meta #1 es que el port a Delphi.NET quede 100% bien, sin errores y funcionando. Posteriormente reorganizar las cosas para que compile a Win32 (primero) y a MONO (despues). Por lo tanto, la version 1 NO TENDRA ni mejoras ni adiciones ni nada (obviamente, me refiero al nucleo. Cualquier codigo relacionado que no toque el API interno sera bienvenido)
Si se le miden, HAGANMELO SABER! con un comentario en el blog o visiten la página de sourceforge (https://sourceforge.net/projects/mutis/).
Que se necesita ya?
1- Gente que sepa leer C# o Java. Que verifique la conversion que haya hecho y corriga... Se necesita Delphi 8/2005 con .NET
2- Gente que testee la implementacion.
Por ahora, nada mas.
Que no se puede esperar (por ahora)
1- Que funcione. Si desean algo hecho, usen Rubicon o DotLucene. Una vez se logre la version 1 obviamente dejara de existir esta limitante
2- Que arme un sitio como Google. Lucene es SOLO el indice+buscador. Es una libreria que NO SABE NADA de como se lee una pagina web o un archivo o una base de datos, Sin embargo da la flexibilidad 100% de acomodarse a las necesidades.
Etiquetas: MUTIS, Open source