Ency Encyclopia, das Sätzearchiv -

FAQs

 

 

Konzept von Ency (eine globale interaktive encyclopedia)

Heute im Jahr 2008 sind alle bekannten Sätze (in vielen Sprachen) für Ency automatisch gespeichert.

Die Sätze wurden durch Boinc-verbundene Rechner mit Crawlern aus dem Netz gefischt, aus Bibliotheken, Büchern und Foren.

Die Sätze wurden aus ihrem Zusammenhang gelöst, verbunden nur noch durch einen Link auf den nächsten (besten) Satz -und mit einer Quellenangabe versehen.

Die Sätze wurden geparst und in eine allgemeine strukturierte Form gebracht.

Dadurch konnten sie verglichen werden und logische Verbindungen hergestellt werden.

Plausibilitätsprüfung.

Sie wurden auch übersetzt und sind jetzt als weltweiter Wissensspeicher (verteilt auf viele Boinc-Rechner) für alle freundlichen User zugänglich.

die Suche nach einem Begriff etc ergibt eine Ausgabe von 3 oder 10 guten Sätzen .

(man kann auch alle Sätze eines Begriffs oder Autors etc oder Antworten suchen, das dauert aber was.)

Gute Sätze sind zB kurz informativ strukturiert genial .

wird ein Satz vom User ausgewählt so steigt sein Wert im Ranking, so kommen gute Sätze nach oben.

der User kann aber auch eigene Sätze einbringen oder alte Sätze verbessern an einem Editorplatz.

der User hat auch einen eigenen Speicher für seine akzeptierten Sätze.

-------

das System ist jetzt an allen neuen Sätze interessiert, die sofort aus dem Netz geholt, zur allgemeinen Betrachtung und in der jeweiligen Sprache zu Bewertung zugänglich sind (News, neue Ideen etc)

darüber wird ein Diskurs geführt, ein weltweiter Dialog (zB wie man am besten Reis anbaut oder global-warming verhindert)

ausserden kann ein virtueller Dialog geführt werden ( die Partner müssen nicht real anwesend sein), wenn genügend Sätze einer bestimmten Person oder Ansichten Personengruppen vorhanden sind.

Jede(r) versteht jede(n)

Neue Sätze werden wie junge Küken behandelt, gute Sätze mit Punkten belohnt .

Ungenaue Sätze könnten dem Autor zurückgeschickt werden zur Verbesserung.

Es können jetzt Rezepte Handlungsabläufe Anleitungen in neue Form (Folgen ) gebracht werden

Dialoge mit Frage und Antwort lassen sich aufbauen.

Alle kommunizieren jetzt auch mittels Handys und Headset dauernd mit der grossen Schwester Ency.

fragen sie, antworten, flüstern, labern, schreinen neue Sätze ins All.

Beschreibung : Ansatz >>Konzept >>Screnshots

Funktionen (Fähigkeiten)     Software gruppen

Crawlen
Sätze trennen
Cache
Taggen
von Hand taggen
Parsen
Strukturieren
Speichern
suchen
Ergebnisse ausgeben
Editieren
Dialog
Ranken
Verlinken
Übersetzen
automatisch neue Sätze
Ablauf

   

Crawler
Satztrenner
Cache
Tagger
handTagger,
TextParser
Strukter
Superarchiv
Suche Suchseite suchmodus
suchergebnis

Hitliste
Ranker
Ü
bersetzer
e
igener Speicher
Editor
Editorplatz
Suchkonditionen
GesamtBild

Diskussion Geschichte Futur FAQ´s
Gute Wünsche
Links
     



Sätze

Satz

hat hier Datenstuktur als gespeicherter Satz im Superspeicher

hat verschiedene Qualitäten roh, geparst strukturiert gerankt editiert , gute Sätze usw

die Summe aller erreichbaren Sätze heisst hier alle Sätze

 

gute Sätze

haben Struktur und sind kurz und logisch

Ein manueller Editor könnte strukturierte Sätze verbessern, verändern, bewerten, Links anbringen und in einem eigenen Speicher ablegen bzw zur wieder als „guter Satz“ zur Verfügung stellen

wenn man zb 3 gute Sätze hat von einem gesuchten Begriff, kann man auf die nächsten Sätze klicken, weil man ja sowieso immer nur einen Satz erfassen kann und kommt dann zu dem Unter - oder Oberbegriff zB Ast, zweig, blatt, baum oder zu einem ganz anderen Aspekt, einem schlauen Satz dazu oder ähnliches.

Intell. Satzranking ist :kurze und gute Sätze nach vorne stellen

zu jedem Suchwort 3 gute Sätze ausgeben, das erzeugt auch eine Art Logik

 

Logik

hier die logische Verbindung von Sätzen

kann mit strukturieren Sätzen leichter automatisch realisiert werden

 

Ency more

ist online lesbar und jede(r) kann Sätze einfügen

hat für jedes Wort 3 gute Sätze oder alle

legt gute Sätze in deinen eigenen Speicher

eigener Speicher ist auch offline lesbar und editierbar

En ist die Abkürzung für Ency

Ency ist eine Suchmaschine mit eigenem Satzarchiv

Ency ist eine Satzsuchmaschine

Ency ist eine Dialog(hilfs)maschine, Dialoghelper

Ency kann einen virtueller Chat mit virtuellen Personen, Ansichten Meinungen führen , wenn genügend Sätze
einer Person oder Ansicht vorhanden sind

Ency braucht keinen speziellen Browser

Ency besteht aus Html und php-seiten plus php-progamm

Ency software ist opensource

Ency - hat mehrere Fenster

 

EncyFunktionen sind in diversen Fenstern sichtbar

Ency fenster aktive sind: Suchseite . . . Editor. . . .Dialogfenster

Ency fenster variable sind Voreinstellung Statistik Crawlereinstellung Indexer Parser Transfereinstellung

Ency fenster Dokumentation hat Seiten: History Beschreibung Features Hilfe Installation Impressum

Encysätze haben Datenstruktur

Ency-Datenstruktur eines satzes siehe Beispiel typ Satz: satznr;art;Satztext;Autor;Rank;link.

Ency typischer Satz im Speicher ist : 234613;Krieg;Fragesatz:Krieg ist oft das letzte Mittel der Auseinandersetzung; Rank234;Quelle jasoo; Link>Mittel.

 

Wortliste :

w ist hier die Liste aller bekannten worte alfabethisch

ist auch verwendbar als Index (verzeichnis) einer Hitliste von 3 besten Sätze

wortliste ist auch Index für den Superspeicher

geholt aus tazarchiv Wortarchiv der unis

korrigiert nach falsch geschriebenen

übersetzt in andere Sprachen

 

Editorplatz

ist eine Oberfläche mit der User eigene Sätze eingeben können, ohne einen Homepage zu haben

kann auch Sätze aus dem Netz korrigieren verändern bewerten oder mit einem link versehen

braucht zugangsberechtigung Login

 

 

User

ist jede(r) Besucher der Seite Ency , mit seinem Click auf einen bestimmen Satz bewertet er diesen als pos.

kann über Login und Editor alle Sätze verändern , eigene eingeben usw.

User kann auch Peermitglied werden oder Bioncmember oder eigene Speicher füllen

 

dialogfähig

heisst in beiden Richtungen (das Archiv lesen , im Archiv suchen ) aber auch in das Archiv was schreiben

 

 

Superspeicher

hat alle Sätze in beliebiger Reihenfolge

hat mal ca 100 Millionen Gigabyte ( 100 Milliarden Sätze), heisst auch Archiv oder Superarchiv

hat verschiedene Ebenen: Hitliste, Rohtext-Speicher, parsedSsentences, allsentences.

ist verteilt auf viele Rechner (anfangs < 100 , später ca 10 000)

 

Hitliste

Hat für jedes Wort 3 sätze (hoch gerankt)

braucht 2 GB max

kann eigener Speicher sein

Hitliste die 3 (10) besten Sätze sind hier drin

 

Archivstatistik

zeigt zb "30 Sätze des Suchwortes xxx

zeigt " 50 Sätze vom Autor eingegeben

 

alle Sätze

ency sucht alle Sätze mit x im Internet

macht daraus strukturierte Sätze mit Link zum nächsten Satz

übersetzt sie in alle Sprachen

 

strukturierte Sätze

haben gleiche Form , ähnlichen Satzbau, Muster oder Struktur

haben festgelegte Reihenfolge der Wörter

nur solche sind vergleichbar, leicht übersetzbar , logisch überprüfbar

 

Link

hier Link zum nächsten besten Satz

wird automatisch erzeugt beim indexen des ersten Textes

kann durch User bestimmt werden (auch gesponsert)

ein satz kann mehrere Links haben

 

unbekannte Wörter

kommen in einem Text aus dem Internet vor und sind gleich wieder Anlass zu einer neuen Suche

 

Sponsoring

ein schwieriges Thema, weil Ency eigentlich opensource sein soll,

aber es könnte gesponserte Links geben wenn sie logisch sind und auf der Hand liegen (zB Nokia)

 

 

eigener Speicher

füllen mit spezialwissen

füllen mit geprüften akzeptierten Sätzen

füllen mit korrigierten Sätzen

füllen mit strukturierten Sätzen

 

Crawler durchsucht das Internet

Satztrenner
trennt aus einem Webseitentext nur die Sätze, die mit einem Punkt voneinander getrennt sind
Cache
, die rohen Sätze laufen in diesen Zwischenspeicher cache, wenn zB das Indexieren mal länger dauert
Tagger
kann alle bekannten Worte (in der Wortliste) schon mal indizieren ( Hauptwort, Verb Pronomen etc.),
handTagger,
der unbekannte Wörter definert ungenaue Sätze per Hand in strukturerierte Sätze formt
TextParser kann dann aus den rohen Sätzen den Satzbau analysieren und einen strukturierten Satz ausgeben.

Strukter formt nach festgelegtem Muster alle Sätze zu einem optimalen Satzbau , (leichter übersetzbar) >> structs

Übersetzer macht aus structs Sätze in jeder beliebigen Sprache

Superarchiv für alle Sätze

Ranker speichert die Wertungen der Sätze

 

Suche Suchseite sucht

suchergebnis nimmt aus der Hitliste oder dem Superspeicher usw die Sätze

 

 

Bild 1

  Input     Verarbeitung   Speicher       Output
                     
  Internet       --< \ > 1
  V     ^
|
    |    
  | / - >- / > 2 |
  |   | |     |
  | |   |    
  |   | |     |
  | |   | 3 <
  |   |
optional
|   ^
|
    |
  \---->>--- /   /     \ -- --
                   

 

Ablauf :

Crawler

trennt aus einem Webseitentext nur die Sätze, die mit einem Punkt voneinander getrennt sind

die rohen Sätze laufen in diesen Zwischenspeicher cache, wenn zB das Indexieren mal länger dauert

Ein Tagger kann dazu alle bekannten Worte (in der Wortliste) schon mal indizieren ( Hauptwort, Verb Pronomen etc.), da gibt es im Netz schon einige gute Tagger zB Link41.
handTagger, der unbekannte Wörter definert ungenaue Sätze per Hand in strukturerierte Sätze formt

Ein Parser kann dann aus den rohen Sätzen den Satzbau analysieren und wenn er gut ist, einen strukturierten Satz ausgeben.(schlaue Parser fragen sogar den User, wenns Zweifel gibt)

Structer formt durch ein einmal festgelegtes Muster alle Sätze in einen optimalen Satzbau , um leichter übersetzbar zu werden >> structs

übersetzer macht aus structs Sätze in jeder beliebigen Sprache

Superarchiv

>>>> Hitliste

Suchseite sucht

>>>suchergebnis>>>>eigener Speicher

 

Editor Editorplatz

 


Screenshots : Suchergebnis Ergebnisseite Editor

Suchergebnis

- gesucht war:

die besten 3 Sätze aus unserer Hitliste (editiert )

 
           
1 Ency ist ein dialogfähiges Archiv (Encyclopädie) für alle Sätze, via Internet Link Autor
Quelle
Edit-
next
           
2 Ency hat einen automatischen Crawler und bearbeitet automatisch die gefundenen Sätze mit Tagger Parser und Strukter und einem Editorplatz   Autor Edit next
           
3 Ency kann auch kommunizieren mit virtuellen Personen   Autor Edit next
           

eigenen Satz ......virtual Chat .. .next.> Satz

 

Link1

           
4 Ency sucht im Internet automatisch alle verfügbaren URL´s ab und schaufelt den text (nur Text !) in einen Rohtext-Superspeicher Autor
Quelle
  Edit-next
      |    
5 Ency hat viele Komponenten - siehe Bild - zB auch einen persönlichen Speicher in deinem PC ------->more Autor
Quelle
|| Edit next
           
6 Ency wird die Welt verändern, wenn es alle Sätze Argumente Logiken kennt Autor
Quelle
| Edit next
           

 

 

Crawler

           
1 E-Crawler ist ein Programm des Ency , das nach einer Wortliste alle Internetseiten nacheinander aufruft und die Texte (oder Sätze) herauszieht.   Autor
Quelle
Edit-
           
2 E-Crawler hat einen manuellen Eingang für den Eintrag von Usersätzen oder neuen URL´s   Autor Edit next
           
3 E-Crawler sucht im Internet alle verfügbaren Unterseiten und Links einer Seite und kann verschiedene Suchtiefen bearbeiten (wieviele Link-ebene)   Autor Edit next
           

 

 

Ency Ansatz

Ency Idee ist, im Internet nicht per hand nach Seiten zu suchen sondern automatisch nach guten Sätzen

das Hauptmerkmal ist, alle Sätze der Welt zu sammen und zu vergleichen

dazu braucht man strukturierte Sätze, die alle sie gleiche Form haben

ein Satzarchiv, jeder kann Sätze hinzufügen, auch per Handy

jeder Satz ist interessant, Seiten sind oft langweilig, überflüssig

dazu braucht man einen Parser und Ubersetzungsmaschinen in und aus allen Sprachen

diese Sätze sollen untereinander intelligent verlinkt werden und Quellenangaben erzeugen

es werden 3 Sätze ausgegeben, die den Begriff am besten beschreiben, als Extrakt "

der schlaueste Satz ganz oben hat auch Links zu anderen schlauen Sätzen

man braucht ein grosses Archiv mit einem Archivrechner der Logiken, Widersprüche erkennt

man braucht viele Editoren die per Hand und Kopf noch unklare Sätze analysieren

man braucht viele schlaue User die durch ihre Wahl die Bewertung verfeinern

ein automatischer Crawler sucht aus dem Netz alle Sätze, die er erwischt

Sätze (gute) haben Struktur und sind kurz und logisch

aus Sätze macht ein Parser strukturierte Sätze

strukturierte Sätze, nur solche sind vergleichbar

Sätze (strukturierte) haben festgelegte Reihenfolge der Wörter

Sätze (strukturierte) heissen hier auch Structs

Structs haben Links zum nächsten logischen Struct

Structs logische erlauben logische Systeme, Sequenzen

Structs logische können leicht übersetzt werden

Structs logische sollten editiert werden, verbessert, konkretisiert.

Structs logische ermöglichen weltweiten Dialog (metalog)

Structs logische sollten Eigentum von allen sein

strukturierte Sätze erzeugt ein Structer

strukturierte Sätze ergeben Argumente

Argumente speichern in einem grossen Satzarchiv

Satzarchiv sollen auf Peers verteilt werden

das Archiv wird in dem Moment erweitert, wenn ein User ein neues Suchwort eingibt (siehe auch unten Speicher)

wenn der Ency einmal läuft, wird sich sehr schnell, explosionsartig Wissen ansammeln.

Ency besteht aus einer Software, einem programm , das in einige Hauptgruppen unterteilt ist :

Speicher:
das Problem der vielen Sätze ist natürlich auch ein Problem der Speicherung, wer soll das speichern, wer soll verantwortlich sein

dazu braucht man neben einigen Hauptservern eine dezentralisierte Speicherung , ein p2p system, dh dass jeder Computer, der eingeschaltet ist auch gleichzeitig Speicher und Server ist und eine Teil dieser Daten hat, das kann in einer aphabetischen Reihenfolgen oder anderen stochastischen Ordnung organisiert sein,

dazu gibt es auch schon Vorschläge bzw Realisierungen yacy boinc

von jedem Platz aus kann in dieses System reingewählt werden und von tausenden anderen, die auch gerade aktiv sind in deren Speichern suchen, das wird ein fröhliches Kommunizeren.

Diese Informationen sind natürlich mehrfach abgelagert.

Zum Speicherplatz kann man noch sagen, dass die Datenmengen eher gering sind, Sätze brauchen nur ein paar Byte im Gegensatz zu Bildern oder gar Filmen . wenn wir von 100 milliarden Sätze ausgehen, die ein Mensch noch sinnvoll unterscheiden kann, reichen zur Speicherung wahrscheinlich 10 tausend Homerechner , anfangs einige hundert .

 

 

 

 

 

Ency-Suchseite ist erste Seite der Applikation

      Ency       Satzsuche        
          > suche nach   Sätzen
                       
                     
Vor
ein
stell
ung

.eigenen Satz eingeben......virtual Chat ...... .....next >> Satz

next

EncySuchseite hat Funktionen : Suche, Voreinstellungen, Ergebnisseite, Satz speichern

EncySuchseite hat Suchfenster mit Button:suche

EncySuchseite hat Button für next satz

EncySuchseite erzeugt nach der Suche eine Ergebnisseite

 

 

Ergebnisseite zeigt die Suchergebnisse aus dem Superarchiv oder dem www oder aus
dem eigenen Speicher--->>> Beispiel:: Versuch einer realisierung mit Strato-Datenbank

EncyErgebnisseite hat Funktionen : anzeige der 3besten Sätze mit Autor/Quelle , Save-taste, next

1--> Open Source ist ein Begriff der Gnu-gemeinde für freie Software Autor
Quelle
|-- Edit-
      | next >  
2 Open Source heisst genau offene Quelle und meint freien Zugang zur Software für alle Autor
Quelle
|
|
Edit
      | next >  
3 Open Source könnte die Welt verändern Autor
Quelle
| Edit
      | next >  

Encyergebnisseite wird in das Suchfenster eingeblendet

 

 

Ency Editor unterstützt die Erstellung von EncySätzen

    Satz - Editor                
  Suchwort Satznummer Satzart Rankzahl       Quelle Link auf nächsten Satz   Browse
1          
                     
  ich meine: <
  beispiel Noun Verb              
  :                  
 
------------------------Hilfe -----neue-Suche--------virtual Chat .---------next Sentence  
Status: ----------jasoo: hat 35 neue Sätze erzeugt ---hat 12 Sätze verändert ---hat 3667 Sätze  

 

C-Editor ist Editieroberfläche für Änderung der Sätze oder neue Sätze

Encyeditor hat Funktionen: Statuszeile für Statistik

Encyeditor hat Funktionen: Editorfenster zum Schreiben von neuen Sätzen

  Suchwort Satznummer Satzart Rankzahl       Quelle Link auf nächsten Satz   Browse

Encyeditor hat Funktionen: Befehlszeile: für Hilfe, neue Suche, virtual Chat , next

C-edit hat Zugriff für CUser zum CArchiv

EncyEditor Ich will mit einem Editor (und ich hoffe 1000 andere User auch) manche Sätze verändern, neu schreiben. Das geht leichter, wenn alle Sätze den selben Satzbau, Muster oder Struktur haben >structs

Editierplatz , von dem aus neue Sätze in das System eingespeist werden können, oder vorhandene verändert, diskutiert werden.

Dann möchte ich alle Sätze einzeln in einem Editor markieren können und weitere Veränderungen vornehmen Dann möchte ich Sätze in einem eigenen Speicher ablegen können

Ein manueller Editor könnte diesen strukturierten Satz verbessern, verändern, bewerten, Links anbringen und in einem eigenen Speicher ablegen bzw zur wieder als „guter Satz“ zur Verfügung stellen

Satz-editor: ein Satz des Satzarchives sollte verändert werden können und so auch mit in das Satzarchiv (mit Quelle , date etc)

Satz im Speicher ist : 234613;Krieg;Fragesatz:Krieg ist oft das letzte Mittel der Auseinandersetzung; Rank234;Quelle jasoo; Link>Mittel.

mit Editor geänderte oder neue Sätze haben am Anfang die Rankzahl 0 , die lfd Nummer wird automatisch vergeben

 

SuchVoreinstellungen

Suchkonditionen      
Suchfenster:
sehr einfach
benutzerdefinert
- -alle Suchworte soll vorkommen
- -genaue Textfolge soll vorkommen
- -wenn nicht gefunden, mit Google weitersuchen
- -Gefundene Sätze parsen und immer nur strukturiert speichern
Sprache:
Suchwort auch übersetzen in englisch franz span it

Suchgebiet:
zuerst in eigenen Archiven
zuerst extern dann in Archiven
nur im WWW
nur intern
auch in den eigenen Dateien im Computer oder netzwerk suchen
 
Indexing:( alle Wörter aus der Seite mit archiv abgleichen)
zuerst Seite anzeigen dann indizieren
warten bis die angesurfte Seite analysiert ist
nicht indizieren
Parsing:( Sätze mit Attributen (verb, adjektiv) versehen)
alle Sätze parsen
zu lange Sätze nicht parsen (max. 50 Wörter)
Handparsing zulassen (im extra fenster)
kein Parsing machen
Strukurierte Sätze:
geparste Sätze in eine hierachische Folge bringen (zuerst Subjekt adjektiv verb usw)
alle strukt. Sätze ins pers. Archiv
keine Strukt Sätze
 
Bewertung
Bewertung des Satzes nur auf Anfrage
für alle Sätze ein Bewertungsfeld schalten
Quellenangabe
Quelle des Satzes nur auf Anfrage
für alle Sätze ein Quellenangabe zeigen

Anzeige
zuerst die kurzen Sätze
die besten 3 Sätze: oder mehr>>
zufällige Sätze ausgeben
10 Sätze: oder mehr>>
nur strukturierte Sätze ausgeben
Keine Links auf nächste Seiten
Anzahl der gefundenen Sätze angeben
mit Quellenangabe der gefundenen Sätze
 
Eigenen Speicher füllen
nur mit geparsten Sätzen
nur mit bewerteten Sätzen
nie
Speicher auslesen (es öffnet sich ein extrafenster)
suche im Wörterindex + editieren
suche strukturierten Sätze + Editieren + Bewerten
Anzahl der Sätze ausgeben, Statistik
mit Quellenangabe der gefundenen Sätze
Datenweitergabe an Superarchiv - -(Beschreibung)
nur auf Anfrage
immer
 
       
Suchoptionen speichern
Suchoptionen zurückstellen
  zurück zur Suchseite>>  
       
       
       

 

EncyCrawler sucht automatisch alle Sätze der Welt
Die Suche findet eigentlich zuerst in den Eigenen Speichern und Superspeichern statt, dann erst im Netz

EncyCrawler ist name für Crawler des Encys
Encyc sucht automatisch aus den vorhandenen Sätzen alle neuen Wörter ab
Encyc sucht in der Wertigkeit: suchwort ist.. suchwort hat.. suchwort kann.. usw
Encyc hat auf viele Peers verteilte automatische Sucher, die auch miteinander kommunizieren (wie yacx)
Encyc ergebisse fliessen über den Cparser zum vorarchiv

 

Encycrawler ist eine automatische Suchsoftware die nach Sätzen sucht, zb "apfelkuchen ist .."oder "apfelkucken hat ...." und alle Sätze findet, die mindestens diese beiden Wörter in der Reihenfolge haben . Dieser Crawler hat nur dann Sinn, wenn er alle diese Phrasen automatisch erzeugt sucht und findet.

Archivrechner sucht via Crawler sofort nach neuen unbekannten Begriffen und deren Verzweigungen

Yacy ist eine bereits bestehende Peer-Suchmaschine mit eigenem Crawler, die modifiziert werden könnte

 

Parser

EncyParser parst die Sätze mit dem CParser und erzeugt daraus strukturierte Sätze

Encyextras ist :alle Suchwörter in einer RollBox angezeigt

Encyextras ist :current suche ., was wird grade von anderen gesucht

co

------- php-Coder gesucht

wer will mit mir und anderen eine Satzsuchmaschine programmieren

ich will jeweils nur einen Satz, und den strukturiert und für alle zugänglich

bei meiner Satzsuche gehts um reale Info

mithelfen könnten "Sie", bei der realisierung einer Software für die breite Anwendung bei Boinc

Ency ist eine Suchmaschine mir verteilten Datenspeichern und Crawlern, die in den Internetseiten und Archiven nur die ganzen Sätze sucht und verarbeitet.

Ency Das Ergebnis ist ein riesiges Satzarchiv in dem die User frei suchen können.

Ency hat einen verteilter Massenspeicher mit vielen Aktivitäten : crawlen , indizieren, vergleichen, parsen, intern suchen, privat oder allgemein speichern, ausgeben, übersetzen strukturieren, usw Satzsuche unter den strukturierten kurzen übersetzten wahren fragenden wichtigen temporären indzierten gelöschten Sätzen

 

 

EncyArgumente:

Internet Während die einen noch suchen, lesen die anderen schon- oder was plagen wir uns noch mit einem Suchmaschinentuning wenn es schon geht, Sätze automatisch aus dem Netz zu holen.

Suche Ency liefert pro Suchwort die rohen Sätze, das lässt sich auch automatisieren und schon mal alle erreichbaren Suchwörter abfragen.

Sätze Ich will nicht danebenstehen zu zuschauen, wie täglich 10 Mio Sätze aus dem Netz sprudeln und automatisch in den Speicher und zu den peers gehen und dort brav warten.

Speicher Was will ich noch im Internet fummeln, wenn ich alle Seiten bzw Sätze zuhause habe. Ich suche also in meinem oder anderen Speichern mit nach bestimmten Infos. Was mich auf die Dauer auch ermüden wird, weil ency alles weiss, aber die Sätze zu lang oder zu kompliziert sind. ( und wie man später sehen wird, noch in keinem Zusammenhang stehen)

Editor Ich will mit einem Editor (und ich hoffe 1000 andere User auch) manche Sätze verändern, neu schreiben. Das geht jetzt aber wirklich leichter, wenn alle Sätze den selben Satzbau, Muster oder Struktur haben.

Tagger Ein Tagger kann dazu alle bekannten Worte schon mal indizieren ( Hauptwort, Verb Pronomen etc.), da gibt es im Netz schon einige gute Tagger zB Link41. Parser Ein Parser kann dann viel leichter aus den noch rohen Sätzen den Satzbau analysieren und wenn er gut ist, einen strukturierten Satz ausgeben.(schlaue Parser fragen sogar den User, wenns Zweifel gibt)

Vergleicher Was jetzt schon vorliegt sind strukturierte, und in alle natürlichen Sprachen übersetzbare Sätze. Diese können jetzt leicht verglichen werden und zb bei kleinen Abweichungen beim Autor nachgefragt werden.

Übersetzer Diese übersetzten Wörter liefern wieder viele neue Suchwörter für obigen Automatismus. Und damit viele neue Sätze aus anderen Landessprachen, mit anderen Erfahrungen etc., die schon wieder übersetzt in den Satzspeicher fliessen können. (eine Wahnsinnsmaschine übrigens, sehe ich grade)

Neu zusammen Was wären das für Sätze, die alleine stehen. Besser, oder eher bekannt sind Satzfolgen, Romane, Beschreibungen, Rezepte , Frage-antwort-zusammenhänge.

Dialoge, die jetzt aber von ihrem alten (meist zu komplizierten) Satzbau befreit, ent-ideologisiert wieder neu zusammengesetzt werden können. Dieses Zusammensetzen wird erstmal von der Richtigkeit der Sätze abhängen.

Erkenntnisse Diese Erkenntnisse sind schon Gold wert, sie sind frei verwendbar . Das ist noch ein weites Feld, aber hier wird es auch erst mal interessant, wenn viele User die richtigen Folgen, Links einbringen. (Siehe oben Editor)

Diskurs Das geht auch nicht ohne Diskurs, der sich dann schon als weltweiter internationaler wilder Tanz realisieren lässt, der auch viele Störungen und Brüche erleben wird.

Neue Handlungen Als Traum von mir, und deshalb die ganzen Anstrengungen, sehe ich die Chance, zu neuen Ideen, Handlungen zu kommen, und die Welt ein bisschen bequemer zu machen.


Urheberrechte

Das Programm wird Opensource sein, der folgende Absatz soll Abuse verhindern:

Urheberrechte für kommerzielle Nutzung: Das Computerprogramm Ency und die mit dessen Hilfe erstellten Internetseiten sind Werke im Sinne des § 2 UrhG , da sie wesentliche individuelle Züge eigener geistiger Schöpfung tragen und in ihrer Gesamtheit einzigartig sind. Das zulässige Zitieren kleiner Teile in einem eigenen selbständigen Werk (§ 51 UrhG ) erfordert stets die Angabe der Quelle (§ 63 UrhG ) in einer geeigneten Form (§ 13 UrhG ). Ich erwarte in diesem Zusammenhang folgende Quellenangabe: Rainer Köppl Suchmaschine Satzsuchmaschine Ency Com1 Yula © 2004 2005 2006 www.majdaj.de


Geschichte::

ich suchte seit Jahren im Internet nach neuen Konzepten, wie die Welt besser zu durchschauen, zu begreifen ist. dabei fand ich immer mehr überflüssige Seiten, nichtssagende Firmenpräsentationen usw .

wenn man zb 3 gute Sätze hat von einem gesuchten Begriff, kann man auf die nächsten Sätze klicken, weil man ja sowieso immer nur einen Satz erfassen kann und kommt dann zu dem Unter - oder Oberbegriff zB Ast, zweig, blatt, baum oder zu einem ganz anderen Aspekt, einem schlauen Satz dazu oder ähnliches.

alle vernünftigen Sätze aufgereiht und verlinkt, werden das gesamte bisherige Wissen darstellen und zu neuem anregen

man kann sich durch die ganzen Satzgebilde linken und kommt so, ohne 300 Seiten zu lesen , zu dem gewünschten Ergebnis

man wird Fragen beantworten können zb wie ein Haus zu bauen ist oder ein Fussballspiel zu gewinnen ist

es können Ratschläge , Konzepte, Logiken ausgegeben werden

wie funktioniert jetzt genau eine Suchmaschine die nach schlauen Sätzen sucht

eine Suchmaschine ist natürlich davon abhängig was ich eingebe, zb wenn ich heute das Wort "Hirsch" eingebe bekomme ich 2 millionen Seiten, in denen das Wort Hirsch vorkommt, das ist mir zu viel. ich will wissen, was ist ein Hirsch, oder wo gibts Hirsche, also

ich möchte 3 Sätze : was ist ein Hisch, also eine Definition und andere schlaue Sätze die dem Menschen weiterhelfen, der gerade das Wort Hirsch sucht.

dazu muss ich alle Sätze, die das Wort Hisch beinhalten danach abklopfen ob sie intelligent sind ob sie "gefallen", dh dass diese Sätze eine Bewertungsknopf haben sollten oder eine Automatik

mit der Zeit stellt sich eine Rangfolge von Sätzen ein, die der Reihe nach gut sind oder nett oder richtig oder weiterhelfen und die auch Links haben zum nächsten schlauen Zweig Hirsch un co und

so wird sich allmählich das ganze Wissen der Menschheit zu einer grossen komplexen Kugel formieren, untereinander verlinkt und verzweigt und

wenn alle Begriffe mit Logik und Gefühl getestet und als gut bewertet sind , müsste eine Maschine dabei herauskommen, die die "Wahrheit" sagt Auszug aus dem Interview rainer Verfasst am: Di Feb 22, 2005

Schön wäre jetzt noch

Endlossuche: jedes dieser Wörter (des Satzes) automatisch als neues Suchwort nehmen und damit eine neue Suche zu starten , das Perpetuum mobile. Allo wird jetzt fragen, was soll das bringen ?. Fun

Interaktivsuche: ein Click auf ein bel. Wort dieses Satzes sollte eine neue Suche veranlassen und das Ergebnis anzeigen

 

 

FAQ´s

Fragen Antworten

Dir ist schon klar, dass...

* man, um "alle Sätze der Welt" (unendlich viele...) zu indizieren, eine ganze Menge Rechen- und Speicherkapazität braucht? Zum Vergleich: Google hat einen Cluster von über 50000 Maschinen im Einsatz. Gut, mit den erwähnten P2P-Techniken hat man da einen Ansatz. Bei der Rechnung scheint mir aber Redundanz (unerlässlich bei P2P) nicht berücksichtigt zu sein.

* automatisches Übersetzen zwischen natürlichen Sprachen ein in der aktuellen Forschung noch nicht gelöstes Problem ist (und, wie ich annehme, äquivalent zum KI-Problem ist)?

* aus dem gleichen Grund das Erkennen von logischen Implikationen in natürlichen Sätzen ebenso schwierig (nicht universell lösbar) ist?

* im Netz auch viele unsinnige, falsche, falsch geschriebene, völlig inhaltsbefreite und andere unbrauchbare Sätze unterwegs sind?

* es da erheblich Urheberrechtsprobleme geben wird? Du kannst nicht einfach alle möglichen Sätze in irgendeinen Index aufnehmen.

Genausogut könntest du dir vornehmen, einen Menschen nachzuprogrammieren, oder lieber gleich tausende verschiedene. Viel Erfolg dabei!

Jan 'jast' Krüger

es macht keinen Sinn, alle Sätze der Welt zu indizieren. Sinnvoller ist, die Grammatik der Sätze zu analysieren und den Satz in diverse Tokens zu zerlegen (etwa Subjekt, Verb, Objekt). Die Datenbank enthält dann eine Liste der Verben, Adverbien, Substantive, etc und kann mit ihrer Hilfe Inhalte im Web besser finden.
- der Best choice einer Programmiersprache für die Realisierung einber semantischen Suchmaschine ist PHP nicht, allerdings gibt es auch hier eine Software, siehe auch http://www.w3.org/RDF/#developers
Bei weiterem Interesse: fragen, war mein DA-Thema *g* - - - von - -eViL_oNe Experte  


Antworten auf die häufigsten Fragen

unendlich viele Sätze , muss nicht sein, es gibt wahrscheinlich nur 100 Milliarden,
die sinnvoll unterscheidbar sind, mit diesen will ich arbeiten.

Speicherplatz: 100 Giga Sätze mal 1000 Byte sind nach meiner Rechnung ca 10000 Rechner mit P2P und je 10 Giga, das müsste gehen (ich hab auch eine Lösung für das Boinc.System
angedacht) am Anfang reichen einige hundert.

Automatisch übersetzen ist noch immer ein Problem, deshalb will ich die Sätze automatisch

Und mithilfe von vielen Editoren und Autoren strukturieren

Logische Verbindungen der Sätze ist auch schwierig , da warte ich getrost auf Lösungen aus

den Unis. Bis dahin möchte ich jedem Satz einen Link anhängen zum nächsten (besten) Satz.

Und zu jedem Suchwort 3 gute Sätze ausgeben. Das erzeugt auch eine Art Logik

Falsche/richtige Sätze möchte ich durch ein Bewertungssystem lösen, vorher eine kleine

Plausibilitätsprüfung. So kommen die besten Sätze nach oben.

Schlechte Sätze kann man dem Autor zurückschicken zu Korrektur oder zur Diskussion mit ähnlichen Sätzen

Urheberrecht der Sätze könnte so geklärt werden , dass erstmal alle Sätze gesammelt werden,
Urheberrecht dieser seiten

wie bei anderen Suchmaschinen auch.

Danach autorisierte oder korrigierte Sätze können extra abgerufen werden und sind dann

opensource, aber auch gleichzeitig copyright des Encys.

Sätze können dem Ency "geschenkt" werden.

Alle Sätze eines Menschen ergeben schon ein gutes virtuelles Bild, dh man könnte mal mit

diesem " klon" einen virtuellen dialog führen

oder diese sätze dem eigenen Speicher hinzufügen.

Semanticweb Wissensmanagment etc. versteh ich nicht , ich will nicht im Internet fummeln sondern nur gespeicherte Sätze bearbeiten.

Fertige Satzspeicher Wissensmanagment haben meist einen kommerziellen Ansatz, das gefällt mir nicht, engt ein.

Alle Sätze indizieren muss nicht sein, ich denke es reicht, die ersten paar Millionen Sätze nach den Suchwörtern der User zu indizieren und dann (optional) mit den Rest eine (länger dauernde) Volltextsuche zu machen, bis nach und nach alles indiziert ist.

Dein Vorschlag, die Datenbank enthält eine Liste von Verbs etc und sucht damit im Netz>>

Es ist anders herum: zuerst alle erreichbaren Sätze reinschaufeln und nach und nach indizieren.

Die Suche zuerst im eigenen Archiv, dann im Superarchiv (P2P) . Wenn nichts gefunden wird,

kann man googlen oder yacyn und die Sätze reinholen.

Nochmal zu semantische Suche, ich will nicht semantisch im Internet suchen, sondern im eigenen

Superspeicher.

Im Superspeicher , Superarchiv , p2p -verteilte Satzspeicher sind fertig indizierte möglichst strukturierte Sätze mit Autor, Links Bewertung Satzart etc.

Meine urgent Fragen wären:

Wie schätzt ihr die Möglichkeit eines internationalen Dialogs mittels strukturierter Sätze ein.?

Wie finde ich einen seriösen Sponsor?

Wird Boinc die Aufgabe des verteilten Suchens und Speicherns übernehmen?

Und wie geht es weiter ....

 

Futur:

2008: das System Ency, wenns mal läuft, sucht in allen Archiven Foren Bibliotheken alle Sätze von Moses über Ramses
bis Einstein und Bush und deine Sätze . Boinc-Anfrage.

2009: das System ist besonders interessiert an neuen unbekannten Sätze, weil fast alle anderen schon gespeichert sind.

2010: das System braucht immer mehr Speicher, es kauft, leiht, raubt, okkupiert automatisch immer mehr Rechner.

2011: um schliesslich alle Sätze in allen Sprachen zu haben und die Antworten dazu.

 

Gute Wünsche von:

citycomet :
hugo12 :
snakekaplan
andreas :

Good News, Bad News, Absagen , Kritik:

email an den Verfasser ::: - - -vio äd birotec ro

nach oben